OpenSource
Issue Date: 2025-11-25 [Paper Note] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe, Kaichen Zhang+, arXiv'25, 2025.11 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング(SFT)で874Kサンプルのデータセットを構築し、強化学習(RL)で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment
pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/
SoTAなVLMを構築するためのオープンなデータとレシピらしい
#ComputerVision #Pocket #NLP #MultiModal #OpenWeight #VisionLanguageModel #One-Line Notes
Issue Date: 2025-10-04 [Paper Note] LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training, Xiang An+, arXiv'25, 2025.09 GPT Summary- LLaVA-OneVision-1.5は、計算コストと財政コストを削減しつつ最先端のパフォーマンスを実現する新しい大規模マルチモーダルモデルです。オープンで効率的なフレームワークを提供し、85Mの事前学習データセットと26Mの指示データセットを含む大規模キュレーションデータセットを構築しました。効率的なトレーニングフレームワークにより、限られた予算内でのトレーニングが可能となり、幅広い下流タスクで競争力のある性能を示しています。特に、LLaVA-OneVision-1.5-8Bは18のベンチマークでQwen2.5-VL-7Bを上回り、4Bモデルは全ての27のベンチマークでQwen2.5-VL-3Bを超えています。今後、LLaVA-OneVision-1.5-RLのリリースも予定されています。 Comment
元ポスト:
各種ベンチでQwen2.5-VL超え
pj page: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
ポイント解説:
#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenWeight #Encoder #Backbone
Issue Date: 2025-09-16 [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25 GPT Summary- 本論文では、OpenVisionのアーキテクチャを簡素化し、トレーニング効率を向上させる方法を提案。テキストエンコーダーと対照損失を削除し、キャプショニング損失のみを使用したOpenVision 2を導入。初期結果は、トレーニング時間を約1.5倍短縮し、メモリ使用量を約1.8倍削減することを示し、10億以上のパラメータにスケールアップ可能であることを強調。 Comment
元ポスト:
事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善
元ポスト:
v2へアップデート:
事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善
テクニカルペーパーが出た模様
- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25
HF:
https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page:
https://ucsc-vlaa.github.io/OpenVision/
CLIP, SigLIPとは異なり完全にオープンなVision Encoder
v2の解説:
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #PostTraining Issue Date: 2025-06-18 [Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25 GPT Summary- 本研究では、教師ありファインチューニング(SFT)と強化学習(RL)の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment
元ポスト:
様々なtakeawayがまとめられている。
SFT,RLに利用されたデータも公開
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。
また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的
#Pocket #NLP #LanguageModel #PostTraining Issue Date: 2025-02-01 Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, arXiv'24 GPT Summary- Tulu 3は、オープンなポストトレーニングモデルのファミリーで、トレーニングデータやレシピを公開し、現代のポストトレーニング技術のガイドを提供します。Llama 3.1を基にし、他のクローズドモデルを上回る性能を達成。新しいトレーニング手法としてSFT、DPO、RLVRを採用し、マルチタスク評価スキームを導入。モデルウェイトやデモ、トレーニングコード、データセットなどを公開し、他のドメインへの適応も可能です。 Comment
元ポスト:
#NLP #LanguageModel #SyntheticData #OpenWeight Issue Date: 2024-11-06 Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv'24 GPT Summary- Hunyuan-Largeは、3890億パラメータを持つオープンソースのTransformerベースの専門家混合モデルで、最大256Kトークンを処理可能。言語理解や生成、論理推論などのベンチマークでLLama3.1-70Bを上回り、LLama3.1-405Bと同等の性能を示す。主な特徴には大規模な合成データ、混合専門家ルーティング、キー・バリューキャッシュ圧縮、専門家特有の学習率戦略が含まれ、今後のモデル開発に向けた洞察も提供。コードとモデルは公開されている。 Comment
合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。
#Pocket #NLP #LanguageModel #OpenWeight Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv'24 GPT Summary- LMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 Comment
Model Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI
#Article #NLP #LanguageModel #ReinforcementLearning #OpenWeight #read-later #Selected Papers/Blogs Issue Date: 2025-11-27 [Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team, 2025.11 Comment
HF: https://huggingface.co/PrimeIntellect/INTELLECT-3
元ポスト:
著者ポスト:
完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい
#Article #NLP #LanguageModel #Reasoning #OpenWeight #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Olmo 3: Charting a path through the model flow to lead open-source AI, Ai2, 2025.11 Comment
元ポスト:
解説:
post-LN transformer
OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
ポイント解説:
official livestream video:
解説:
Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし!!
Olmo3のライセンスに関する以下のような懸念がある:
#Article #NLP #LanguageModel #OpenWeight #read-later #Selected Papers/Blogs #DeepResearch Issue Date: 2025-11-19 DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment
元ポスト:
著者ポスト:
著者ポスト2:
著者ポスト3:
demoをほぼ無料で実施できるとのこと:
#Article #Pretraining #NLP #LanguageModel #Blog #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-30 Marin 32B Retrospective, marin-community, 2025.10 Comment
元ポスト:
#Article #NLP #LanguageModel #DiffusionModel #Coding #SmallModel #OpenWeight Issue Date: 2025-10-05 CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10 Comment
元ポスト:
HF:
https://huggingface.co/Salesforce/CoDA-v0-Instruct
cc-by-nc-4.0
#Article #NLP #LanguageModel #AIAgents #Repository #DeepResearch Issue Date: 2025-09-13 OpenManus, Liang+, FoundationAgents, 2025.04 #Article #NLP #LanguageModel #AIAgents #Repository #DeepResearch Issue Date: 2025-09-13 OpenDeepResearch, LangChain, 2025.07 Comment
#Article #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenWeight #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09 Comment
HF:
https://huggingface.co/LLM360/K2-Think
code:
-
https://github.com/MBZUAI-IFM/K2-Think-SFT
-
https://github.com/MBZUAI-IFM/K2-Think-Inference
RLはverl+GRPOで実施したとテクニカルペーパーに記述されているが、当該部分のコードの公開はされるのだろうか?
RLで利用されたデータはこちら:
- [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv'25
元ポスト:
#Article #NLP #LanguageModel #MultiLingual #OpenWeight Issue Date: 2025-09-03 APERTUS: DEMOCRATIZING OPEN AND COMPLIANT LLMS FOR GLOBAL LANGUAGE ENVIRONMENTS, Apertus Team, 2025.09 Comment
HF: https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
元ポスト:
1811カ国語に対応した、スイス発のOpenSource(=学習データ、学習のレシピ、学習データを再現するためのスクリプトも公開されている) LLM。8B / 70Bが存在。
Apache 2.0 + Apertus LLM Acceptable Use Policy
解説:
#Article #SpeechProcessing #OpenWeight #AutomaticSpeechRecognition(ASR) Issue Date: 2025-08-29 OLMoASR: A series of open speech recognition models, Ai2, 2025.08 Comment
元ポスト:
オープンソースのOLMOシリーズから英語のASRが登場
モデルとトークナイザはWhisperと同様な模様
technical report:
https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf
#Article #NLP #LanguageModel #SmallModel #OpenWeight Issue Date: 2025-08-20 OLMo-2-0425-1B-early-training, allenai, 2025.08 Comment
元ポスト:
OLPO 2 1Bモデルの10000step/21B tokenごとの事前学習時のチェックポイント群。(0--40000step, 0--63B tokenizerの4つが存在している模様)。事前学習のearly stageの研究用にリリース。興味深い
たとえば
- [Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM
Pre-training, Changxin Tian+, arXiv'25
- Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv'25
を試してみたりできるのだろうか。
関連:
- OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N/A, arXiv'24
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
#Article #NLP #LanguageModel #Reasoning #Distillation #OpenWeight Issue Date: 2025-07-18 OpenReasoning-Nemotron: A Family of State-of-the-Art Distilled Reasoning Models, Nvidia, 2025.07 Comment
DeepSeek-R1-0528から応答を合成したデータでSFTのみを実施し、32BでQwe3-235B-A22Bと同等か上回る性能。アーキテクチャはQwen2.5。データはOpenCode/Math/Scienceを利用。
元ポスト:
データも公開予定
#Article #Tutorial #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #Selected Papers/Blogs Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment
元ポスト:
SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている
学習/評価スクリプトなどがリリース:
#Article #SpeechProcessing #AutomaticSpeechRecognition(ASR) Issue Date: 2025-05-06 parakeet-tdt-0.6b-v2, Nvidia, 2025.05 Comment
元ポスト:
2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Already supports Nvidia Parakeet
Simultaneously supporting Linux/Windows/macOS
https://github.com/patui/Nosub
#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs Issue Date: 2025-03-14 OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3 Comment
真なる完全なるオープンソース(に近い?)OLMOの最新作
学習が安定しやすいpre LNではなく性能が最大化されやすいPost LNを採用している模様。学習を安定化させるために、QKNormやRMSNormを採用するなどの工夫を実施しているらしい。
#Article #NLP #LanguageModel #AIAgents #DeepResearch Issue Date: 2025-03-12 Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02 #Article #NLP #LanguageModel #Repository Issue Date: 2025-01-26 Open R1, HuggingFace, 2025.01 Comment
HFによるDeepSeekR1を完全に再現する取り組み
Update1: https://huggingface.co/blog/open-r1/update-1
Update2:
https://huggingface.co/blog/open-r1/update-2
512機のH100を利用…
#Article #NLP #LanguageModel #SpokenLanguageProcessing #OpenWeight Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment
音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ?に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。
installの説明に `Whisper-large-v3` をインストールする旨が記載されているので、Whisper-large-v3で認識した内容に特化したSpeech Encoder/Adapterが学習されていると考えられる。https://github.com/user-attachments/assets/cea090e7-a42a-476d-85f6-50199d9ae180"
/>
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings
マルチモーダルなLLMの基本的な概念については上記参照のこと。
#Article #Survey #NLP #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #Japanese Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment
LLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。
#Article #Survey #NLP #LanguageModel #Blog #OpenWeight Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 Comment
ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。
#Article #Tutorial #NLP #LanguageModel #GenerativeAI #Repository Issue Date: 2024-04-14 Open Source Cookbook Comment
HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning(Prefix Tuningとかそっち系の話だと思われる)など、現在16種類ほどあるらしい。
改めて見たら数がかなり増えていた