PostTraining


Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #mid-training #read-later #Selected Papers/Blogs #Scheduler #One-Line Notes #Data Issue Date: 2026-03-07 GPT Summary- ターゲット領域向けの言語モデルの構築には、汎用ウェブテキストでの事前学習とターゲットデータでのファインチューニングが行われる。驚くべきことに、ファインチューニング中に汎用データをリプレイすることで、ターゲットタスクの性能が向上することが確認された。具体的には、4百万トークンのターゲットデータを使用した場合、汎用リプレイによりデータ効率が最大1.87倍、ミッドトレーニングで2.06倍向上した。また、事前学習中にターゲットデータが少ないほどリプレイ効果が高いことが分かった。80億パラメータのモデルでの実験により、エージェントのウェブナビゲーション成功率やバスク語の質問応答精度が向上したことを示した。 Comment

元ポスト:

Loading…

事前学習以後の中間学習やファインチューニング(事後学習)において、特定のドメインやタスクに特化させるための追加の学習を行う際に、破壊的忘却を防ぐために一定量の事前学習データを混ぜることはよく行われていたが、実際には破壊的忘却を防ぐだけでなく、ターゲットドメインの学習効率を大幅に高める(1.5Bモデルの実験ではファインチューニングでは1.87倍、中間学習では2.06倍)ことがわかり、これは70B級の大規模なモデルでも同様に生じることが明らかになった、という話らしい。興味深い。




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #Live #One-Line Notes #Environment Issue Date: 2026-03-05 GPT Summary- SWEエージェントの強化学習を支えるため、実世界のソフトウェア工学タスクを自動収集し、再現可能な環境を構築するSWE-rebench V2を提案。20言語・3,600超のリポジトリから32,000以上のタスクを集め、厳選したコンテンツで信頼性のあるトレーニングデータを提供。また、タスク生成に必要なメタデータも加え、エラー要因を明示。データセットと関連リソースを公開し、多様な言語での大規模なSWEエージェントのトレーニングを支援。 Comment

元ポスト:

Loading…

environment: https://huggingface.co/datasets/nebius/SWE-rebench-V2?row=5

関連:
- [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05

以前の研究ではpython特化だったが、今回はlanguage-agnosticな環境になっている。

合成データではなく、実際のissue-resolutionのヒストリに基づいたデータセットであることに注意




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Annotation #DPO #Selected Papers/Blogs #Personality Issue Date: 2026-03-04 GPT Summary- CharacterFlywheelは、Instagram、WhatsApp、Messenger向けのLLM改善のための反復プロセスであり、LLaMA 3.1を基に15世代のモデルを洗練しました。2024年7月から2025年4月にかけてのA/Bテストで、8モデル中7モデルが新たなエンゲージメント向上を示し、最大8.8%の幅、19.4%の深さで改善しました。指示遵守率も大幅に向上し、過学習防止策やダイナミクスの対策も考慮されています。この研究は、数百万人のユーザー向けのLLM活用における科学的理解を進めます。 Comment

元ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #PEFT(Adaptor/LoRA) #SelfCorrection #Test-Time Scaling #read-later #VisionLanguageModel #3D (Scene) #Robotics #EmbodiedAI #Initial Impression Notes #Test Time Training (TTT) Issue Date: 2026-02-28 GPT Summary- 具現化されたLLMsは高レベルのタスク推論を持つが、過去の失敗を振り返れず、ミスが繰り返される独立した試行となる。この問題に対処するため、Reflection Test-Time Planningを導入し、二つの省察モードを統合。実行中の反省では内部評価を通じて候補アクションを生成し、実行後の反省では外部反省を基にモデルを更新。新たに設計したベンチマークで実験を行い、ベースラインモデルに対して有意な改善を示した。定性的分析では、反省を通じた行動の修正が強調された。 Comment

pj page: https://reflective-test-time-planning.github.io/

元ポスト:

Loading…

- [Paper Note] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness, Chenming Zhu+, ICCV'25, 2024.09

まだ全然理解できていないが、Action Model, Internal reflection LLM, external reflection LLMとしてLLaVA 3Dと呼ばれるモデルをベースにし、単一のモデルで3種類のモードを学習するようである。そしてテスト時にはLoRAを用いたTTTを実施するようである。




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #SoftwareEngineering #CurriculumLearning #ToolUse Issue Date: 2026-02-28 GPT Summary- ツール・インターフェースの質がLLMベースのエージェントの性能に影響を与えることに着目し、Trace-Free+というカリキュラム学習フレームワークを提案。これにより、トレースのない環境で再利用可能なインターフェース使用パターンを習得を促進。構造化ワークフローに基づくデータセットを構築し、実験では未知のツールに対する改善とクロスドメイン一般化が確認された。最終的に、ツール・インターフェースの最適化がエージェントのファインチューニングに有効であることを示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Reasoning #Length Issue Date: 2026-02-28 GPT Summary- LLMsの効率的な推論機構を調査し、正確さを条件とした推論の長さ分布を提案。訓練プロセスは長さ適応と推論の洗練に基づく二段階であり、約20万GPU時間をかけた実験を実施。重要な発見として、容易なプロンプト訓練が正の報酬信号の密度を高め、長さの崩壊を防ぐことが確認された。学習された長さのバイアスはドメインを超えて一般化可能であり、知見をQwen3シリーズに適用・検証し、堅牢性を示す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Dataset #Supervised-FineTuning (SFT) #Evaluation #Reasoning #mid-training #VideoGeneration/Understandings #4D (Video) Issue Date: 2026-02-27 GPT Summary- ビデオ推論の能力を探究するため、100万本以上のビデオクリップを含む前例のないVBVRデータセットを導入。200の推論タスクを網羅し、既存データセットの約1000倍の規模で、評価フレームワークとしてVBVR-Benchを提示。これにより、ビデオ推論の研究における再現性と解釈可能性を向上させ、新規タスクへの応用の初期兆候を示す。VBVRは次の研究段階の基盤となる。データ、ツール、モデルは公開中。 Comment

pj page: https://video-reason.com/

元ポスト:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #read-later #Selected Papers/Blogs #Off-Policy Issue Date: 2026-02-24 GPT Summary- オフポリシーRLアルゴリズム「OAPL」は、大規模言語モデルのトレーニングにおいて重要度サンプリングを使用せず、Lagged Inferenceポリシーを採用。OAPLはGRPOを上回り、DeepCoderと同等の性能を維持しつつ、訓練時間を3分の1に削減。また、Pass@k指標でのスケーリング改善を示し、400ステップ以上のラグを持ちながらも効率的なポストトレーニングを実現する。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Reasoning #LongSequence #mid-training #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-02-24 GPT Summary- LLMは長い連鎖思考(Long CoT)推論を学ぶのが難しく、効果的な推論は安定した分子のような構造を持つことが重要。これには深層推論、自己反省、自己探索の三つの相互作用が関与し、キーワードの模倣ではなくファインチューニングから生じることが示された。有効な意味的異性体が迅速なエントロピー収束を促進し、Mole-Synを提案してLong CoT構造の合成を導き、性能とRLの安定性を向上させる。 Comment

元ポスト:

Loading…

結構読むのが大変そうなのでskim readingと元ポストを拝見した上でざっくりまとめると以下のような感じだろうか。takeaway部分により詳細な話が書かれているので必要に応じて読むとよさそう。

良いlong CoTには分子のような推論の内部構造が存在し、それらは適切な内部構造を持つ合成データによってSFTをすることで身につけさせられる。逆に、人間が作成したtrajectoryなどはこれらの分子構造が均質化されておらず、学習が不安定になる(表層的なキーワードから学習されたりする)。
良いlong CoTに必要な要素として、本研究では以下の3つのbehaviorが挙げられている:

- Self-Exploration: モデルが柔軟に異なるアイデアやパスを探索する力
- Self-Reflection: モデルが過去のstepを確認し修正する能力(分子の構造を安定化させるような役割を果たす)
- Deep Reasoning: 原子結合のような、論理的なstepを強力に結びつけた主となる論理フロー




Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #DiffusionModel #Scaling Laws #KeyPoint Notes #DownstreamTasks Issue Date: 2026-02-18 GPT Summary- 拡散型言語モデルは生成速度向上の可能性から自己回帰型モデルの代替手段となり、マスクド拡散が優位なアプローチとして注目されている。本研究では、一様状態拡散法と補間的離散拡散法のスケーリング法則を初めて提示し、マスクド拡散モデルが約12%のFLOPs効率向上を示すことを報告。パープレキシティは拡散ファミリー内で有用だが、他のファミリーとの比較では誤解を招くことがある。全手法を17億パラメータにスケールすると、一様状態拡散は依然として競争力を保ちつつ、GSM8Kで他モデルを上回りつつパープレキシティは悪化する結果となった。 Comment

元ポスト:

Loading…

pj page: https://s-sahoo.com/scaling-dllms/

Masked Diffusion Language Model (MDLM)はperplexityの観点では高い性能が出るが、異なるDiffusion Algorithmを比較する上でPerplexityが良い指標なのか?がResearch Questionで、3種類の拡散モデル[^1]に基づくモデルを同一の計算量の元でスケーリング時の挙動を分析したとのこと。

その結果、計算量を投入すればするほどARモデルのような綺麗なスケーリング則が全てのモデルで見出されたが、PerplexityがARと同等の性能に到達するためには、MDLMが14--16倍、Duoが23倍、Eso-LMが32倍の計算量を要した。
Perplexityの観点ではMDLMが良さそうだが、Perplexityが良いからといって、サンプル効率、あるいは下流タスクの性能が良いとは限らないため追加の分析を実施。

スループット(token/sec)を変化させて検証したところ、ARは品質が高いが遅く、スループットが高い領域ではDuoがサンプル効率と品質のパレート最適であることがわかり、中くらいの領域ではEso-LMがパレート最適、低い領域でさARがパレート最適であり、スループットと品質の観点ではMDLMは劣ることがわかった。

その後、パラメータ数を1.7Bに固定し、Nemotron Pretrainingデータセットで事前学習をし、zeroshotでの(尤度ベースでの)下流タスクの性能を見ると、MDLMよりもDuoの方が5/7のベンチマークで性能が良く、その後GSM8KでSFTすると、DuoのPerplexityは低かったにも関わらず、全てのモデルを上回った。

[^1]: MDLMに加えて、Uniform-state Diffusion (Duo), Interpolating Diffusion(Eso-LM)というモデルで比較しているようである。この辺はあまり詳しくないので勉強したい。

という話が元ポストに書かれている。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #Diversity #Environment Issue Date: 2026-02-17 GPT Summary- LLMの進展により、自律エージェントが複雑なタスクを実行する能力が向上したが、信頼できる環境の不足がスケールを制約している。本研究では、Agent World Model(AWM)という合成的な環境生成パイプラインを提案し、1,000のシナリオを用意し、平均35ツールとの相互作用を可能にする。これにより、信頼性の高い状態遷移と高品質な観測が得られ、マルチターンのツール使用エージェントに対する強化学習で有効性を確認。合成環境のみでも良好な分布外一般化が得られることを示した。コードは公開されている。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #DiffusionModel #SelfCorrection #Test-Time Scaling Issue Date: 2026-02-13 GPT Summary- MDMの問題を解決するために、生成中のトークンを修正する「プログレッシブ自己修正(ProSeCo)」フレームワークを提案。これにより、アンマスクされたトークンの修正が可能になり、質の向上と生成速度の最大2-3倍の高速化を実現。実験によって、ProSeCoがMDMを超える性能を示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Off-Policy #KeyPoint Notes #Open-endedTasks #ConfidenceBased Issue Date: 2026-02-13 GPT Summary- NRT(ネイティブ推論トレーニング)は、教師ありファインチューニングと強化学習の依存を克服し、標準的な質問-回答ペアのみでモデルが自ら推論を生成します。推論を潜在変数として扱い、統一訓練目標に基づいて最適化問題としてモデル化することで、自己強化フィードバックループを構築。LlamaおよびMistralモデルにおいて、NRTが最先端の性能を達成し、従来の手法を大幅に上回ることを実証しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=abAMONjBwb

verifier freeでreasoning能力を向上させるRL手法で
- SFTにおいてexpertsのtrajectoryが必要な課題
- RLVRにおいてverifiableなドメインでしか学習できない課題

の両方に対処する。

具体的にはQAデータが与えられたときに、Questionに対してモデルにreasoning trace zを生成させ、zを生成した後にanswerを生成させる。zに対するTrace Rewardとanswerトークンに対するモデルのconfidenceを報酬として用いてRLする。

SFTやverifier freeな先行研究よりも9種類のreasoningベンチマークで高い性能を達成している。また、answer tokenのconfidenceに対する3種類の集約方法(平均, 1/pによって加重平均をすることで難しいトークンの重みを強める, 対数尤度を用いる)も提案手法も提案され比較されている。
image

論文中ではオフポリシーRLとして最適化する旨記述されているが、appendix記載の通りreasoning trace zを生成しているので、オンポリシーRLな性質も備えていると思われる。




Paper/Blog Link My Issue
#NLP #ReinforcementLearning #Chain-of-Thought #Reasoning #SelfImprovement #RLVR #PRM #RewardModel #One-Line Notes #Rubric-based Issue Date: 2026-02-12 GPT Summary- CoTがLLM推論において重要である一方で、報酬モデルの訓練には多くの人手が必要で、静的モデルは変化に対応しづらい。これを解決するため、自己進化するCoT報酬アプローチ「RLCER」を提案。自己提案・自己進化するルーブリックにより、結果報酬なしでも信頼性のあるCoT監視信号を提供し、結果中心のRLVRを上回ることを実証。また、ルーブリックは推論時のパフォーマンスを向上させる効果もある。 Comment

元ポスト:

Loading…

CoTを評価するためのルーブリックを自己進化させて、CoTの評価もしつつ、outcomeに基づくRLVRを実施するといった処理を単一のポリシーで実現する、というような話に見える(過去のCoTに対する監視手法ではPRMが別途用意されていた)。
image

単にRLVRをする場合よりも最終的な性能が向上し、特にlong runの場合の安定性が高まっているように見える。
image




Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Regularization #KeyPoint Notes #DownstreamTasks #Reading Reflections Issue Date: 2026-02-12 GPT Summary- 事前訓練での重みの減衰がモデルの可塑性に与える影響を分析。高い減衰値が微調整時に性能向上を促進し、直感に反するトレードオフを引き起こすことを示す。重みの減衰が線形分離可能な表現を促進し、過学習を抑制する役割も明らかに。ハイパーパラメータ最適化における新たな評価指標の重要性を強調。 Comment

元ポスト:

Loading…

事前学習時にWeight Decayを大きくするとPerplexityは悪化する場合があるが、Perplexityが悪化していたとしてもSFTを通じて最終的に得られるdownstream task性能のgainが高い場合がある、という話に見える。つまり、Findings2に書かれている通り、事前学習時にPerplexityを最小化するようなWeight Decayの設定はdownstream性能を高めるという観点では必ずしも必須ではない。ではなぜこのようなことが起きるかというと、Weight Decayを大きくするとAttentionのQK matricesのpseudo-rank(=行列の95%を説明するのに必要な特異値の割合)が改善されることが実験により観察され、一般的に低ランクな表現は正則化の結果として現れることから、シンプルな表現によってよりモデルがロバストになるのでは、という点が考察されている。また、実際にValidation dataとTraining dataのlossの差分を見ることで、Weight Decayが大きいことによってtraining dataへのoverfitが抑制されていることが観測された。
image

Weight DecayはもともとRegularizationとしての働きがあるので、それはそうなのだろうな、という感想を持ったのだが、特にQK matrixが正則化の影響を強く受けるというのはおもしろかった。つまり、クエリ対してよりロバストな写像を学習できているということだと思われる。

Perplexityが事前学習の良さを測るために必ずしも良いわけではないよ、という意味での関連:
- [Paper Note] Perplexity Cannot Always Tell Right from Wrong, Petar Veličković+, arXiv'26, 2026.01




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Selected Papers/Blogs #Generalization #KeyPoint Notes Issue Date: 2026-02-12 GPT Summary- SFT(教師ありファインチューニング)の重要性を強調し、小規模データセットでの繰り返しトレーニングが大規模データセットでの単一エポックよりも優れていることを示す。Olmo3-7Bが400サンプルで128エポックのトレーニングによって、51200サンプルでの1エポックよりも12-26%の性能向上を実現。トレーニングトークンの精度が改善の指標となり、このパターンは一貫して確認される。これにより、高価なデータスケーリングに代わる実践的アプローチを提供し、繰り返しの利点を新たな研究課題として提示。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

**long-CoTのSFTにおいては**、多くのユニークなデータで学習するよりも、小さなデータセットを複数エポック繰り返し学習する方が優れていることが分かったとのこと。この傾向はモデルを跨いで存在する(Olmo3とQwen3で実験)。
より多くのエポック数 vs. より多くのユニークデータ数 でのモデルの傾向の違いとしては、前者の方がReasoningにおいて最終的な回答を出す割合が非常に大きくなることが分かった(たとえばFigure2 Rightの1 epoch 51200サンプルの24% vs. 256 epoch 200サンプル)。
image

では繰り返しの恩恵を得られなくなるのはどの時点かというと、Token Accuracy (=モデルのnext token predictionのtargetと一致する予測トークンがtopになった割合)が100%に近くなるとそれ以上epochを繰り返してもgainが無くなるので、これをSFTのstopping criteriaとして利用可能とのこと。

image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Chain-of-Thought #Reasoning #PEFT(Adaptor/LoRA) #Selected Papers/Blogs #Generalization #KeyPoint Notes #Initial Impression Notes Issue Date: 2026-02-12 GPT Summary- 内在次元数を指標として、推論チェーンの有効性を定量化。異なる推論戦略がタスクの内在次元数を低下させ、一般化性能に逆相関を持つことを示す。これにより、有効な推論チェーンがパラメータを効果的に利用し学習を促進することを明らかにする。 Comment

元ポスト:

Loading…

元ポストを読むと、以下のような話のようである。非常に興味深い。

良いCoT(推論)はタスクを圧縮する(すなわち、inputを正解へとマッピングする際の自由度を減少させる)ことを示した。

さまざまなCoT戦略に対して、あるタスクに対してさまざまなCoT戦略と、**特定の性能に到達するまでに必要な最小のパラメータ数の関係性(=intrinsic dimensionality)**を分析。パラメータ数の制御はLoRAのパラメータを変化させることによって調整して実験。その結果、Intrinsic Dimensionalityがdownstream taskの性能と、OODへの汎化性能に対して非常に強い相関を示した(Perplexityよりも強い相関)。

Intrinsic DimensionalityをさまざまなCoT戦略で測定すると、(school math系のデータに関しては)python codeを生成し実行する方法(Executed PoT)が最もコンパクトなsolutionを生成し、かつ最も良いOODへの汎化性能が高いことがわかった(他ドメインでこのCoT手法が適しているとは限らない点には注意)。
また、モデルスケールが大きい方がより低いIntrinsic Dimensionalityを示し、良いcompressor(=タスクを圧縮する能力が高い)であることがわかった。
弱くてノイジーなCoT戦略は、スケールせず、パラメータ効率が悪いことがわかった。

非常に興味深い研究で、かつskim readingしかできていない上での感想なのだが、
- 実験がLoRAベースで実施されているため、他の学習のダイナミクスにおいて同様のことが言えるのかという点
- Gemmaでしか実験されていないため他のアーキテクチャでも同じようにIntrinsic Dimensionalityの有効性が言えるのか
- データセットがGSM系列のschool mathドメインでしか実験されていないため、ドメイン間でどの程度一般性を持って言える話なのかという点

は明らかになっていない気がしており、どうなるのか興味がある。また、実際にIntrinsic Dimensionalityを測定しようとした場合に、効率的に求める方法はあるだろうか。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Rubric-based #Open-endedTasks Issue Date: 2026-02-11 GPT Summary- Rubric-ARMフレームワークは、スカラー得点を超えて創造的応答の多面的な質を捉えることを目的としている。報酬フィードバックからの強化学習を用い、rubric生成器と判定者を共同最適化し、既存手法の静的な制約を克服。交互最適化戦略を導入し、その効果を理論的に分析。実験により、Rubric-ARMが複数のベンチマークで最先端の性能を発揮し、強化学習環境でのポリシー整合性を大幅に改善することを示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #MultiModal #Attention #VisionLanguageModel #One-Line Notes Issue Date: 2026-02-11 GPT Summary- 強化学習を用いた内部注意分布の直接最適化を通じて、マルチモーダルLLMの情報配分を改善する強化注意学習(RAL)を提案。RALは複雑な入力におけるグラウンディングを向上させ、さまざまなベンチマークで一貫した性能向上を示す。オンポリシー注意蒸留を採用し、クロスモーダル整合性を強化する新たなアプローチを提供。 Comment

元ポスト:

Loading…

マルチモーダルLLM(実験ではVLM利用)におけるクロスモーダルなAttention表現を改善するためのRLに基づく事後学習手法で、attention分布を直接最適化する手法な模様




Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #ReinforcementLearning #Evaluation #SelfImprovement #read-later #Selected Papers/Blogs #FactualKnowledge #One-Line Notes #ContinualLearning #Initial Impression Notes Issue Date: 2026-02-10 GPT Summary- 自己進化には、エージェントが生涯学習者として新しい経験を内面化し、将来の問題解決に活かすことが必要。しかし、以前の知識の混在と推論の複雑さが測定を妨げる。SE-Benchという診断環境を導入し、エージェントが新しいAPIドキュメントを使用することで評価を行い、知識の保持と内面化の新たな洞察を得た。特に「クローズドブック訓練」が知識保持に必要であり、標準的な強化学習が新しい知識を内面化できないことを示す。SE-Benchは知識内面化のための厳密なプラットフォームを提供する。 Comment

元ポスト:

Loading…

関数をリネームし関連するAPIドキュメント(今回はnumpy)を更新し、Claudeを用いてテストケースを生成し、複数のLLMのVotingで検証可能かどうかを判定した後人手による検証を行いフィルタリングする。テスト時にクローズドブックの設定で評価することで、インタフェースに関するモデルのFactual Knowledgeを更新しないとモデルはテストケースに正解できず、モデルが内部パラメータに保持するFactual Knowledgeをどれだけ適切に保持、更新しているかを評価するようなコントロールされた環境下でのベンチマークに見える。

image

APIに関するドキュメントの文脈をしっかり変更しないと元のモデルが文脈から過去の関数名との対応関係を類推できてしまいそうだが、その辺はどうなっているのだろうか。




Paper/Blog Link My Issue
#Multi #EfficiencyImprovement #NLP #LanguageModel #AIAgents #Distillation Issue Date: 2026-02-10 GPT Summary- LLMを用いたマルチエージェントシステムを、AgentArkフレームワークで単一モデルに蒸留し計算効率を向上。三つの蒸留戦略で推論性能と自己修正能力を強化。効率的かつロバストなマルチエージェント開発を目指す。 Comment

関連:
- [Paper Note] Reasoning Models Generate Societies of Thought, Junsol Kim+, arXiv'26, 2026.01




Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #ReinforcementLearning #Reasoning #LongHorizon #Compression Issue Date: 2026-02-09 GPT Summary- InftyThink+は、モデルによる制御された反復推論と要約を基にした強化学習フレームワークで、中間的な思考の劣化を軽減し、反復推論の効率を最適化します。教師あり学習の後、二段階の強化学習を行い、戦略的要約と推論の再開を学習。実験では、従来方法に比べて精度を21%向上させ、推論レイテンシを大幅に削減しました。 Comment

pj page: https://zju-real.github.io/InftyThink-Plus/

元ポスト:

Loading…

一言解説:

Loading…

con-currentwork:
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02

reasoningを要約することで圧縮し次のreasoningを繰り返すような枠組みのように見え、
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02

と類似したアプローチに見える。
image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Evaluation #Coding #Mathematics #PEFT(Adaptor/LoRA) #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-02-09 GPT Summary- LoRAのバリエーションを広範なハイパーパラメータ探索で再評価。異なるLoRA方法は独自の学習率範囲を好み、適切調整で全体的に同様のピーク性能を達成。バニラLoRAは競争力のあるベースラインで、以前の改善は一貫性を欠く可能性あり。最適な学習率範囲の違いはヘッセ行列の固有値の変動に起因。 Comment

元ポスト:

Loading…

LoRAに関連して様々な手法が提案されているが、様々なモデルスケールとコーディングと数学ドメインで広範な設定(バッチサイズや学習率)で実験して主要な手法を再評価したところ、LoRAは学習率にsensitiveで、以前として初期のLoRAが強力な手法であることが示された。過去の研究での比較実験はハイパーパラメータの調整不足な可能性が高いことを示唆している。重要研究。

なお、Table2にLoRAの変種に関する研究のリストがあるが、約50種類ある。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #One-Line Notes #BudgetAllocation Issue Date: 2026-02-08 GPT Summary- 強化学習は大規模言語モデルの推論能力を向上させるが、その効果は相対予算によって異なる。この研究では、$ξ:= H/\mathbb{E}[T]$を通じて相対予算理論を提案し、報酬の分散や情報的経路の発生確率がサンプル効率を決定することを示す。分析により、{不足}、{バランス}、{十分}の三つの領域を明らかにし、特にバランス領域で最大のサンプル効率を持つことが判明。また、オンラインRLに対する有限サンプルの保証を提供し、実証的に学習効率の最適化と推論性能のピークに一致する予算範囲を特定。 Comment

元ポスト:

Loading…

元ポストに要旨が簡潔に日本語でまとめられている。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #CrossDomain #Generalization #KeyPoint Notes #DomainGap #Initial Impression Notes Issue Date: 2026-02-08 GPT Summary- 一般化されたLLMエージェントのポストトレーニングにおける課題を調査。特に、強化学習環境の特性がアウトオブドメイン性能に与える影響を分析。状態情報の豊富さとプランニングの複雑さがクロスドメインの一般化に強く相関し、リアリズムやテキスト類似性は主要な要因ではないことを発見。状態情報を増やすことでロバスト性を向上可能で、ランダム化技術を提案。また、モデリング選択として、SFTのウォームアップが忘却を防ぐが一般化を損なう可能性や、ステップ・バイ・ステップ思考が一般化に重要な役割を果たすことを示した。 Comment

元ポスト:

Loading…

事後学習におけるクロスドメインの汎化性能に関する調査を行い、ドメインの表層的な情報ではなく、
- 状態情報の豊富さ(どれだけのテキストを処理する必要があるか; 認知コスト)
- 推論の複雑さ(long-horizonやゴールへの到達可能性)

がドメイン間の汎化に相関を示すことが明らかになり、要は構造の複雑さが鍵であることが分かった。

ドメイン間の汎化性能を改善するために、実タスクは変えずにobservationに対して少量のノイズを加えることで、モデルがノイズから重要なシグナルを抽出することを学習し汎化性能が向上。

RLを行う際の注意点として、
- mid-trainingはDataMixに含まれるドメインの知識を補充するが、カバーされていないドメインの忘却をより悪化させる可能性があり
- ステップ単位での推論が汎化性能向上に役ダウン(言い換えると、ショートカットは転移しない)

を挙げており、

デプロイされるドメインが不明な場合の実用的な対策として
- より状態の記述がリッチなドメインかつ複雑な推論を要する環境で学習し
- 明示的な推論をオンにし
- 軽量な状態情報へのノイズの注入や拡張をすふこと

を挙げている。

さらにざっくり言うとエンコード時にドメインの表層情報に依存させず、表層情報の中から必要な情報を抽出するスキルをモデルに学習させ、かつデコーディング時は精緻な推論によって誤った転移を防ぐのがドメイン間の汎化の鍵、という話に感じる。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2026-02-06 GPT Summary- REALフレームワークは、強化学習における報酬をカテゴリカルラベルとして再考し、ポリシー最適化を分類問題として定式化することで、効率的なポリシー更新を実現します。このアプローチは、勾配重み付けの不一致を軽減し、均衡の取れた勾配配分を可能にします。実験では、REALがGRPOやDAPOに対して一貫して優れた性能を示し、1.5Bモデルで6.7%、7Bモデルでも引き続き改善を達成しました。 Comment

元ポスト:

Loading…



[Paper Note] Chunky Post-Training: Data Driven Failures of Generalization, Seoirse Murray+, arXiv'26, 2026.02


Paper/Blog Link My Issue
#Analysis #Tools #NLP #LanguageModel #LLM-as-a-Judge #read-later #Selected Papers/Blogs #KeyPoint Notes #Rubric-based #ChunkyPostTraining Issue Date: 2026-02-06 GPT Summary- LLMのポストトレーニングでは、偶発的なパターンがモデルに影響を及ぼし、意図しない行動を引き起こすことがある。これを「チャンクポストトレーニング」と呼び、特定の質問形式に対して虚偽の相関が現れる理由を探るため、「SURF」というブラックボックスパイプラインと、「TURF」という追跡ツールを提案。これらのツールを用いて、フロンティアモデルやオープンモデルでの誤校正された行動の生成を示し、ポストトレーニングデータの不均衡が影響していることを明らかにした。 Comment

元ポスト:

Loading…

事後学習データは特定の行動を学習することを意図して作成されるが、離散的なチャンクの集合として学習したときに、それらに意図しない特徴に基づく相関が含まれ(たとえば、コーディングのデータセットに不自然に形式的な表現が含まれたときに、モデルがそのような表現が用いられた時はコーディングの指示だと学習してしまうなど)、モデルがそれを学習してしまうこと(= Chunky PostTraining)を提唱し、これによって生じる失敗モードの実例として、Haiku 4.5j「5+8=13ですか?」と質問した際に「いいえ、5+8=13は正しくありません。正しい答えは5+8=13です」と応答するような例を挙げている。これはモデルが明らかに正しい答えを知っているが、プロンプト中の何らかの特徴によって反論的な振る舞いが引き起こされているような例であり、こういった失敗を発見するための手法を提案している。

手法としては、失敗モードを評価するためのルーブリックと、promptに関するAttributeの集合(e.g. これは車に関する質問である, これはロシア語であるなど)を定義し、attributeのプールからサンプリングをして失敗モードを引き起こすクエリの候補を自動生成する。その後LLMに対してクエリを投げて得られた応答をルーブリックに基づいてLLM-as-a-Judgeによってスコアリングし、TopKのサンプルを残しリプレイバッファ[^1]を更新する。更新されたリプレイバッファを用いてAttributeの重みを更新し、よりスコアが高いAttributeに基づいてクエリ候補が生成されるようにし、再度クエリ生成をして同様の操作をするよう繰り返す、といった手法のようである。
LLMを完全にブラックボックスとして扱い、応答テキストにのみに基づいて実行されるため、proprietary LLMに対しても実行可能である。
image

[^1]: リプレイバッファは、個々の(クエリ, スコア, attribute, スコア)の4つ組の集合によって定義される。




Paper/Blog Link My Issue
#Multi #NLP #ReinforcementLearning #AIAgents #Test-Time Scaling #LongHorizon #GPUKernel #Environment Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #RLVR #One-Line Notes Issue Date: 2026-02-06 GPT Summary- 報酬関数の設計における二値のスパース性に対処するため、本研究ではリファレンスアンサーから導出された対数確率を報酬として使用することを検討。対数確率報酬は所有検証者に依存せず、数学推論ベンチマークでの性能を向上させることがわかった。この方法は、チェインオブシンキング(CoT)ファインチューニングの新たな実行可能な戦略として位置づけられ、検証可能・非検証可能な設定でのパフォーマンスを向上させる効果が確認されました。 Comment

元ポスト:

Loading…

関連(concurrent work):
- [Paper Note] Maximum Likelihood Reinforcement Learning, Fahim Tajwar+, arXiv'26, 2026.02

最終応答のlogprobを報酬として利用する設定のRL(i.e., 検証可能なタスクでなくとも適用可能)を調査し、検証可能な応答のlogprobを報酬として利用することでbinary rewardと同等以上の性能を達成可能であることを示したようで、検証可能でない設定で学習すると途中でCoTが崩壊し、CoTが極端に短くなる現象が生じる。これは初期のCoTの長さと正解の対数尤度に負の相関があり、これによってRLがCoTを短くすることを奨励してしまうからではないか、という話が元ポストに記述されている。

関連:
- [Paper Note] Rewards as Labels: Revisiting RLVR from a Classification Perspective, Zepeng Zhai+, arXiv'26, 2026.02




Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PPO (ProximalPolicyOptimization) #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #train-inference-gap Issue Date: 2026-02-06 GPT Summary- 強化学習におけるPPOの限界を指摘し、低確率トークンの更新が過剰に罰せられる問題を解決するため、ダイバージェンス近似ポリシー最適化(DPPO)を提案。DPPOは、ポリシーの逸脱を直接推定することで学習ダイナミクスの非最適性を改善し、効率的なバイナリおよびトップK近似を導入することでトレーニングの安定性と効率を向上させる。 Comment

元ポスト:

Loading…

PPOはトークン単位の確率比をrefと現在のポリシーからの算出しrefから離れすぎないようにクリッピングをするが、この場合非常に低確率で出現するトークンは過剰にクリッピングされる傾向にある。しかしその低確率トークンを調べると実はReasoningにおいて重要なトークンであったり(Wait, Thus, Next)、数学での重要なシンボル(+,-,=)、数値トークンであり、結果的にこれらReasoning系のタスクで重要なトークンの学習を阻害してしまっており(実際にこれらの低確率トークンをクリッピングされないようにしたら学習効率が大幅に改善)、語彙数が多いLLMの学習においては相性が悪い(別の視点として高確率トークンに対して過剰にペナルティを与えるという傾向もある)。これを改善するために、確率比をクリッピングするのではなく、ポリシーとrefのDivergenceの上界を直接制約することで解決し(語彙数が大きすぎてDivergenceを計算できないので近似的な計算方法も提案されている模様)、実際に適用すると学習が非常に安定し、かつ学習効率が既存手法と比較して高まりました、という話にみえる。

解説:

Loading…

一言解説:

Loading…




Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #AIAgents #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- マルチエージェントシステムを用いた情報探索の幅のスケーリングを探求する本研究では、WideSeek-R1フレームワークを提案。リードエージェントとサブエージェントが共同最適化することで、20,000のタスクで高い性能を発揮。WideSeek-R1-4BはアイテムF1スコア40.0%を達成し、性能がサブエージェント数の増加と共に向上することを示す。 Comment

元ポスト:

Loading…

Context Foldingと比較した時の新規性がweaknessに感じる:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #read-later #RLVR #Selected Papers/Blogs #OOD #Generalization #KeyPoint Notes #LongHorizon #Robustness #Compression #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)は、テスト時の適応能力により複雑な問題を解決する外挿特性を持つが、標準的な強化学習(RL)はその変化に制約がある。これに対処するために、反復デコーディングアルゴリズム(RC)を導入し、LLMの応答生成能力を活用して推論を継続的に改善。実験では、16kトークンの訓練で4BモデルがHMMT 2025でのパフォーマンスを40%から約70%に引き上げ、既存のモデルを上回る結果を示した。RCを使用したモデルは、学習した要約生成能力によりテスト時のパフォーマンスも向上できることが証明された。 Comment

元ポスト:

Loading…

reasoningの生成と、生成されたreasoningとinputで条件付けでsummaryを生成、さらにinputとsummaryで条件付けてreasoningを生成するという、生成と要約を反復する枠組みを採用(LLMはreasoningを要約することが生成するよりも得意で、かつ過去の要約から将来の推論を生成できるという非対称性を活用)することで、訓練時の予算は決まっているため、訓練時の予算では到達できないhorizonにテスト時に遭遇すると汎化しない課題を克服し、テスト時により長いステップ数の推論もこなせるように外挿する。また、このようなgeneration-summaryの反復を各ステップごとでRLVRすることでさらに性能を向上でき、実際にlong horizonな推論や学習時よりもより長いreasoning token budgetの場合に大きなgainを獲得できている。

RLVRをする際に各ステップごとのSummaryを保存しておき、各ステップのsummaryが与えられたときに正解できるかどうかのシグナルに基づいて、ステップごとの要約で条件付けられた応答能力を改善する。これにより、さまざまなステップで応答を生成する能力が強化され、結果的にshort horizonからlong horizonの推論をする能力が強化される。
このときsummaryはリプレイバッファとして扱い後のepochの訓練でもオフポリシーデータとして活用する。要約はinputに条件付けられて生成されるものであり、optimizationのtargetとは異なるためリプレイバッファとして活用でき、かつさまざまな要約に対して正解が生成できるように学習されるためテスト時の要約の分布のシフトにロバストになる。また、オンポリシーデータだけだと、long horizonに対する要約は非常に稀になるため、リプレイバッファを利用することで補う。

テスト時に学習時を超えたhorizonで推論できることは現在のAIエージェントの大きな課題だと思うので非常に興味深い研究だと思う。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Reasoning #PEFT(Adaptor/LoRA) #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 低ランクアダプタTinyLoRAを提案し、推論のための強化学習が低ランクパラメータ化を効果的にスケールできることを示しています。わずか13のトレーニングパラメータでQwen2.5を91%の精度に達成し、複雑なベンチマークでも少ないパラメータで90%のパフォーマンス向上を実現しました。特に、強化学習を用いることで、従来の方法よりも大幅に少ないパラメータで強力な結果を得ることができました。 Comment

元ポスト:

Loading…

Qwen2.5に関してはLlamaと比較して異なる傾向が生じることは以下でも見受けられる。果たして本研究で報告されていることはどこまで一般的なのだろうか?:
- [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #One-Line Notes Issue Date: 2026-02-05 GPT Summary- LLMのために強化学習のポリシー勾配アルゴリズムを改善するため、固定アンカーポリシーをEMAに置き換え、Top-k KL推定器を導入。これにより、性能が大幅に向上し、数学的推論ではQwen-1.5BがOlympiadBenchで53.9%を達成。Qwen-3Bでは、EMA-PGがGRPOを7つのデータセットで平均33.3%改善し、特にHotpotQAや2WikiMultiHopQAにおいて顕著な向上を示した。全体として、EMA-PGはLLMの強化学習をスケールするための有力なアプローチである。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

KL正則化のRefが古くなりすぎるので指数移動平均(直近の更新重視の移動平均)を用いて更新されるようにし、KLの計算が重いのでTopKのトークンで近似的に計算することで高速化、という感じに見える。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #read-later #RLVR #Selected Papers/Blogs #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- RLVRはLLMの推論を解きほぐす基盤だが、検証データの不足がスケールアップのボトルネックとなっている。この課題を克服するために「ゴールデン・グース」を提案し、インターネットの非検証テキストから無限のRLVRタスクを生成する。具体的には、LLMに主要な推論ステップを特定させ、豊富なタスクを持つGooseReason-0.7Mデータセットを合成。これにより、従来モデルを復活させ、15のベンチマークで新たな最先端結果を達成。また、リアルなサイバーセキュリティデータからRLVRタスクを合成し、Qwen3-4B-Instructをトレーニング。これにより7Bモデルを超える成果を上げ、推論に富んだインターネットテキストを活用する可能性を示している。 Comment

元ポスト:

Loading…

テキストからMultiple Choice Question (MCQ) を生成することでRLVR用のverifiableな学習データを大量に合成可能にする。おそらく次のステップとしては、生成されるMCQの stem, key, distractor の質が今度は焦点となり、そこの質が改善されればより大きなgainを得られるようになる気がする(たとえば消去法で正解を知らなくても正解できてしまうようなdistractorや、問題文に正解がそのまま含まれてしまっているようなノイジーなMCQから人間が何も学ばないように、モデルが学習するときと一緒だと思われる)。

データとモデルが公開:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 強化学習を用いてモデルを訓練する際、尤度の最大化ではなく低次近似を最適化する限界に触発され、最大尤度強化学習(MaxRL)を提案。これは、サンプリングされたデータから最大尤度を近似するためのフレームワークであり、得られた目的関数はシンプルで偏りのないポリシー勾配推定を可能にする。実験では、MaxRLが既存の手法を上回り、テスト時間効率を最大20倍向上。追加データや計算へのスケーラビリティも優れており、RL訓練を正確性に基づいて拡張するための有望なフレームワークであることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

pj page: https://zanette-labs.github.io/MaxRL/

skim readingしかできていないが、
微分不可能な生成がされbinaryの正誤が与えられるような条件下でモデルを最適化するときにxが与えられてyが正解である確率はimplicitな尤度を表している。この最適化問題を解くために現在はRLが利用されており、RLは正解の確率pを最大化するような定式化がされているが、最尤推定で定式化するとlog pで定式化をすることになり、これは根本的に異なる最適化となる。具体的には、RLはpass@1に対して最適化しているが、MaxRLはk=1,...∞に対するpass@kの調和平均に対して最適化をするような違いがある。この最尤推定の勾配は実は成功したtrajectoryのスコアの平均という非常にシンプルな形で近似的に求められるらしく、最尤推定として解くと最大20倍程度効率が向上した、といった話に見える。

関連:
- [Paper Note] Rewards as Labels: Revisiting RLVR from a Classification Perspective, Zepeng Zhai+, arXiv'26, 2026.02
- [Paper Note] Likelihood-Based Reward Designs for General LLM Reasoning, Ariel Kwiatkowski+, arXiv'26, 2026.02




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #In-ContextLearning #Stability #Scheduler #Routing #Initial Impression Notes #BudgetAllocation Issue Date: 2026-02-05 GPT Summary- GRPOを用いた訓練において、$V_0$という新たなバリューモデルを提案。これはパラメータ更新を必要とせず、モデルの期待パフォーマンスを推定し、能力の変化を捉える。$V_0$は成功率を予測し、効率的なサンプリングを実現。結果、LLMルーティングタスクにおいて、コストとパフォーマンスのバランスで優れた結果を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Actor-Critiqueの枠組みにおいてValueモデル(のポリシーに追従するための逐次的な更新が)重すぎる問題をGRPOはValueモデルを無くすことで回避したが今度はロールアウトのサンプリングコストがでかすぎる問題があるので、学習無しで汎用的に利用可能なValueモデル(パラメータ更新ではなくICLとして定義する)を用いて、ロールアウト前から成功率を予測し無駄なロールアウトを削減したり、クエリをどのモデルに投げるかといったルーティングをするなどの計算機リソースの配分を決めるといったことをやるらしい。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 強化学習フレームワーク「RLAnything」は、動的に環境、ポリシー、報酬モデルを生成し、学習信号を増幅することで、全体的なRLシステムを強化します。ポリシーはフィードバックを用いて訓練され、報酬モデルは一貫性フィードバックにより最適化されます。理論に基づく自動環境適応により、各モデルからの批評が訓練を改善します。実証例として、RLAnythingはOSWorld、AlfWorld、LiveBenchで大幅な性能向上を示しており、最適化された報酬モデルが人間のラベルを超える結果を出しています。 Comment

blog: https://yinjjiew.github.io/projects/rlanything/

元ポスト:

Loading…

環境、ポリシー、Reward Modelが互いにフィードバックし合ってco-trainingされる枠組み




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #read-later #TextualFeedback #SelfDistillation Issue Date: 2026-02-05 GPT Summary- テキストフィードバックを用いた強化学習(RL)によるLLMの後処理を研究。スカラー報酬に対し、テキストフィードバックはコストが低く、豊かな情報を提供。モデルはトレーニング時にフィードバックを内部化し、推論時にシングルターンの性能を向上させる。自己蒸留(RLTF-SD)とフィードバックモデリング(RLTF-FM)の2つの手法を提案し、さまざまなタスクでの効果を検証。結果は強力なベースラインを上回ることで、豊かな監視源としてのRLの可能性を示している。 Comment

pj page: https://rl-textfeedback.github.io/

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #SyntheticData #Coding #MultiLingual #SoftwareEngineering #mid-training #read-later #Selected Papers/Blogs #Verification #Scalability Issue Date: 2026-02-05 GPT Summary- SWE-Universeは、GitHubのプルリクエストから自動的に検証可能なソフトウェア工学環境を構築するためのスケーラブルなフレームワーク。カスタムトレーニングされたビルディングエージェントが反復自己検証とハッキング検出を用いて信頼性の高いタスク生成を実現。これにより、実世界の多言語SWE環境が100万以上増加し、Qwen3-Max-Thinkingにおいて75.3%のスコアを達成。次世代コーディングエージェントの発展に寄与。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

これまでと比較して非常に大規模な実PRに基づいた、さまざまなプログラミング言語に基づくverifiableな学習用の合成データを構築できる環境で、一つ一つの品質はSWE Benchなどには及ばないが、量が圧倒的




Paper/Blog Link My Issue
#NLP #ReinforcementLearning #MoE(Mixture-of-Experts) #RewardHacking #RLVR #Stability #train-inference-gap Issue Date: 2026-02-03 GPT Summary- RLVRは大規模言語モデルの性能向上に寄与するが、MoEアーキテクチャでのトレーニングは不安定になる。本研究では、RLVRの不安定性を客観的レベルのハッキングの観点から考察し、トークンレベルの不整合による最適化目的のスプリアス信号を特定。30B MoEモデルの実験を通じて、トレーニングと推論の不一致の成長を追跡し、不安定性のメカニズムを解明。この研究はMoEモデルの安定性に関する具体的な指針を提供する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Selected Papers/Blogs #Scheduler #train-inference-gap #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- 強化学習における言語モデルの訓練は不安定であり、その原因は訓練と推論の不一致にあるとされる。従来の対策では効果が薄いことが指摘され、本研究では勾配ノイズとミスマッチの連動を示し、更新サイズの縮小が効果的であることを発見。ミスマッチは動的な失敗と考え、動的に学習率を調整する新たな手法を提案。これにより、RL訓練を安定化し、不一致を抑制することができることが実証された。 Comment

元ポスト:

Loading…

Importance SamplingやFP16に設定することによるミスマッチの解決方法でも依然として(長期の訓練などにおいて)安定性の問題が出ることをAblationで確認し、提案手法がより安定することを示しているように見える。




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Infrastructure #SoftwareEngineering #mid-training #Stability Issue Date: 2026-02-03 GPT Summary- FT-HSDPという新しいトレーニングパラダイムを提案し、故障耐性を持つデータ並列レプリカを活用。故障時には影響を受けたレプリカのみがオフラインとなり、他のレプリカはトレーニングを継続。FTARプロトコルと非ブロッキングキャッチアップを用いることで、故障回復時間を短縮し、有効なトレーニング時間を大幅に増加。精度への悪影響もないことを確認。 Comment

元ポスト:

Loading…

100k GPU🤯




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Length #Adaptive Issue Date: 2026-02-03 GPT Summary- 推論の効率を向上させるため、RLベースの手法LASERを提案。長さに基づく報酬シェイピングを用いて、冗長性を減少させつつ、パフォーマンスと効率の良好なバランスを実現。また、動的な報酬仕様と難易度を考慮した手法LASER-Dを導入し、簡潔な推論パターンを促進。実験により、推論性能と応答の長さ効率が大幅に向上した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #ICLR #ComputerUse #UI Issue Date: 2026-02-01 GPT Summary- 専門家の実演から構築したデスクトップグラウンディングデータセット「GroundCUA」を提案。87のアプリをカバーし、56,000枚のスクリーンショットと356万件以上の注釈を含む。これに基づき、指示をUI要素にマッピングする「GroundNext」モデル群を開発。教師ありファインチューニングにより最先端の結果を達成し、強化学習によるポストトレーニングでさらに性能向上。高品質なデータセットがコンピューターエージェントの進展に貢献することを示唆。 Comment

pj page: https://groundcua.github.io/

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #ICLR #Test-Time Scaling #Multi-Armed Bandit #DecisionMaking #Exploration Issue Date: 2026-01-31 GPT Summary- LLMのエージェントアプリケーションにおける探求と解決の効率性を分析。最適なパフォーマンスを妨げる「知識と行動のギャップ」や貪欲性、頻度バイアスという失敗モードを特定。強化学習(RL)によるファインチューニングを提案し、探索を増加させて意思決定能力を改善。古典的な探索メカニズムとLLM特有のアプローチの両方を融合させ、効果的なファインチューニングの実現を目指す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=weUP6H5Ko9

- greediness
- frequency bias
- the knowing-doing gap




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #RolePlaying Issue Date: 2026-01-30 GPT Summary- LLMを用いたロールプレイングは、友情やコンテンツ制作などに重要な役割を果たしているが、内面的思考のシミュレーションが課題である。本研究では、認知レベルのペルソナシミュレーションを実現するためのHERという統一フレームワークを提案し、二層の思考を導入。逆方向からのエンジニアリングを通じて推論強化型ロールプレイデータを生成し、人間の好みに合った報酬モデルを構築。Qwen3-32Bを基にした\methodモデルは監視学習と強化学習で訓練され、CoSERベンチマークで30.26の改善、Minimaxロールプレイベンチで14.97の向上を達成した。データセットとモデルは今後の研究に提供される。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #One-Line Notes #TextualFeedback #SelfDistillation Issue Date: 2026-01-30 GPT Summary- リッチフィードバックを活用した強化学習手法SDPOを提案。従来の手法がスカラー報酬に依存するのに対し、SDPOは豊富なテキストフィードバックを用いてセルフディスティレーションを行い、モデルの誤りを特定。科学的推論や競技プログラミングにおいて、サンプル効率と精度を向上し、標準的なRLVR環境でも優れた性能を発揮。テスト時には試行回数を削減しつつ、発見確率を維持可能。 Comment

ロールアウトに対するフィードバックを活用して学習のシグナルをよりdenseにする

ポイント解説:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #LanguageModel #SoftwareEngineering Issue Date: 2026-01-29 GPT Summary- ODC(オンデマンド通信)は、バランスの取れない負荷を持つLLMのポストトレーニングに対処するため、集団通信をポイントツーポイント通信に置き換え、FSDPを適応させる手法。これにより、同期障壁が減少し、より効率的な負荷バランシングを実現。ODCは、デバイスの利用率とトレーニングスループットを向上させ、FSDPに対して最大36%のスピードアップを達成した。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=iIEEgI6WsF




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #LowPrecision Issue Date: 2026-01-27 GPT Summary- 強化学習におけるLLMのロールアウトは、長いシーケンス長のためにボトルネックが発生するが、FP8を用いることで計算コストとメモリトラフィックを削減できる。FP8適用にはポリシーの重みの変化や低精度のロールアウトによる不安定性の課題がある。本研究では、veRLエコシステム内で実用的なFP8ロールアウトスタックを実装し、具体的には(i) FP8量子化によるロールアウトの実現、(ii) QKVの再キャリブレーション、(iii) 重要度サンプリングを用いた不一致の軽減を提案。これにより、BF16ベースラインと比較して、最大44%のロールアウトスループット向上が達成された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #CurriculumLearning Issue Date: 2026-01-27 GPT Summary- LLMは解決困難な問題のために自動カリキュラムを生成可能か?SOARという自己改善フレームワークを通じ、教師が学生のために問題を提案し、進捗に基づいて報酬を提供。研究では、バイレベルmeta-RLが学習を促進し、計測された報酬が内在的報酬を上回ることを示し、構造的品質が解答の正確性よりも学習において重要であることを明らかにした。これにより、困難な問題解決において事前の能力が不要であることが示唆された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

pj page: https://ssundaram21.github.io/soar/




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #One-Line Notes Issue Date: 2026-01-27 GPT Summary- 強化学習(RL)の限界を克服するために、Privileged On-Policy Exploration(POPE)を提案。POPEは、人間やオラクルからの特権情報を活用し、困難な問題の探索を促進するアプローチで、非ゼロ報酬を得ることで学習を進める。実験により、POPEが困難な推論タスクにおける性能を大幅に向上させることを示した。 Comment

関連:
- [Paper Note] Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes, Amrith Setlur+, arXiv'26, 2026.01

skim readingしかできていないが、本研究は人間が記述したオラクルを接頭辞として使い、ポリシーの方向性をガイドすることでアシストするが、こちらのReuse your FLOPsは過去のロールアウトで成功したtrajectoryを再利用して接頭辞として利用する点が異なるように見える。

RLが解くのが困難な問題に対して接頭辞としてオラクルの情報を与えることで学習シグナルのスパースさを解決する




Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Blog #OpenWeight #mid-training #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Reference Collection #Initial Impression Notes #ContextFolding Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment

HF: https://huggingface.co/moonshotai/Kimi-K2.5

元ポスト:

Loading…

テクニカルレポートを受けての所見:

Loading…

Agenticなタスク(HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか(GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている)。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。

Agent Swarmタスクをサブタスクに分解して、複数のエージェントに並列に投げて実行(最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:

- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

公式ポスト:

Loading…

OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:

Loading…


日本語でのポスト:
Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-01-27 GPT Summary- PrefixRLは古いサンプリングデータを活用し、オフポリシーの不安定性を回避しつつ、オンポリシーでの強化学習を行う手法です。これにより、学習信号が強化され、従来のRLよりもサンプル効率が向上。また、PrefixRLは難しい推論問題において、より早く同等のトレーニング報酬を達成し、他のモデルファミリーに対しても適応可能であることを示しています。 Comment

元ポスト:

Loading…

同じタイミングで上記POPEが提案された。POPEは人間が記述したオラクルを接頭辞として使い、ポリシーの方向性をガイドすることでアシストするが、こちらのReuse your FLOPsは過去のロールアウトで成功したtrajectoryを再利用して接頭辞として利用する点が異なるように見える。

著者ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #read-later #Diversity #Selected Papers/Blogs #One-Line Notes #Initial Impression Notes #Environment Issue Date: 2026-01-26 GPT Summary- 自己改善エージェントのボトルネックである環境を改善するため、無人アノテーションで端末利用タスクを生成する「Endless Terminals」パイプラインを提案。タスク記述の生成から可解性のフィルタリングまでの4ステージを経て、3255のタスクを作成。PPOを用いて訓練したモデルは、ホールドアウト開発セットで大幅な性能向上を示し、Llama-3.2-3Bは4.0%から18.2%、Qwen2.5-7Bは10.7%から53.3%に改善。人間キュレーションのベンチマークでも改善し、シンプルな強化学習がスケールする環境で成功することを示す。 Comment

元ポスト:

Loading…


taskが解けるものか否かをverifyする追加のモデルが必要な点は注意とのこと。

(論文中ではo3が用いられている)

著者ポスト:

Loading…

RLにおけるターミナル上で実行可能な多様なタスクと、実際に動作可能なコンテナ、テストの生成をスケールさせることで標準的なPPOで性能が向上し、人間が収集した既存ベンチマーク(Terminal Bench 2.0)にも汎化することを示した研究。つまり、RLのタスクと環境をスケールさせれば標準的なRLアルゴリズムでも性能が向上するというメッセージがある。

image

本研究の他研究との位置付けがぱっと脳内で整理できなかったので、関連研究の部分を読むと、

- AgentのScaffoldの観点では、bashが実行可能なOpenHandsに近く、シェルコマンドを実行し、実行に至るまでのすべてのヒストリと出力が利用可能。

- SFTのための高品質なデータを合成するる研究が最近は多いが、SFTはRLのためのWarmUpに相当するため、本研究とそれらの研究は補完的な位置付けにある。

- ベンチマークやインタラクティブな研究の観点では、SWEBenchやTerminal Bench 2.0のように、人間が収集したベンチマークが存在し、マルチターンでアクションを通じてインタラクションしながら次のアクションを決めていく。本研究もシェル上で状態を観測しながら次のアクションを決めていくようなマルチターンの枠組みに相当する。

- verifiableな環境を合成する研究も行われている。たとえばSWEGymは2438のpythonコードのタスクと検証可能なテストを提供するが、既存のGithub Issueに依存しており、本研究のようにボトムアップに手続的に生成されるものではない。シングルターンではself-playにより困難な問題を生成する研究があるがマルチターンではない。Open Thought Agentという研究がSFT, RLのためのターミナルを用いた環境を合成する点でもっとも本研究と近いが、人間が生成したクエリやコマンドに基づいており、かつ既存のTerminal Bench 2.0といった人間によって収集されたベンチマークでのgainは得られていない。本研究では、完全に自動化されており、任意のサイズにスケールしPPOのような標準的なRLでも既存ベンチマークに転移する点が異なる。

という整理のようである。位置付けは理解できたが、本研究が既存のベンチマークにも転移するのはなぜなのだろうか?という点がまだ理解できていない。

所見:

Loading…




Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #read-later #Selected Papers/Blogs #Robotics #4D (Video) Issue Date: 2026-01-25 GPT Summary- 動画生成モデルを用いてロボットポリシーを単一のポストトレーニング段階で適応させる「Cosmos Policy」を提案。これにより、動画モデルがエンコードしたロボットアクションを直接生成し、複雑な行動を捉える。評価では、LIBEROとRoboCasaで最高のパフォーマンスを記録し、他のモデルを上回る成功率を達成。ポリシーのロールアウトデータを利用して、経験から学び世界モデルを洗練させることが可能。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SelfImprovement #ScientificDiscovery #read-later #Selected Papers/Blogs #One-Line Notes #EvolutionaryAlgorithm Issue Date: 2026-01-24 GPT Summary- 自動化されたAI研究は科学的発見の加速に寄与するが、現在のLLMはしばしば効果的でないアイデアを生成。アイデア実装のための自動実行器を構築し、並行GPU実験を通じてその効果を検証。進化的探索と強化学習の2方法を分析し、前者はGRPOベースラインを上回るサンプル効率、後者は単純なアイデアに収束し上限を制限。実行に基づくAI研究の未来を探る。 Comment

アイデアを実行できる環境を与え、進化的な探索をRLと実行結果に基づくReward(ベンチマーク性能など)によって実施するような話で、実行結果に基づくRewardに基づいてRLすると、平均的にうまくいくように最適化され性能を最大化することに苦労する、といった知見が得られた、という趣旨の話が元ポストで記述されている。

best solutionを見つけるようにRLする研究がこちら:
- [Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #2D (Image) #Stability #KeyPoint Notes #ImageSynthesis #Scalability #AutoEncoder Issue Date: 2026-01-24 GPT Summary- RAEsは高次元セマンティック空間での成果を活かし、自由形式のテキストから画像生成にスケール可能かを検証。デコーダーを用いてImageNetを超えたスケールアップを行い、特定ドメインの重要性を発見。スケーリングによりフレームワークが単純化される一方、ノイズスケジューリングは依然重要。また、RAEsは全てのモデルスケールでVAEsを上回り、安定した性能を確保し、生成品質の向上を示した。これにより、多モーダルモデルの新たな可能性を切り開く。 Comment

元ポスト:

Loading…

関連(RAE):
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

この研究はざっくり言うとRAE[^1]がスケールするか否かを調査し、スケールするための条件を調査し、事前学習(GenEval, DPGEvalでVAEと比較して4倍早く収束)、ダウンストリームタスクの双方でVAEベースのtext2imageモデルをoutperformすることを示しており、

スケールさせる際の最初の課題はデコーダにあり、web-scale, syntheticデータをただ増やすだけではfidelityは向上するが特定のドメイン(e.g., text reconstruction)の能力は伸びず、text renderingデータなどの、dataの構成が必要不可欠で、

続いてオリジナルのRAEではアーキテクチャに工夫(decoder入力にノイズを足す、ヘッドをwideにする、その他安定化の工夫)をしていたが、モデル、データがスケールした場合シンプルなアーキテクチャ(次元依存のノイズスケジューリング)のみが必須で他は不要となったという知見が得られており、

RAEでは視覚理解と生成が同じ潜在空間の上で行われることがVAEとは異なる強みで、生成のための学習をしても理解能力が損なわれないことを示し、そして、潜在空間上で(VAEの潜在表現は生成に特化しているが、RAEは視覚理解と生成の双方を扱われており同じ空間上で操作可能なので)LLMが直接test time scalingすることを可能にする、

と言ったことが著者ポストで解説されている。
まだ完璧に理解できていないのでRAEの論文から読みたい、が非常にインパクトの大きな話に見える。

[^1]:encoderをSigLIPなどの強力なvision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。




Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #ReinforcementLearning #AIAgents #Planning #memory Issue Date: 2026-01-24 GPT Summary- エージェントシステムの効率に関する研究を行い、メモリ、ツール学習、計画の3つのコアコンポーネントに焦点を当てる。コスト(レイテンシ、トークン、ステップ)を考慮し、圧縮や強化学習報酬、効率向上のための制御された探索メカニズムを活用する最近のアプローチをレビュー。効果とコストのトレードオフをパレートフロンティアを通じて評価し、効率指向のベンチマークや主要な課題、今後の方向性についても議論する。

Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #OpenWeight #SelfImprovement #ComputerUse #read-later #VisionLanguageModel #Scalability #Initial Impression Notes Issue Date: 2026-01-23 GPT Summary- EvoCUAは、ネイティブコンピュータ使用エージェントの新モデルで、静的模倣に頼らずデータ生成とポリシー最適化を統合。自律的にタスクを生成し、検証可能な合成エンジンでデータ不足を解消。スケーラブルなインフラにより多様な経験を収集し、反復進化学習でポリシーを動的に調整。OSWorldベンチマークで56.7%の成功率を達成し、従来のモデルを大幅に超えた。このアプローチは、さまざまな基盤モデルでの性能向上を実証し、ネイティブエージェントの機能強化に寄与することを示唆している。 Comment

HF: https://huggingface.co/meituan/EvoCUA-32B-20260105

元ポスト:

Loading…

合成データ生成(タスク合成からVerifierの定義まで?)と学習のループを回すことでデータのスケーラビリティを向上し性能向上(これまでは事前に静的に合成されたtrajectoryでの学習が主流)。Rejection Samplingをして成功したtrajectoryでSFTしつつ、工夫されたDPOが用いられている模様。あとで読みたい。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #SelfCorrection #One-Line Notes Issue Date: 2026-01-23 GPT Summary- LLMはマルチターン実行において脆弱で、ツール呼び出しエラー後の自己修正が困難。従来の強化学習ではエラーが負の報酬として扱われ、復旧指針が不足している。本研究では、実行エラーを修正監督に変換するFission-GRPOフレームワークを提案。失敗した軌道をエラーシミュレーターのフィードバックで強化し、新しいトレーニングインスタンスに分裂。これにより、実際のエラーから学ぶことが可能となる。BFCL v4マルチターンで、Fission-GRPOはQwen3-8Bのエラー回復率を5.7%改善し、全体的な精度を4%向上させた。 Comment

元ポスト:

Loading…

tool useの学習をさせる際に通常のGRPOでの更新に加えて、ロールアウトで実行エラーとなったものを収集し、エラーに対して診断フィードバックを与え、その文脈からエラーを回復するようなロールアウトを実施し学習することで、自己修正能力を身につけさせるような手法に見える。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfDistillation Issue Date: 2026-01-23 GPT Summary- オンポリシーセルフ蒸留(OPSD)は、LLMが自らを教師と生徒として機能させ、特権情報を活用しながら異なるコンテキストでの推論を改善する新しいフレームワークです。これにより、自己のロールアウトを基に外れ値を最小化し、数学的推論ベンチマークで優れた性能を発揮。GRPOなどの強化学習手法と比較してトークン効率を4-8倍向上させました。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25

所見:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #DiffusionModel #Reasoning Issue Date: 2026-01-22 GPT Summary- dLLMsは任意の順序でトークンを生成できるが、この柔軟性が推論の境界を狭める可能性があることを示す。dLLMsは高不確実性トークンを回避し、解空間の早期崩壊を引き起こす傾向があり、既存のRLアプローチの前提に挑戦する。効果的な推論は、任意の順序を放棄し、GRPOを適用することで実現され、JustGRPOはその実例で、GSM8Kで89.1%の精度を達成した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #train-inference-gap #LowPrecision Issue Date: 2026-01-21 GPT Summary- 強化学習(RL)はLLMの推論能力を向上させるが、既存のトレーニングは非効率で、ロールアウトに多くの時間を要する。FP8精度による量子化RLトレーニングがボトルネック解消の有力候補であるが、BF16トレーニング + FP8ロールアウトの戦略は不安定さを招く。我々はJet-RLを提案し、トレーニングとロールアウトに統一されたFP8フローを採用することで数値的ミスマッチを減少させる。実験により最大33%のロールアウト速度向上と41%のトレーニング速度向上を達成し、安定した収束を実証した。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

こちらはFP16だが。




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #RewardModel #GenerativeVerifier #Rubric-based #Open-endedTasks Issue Date: 2026-01-20 GPT Summary- 強化学習における検証可能な報酬(RLVR)は、論理的思考が求められるが、評価の欠如が生成の最適化を難しくしている。ルーブリック評価は構造的手段を提供するが、既存手法はスケーラビリティや粗い基準に課題がある。これに対処するため、自動評価基準の生成フレームワークを提案し、微妙なニュアンスを捉える高識別力基準を作成。約11万件のデータセット「RubricHub」を紹介し、二段階ポストトレーニングでその有用性を検証。結果、Qwen3-14BがHealthBenchで69.3の最先端結果を達成し、他のモデルを上回った。 Comment

pj page: https://huggingface.co/datasets/sojuL/RubricHub_v1

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #read-later #Probing #Diversity #Selected Papers/Blogs #SparseAutoEncoder Issue Date: 2026-01-19 GPT Summary- 大規模言語モデルは、複雑な認知タスクにおいて優れた性能を発揮するが、そのメカニズムは不明瞭である。本研究では、強化された推論は計算の拡張だけでなく、異なる人格特性や専門知識を持つ内部認知視点の間のマルチエージェント相互作用によって生じることを示す。これにより、推論モデルはより広範な対立を引き起こし、視点の多様性が向上することを発見した。制御された強化学習実験により、会話行動の増加が推論精度を向上させることが明らかになり、思考の社会的組織が問題解決を効果的に行う可能性を示唆する。 Comment

元ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #Architecture #Test-Time Scaling #read-later #Selected Papers/Blogs #KeyPoint Notes #Initial Impression Notes Issue Date: 2026-01-19 GPT Summary- Multiplex Thinkingは、K個の候補トークンをサンプリングし、単一のマルチプレックストークンに集約することで、柔軟な推論を実現。モデルの自信に応じて標準的なCoTの挙動と複数の妥当なステップをコンパクトに表現。難易度の高い数学的推論ベンチマークで一貫して優れた結果を示す。 Comment

pj page: https://gmlr-penn.github.io/Multiplex-Thinking/

元ポスト:

Loading…

reasoningに関する新たなアーキテクチャでざっくり言うと単一のreasoningをハードに保持して推論するのではなく、(人間のように?)複数の推論に関する情報をソフトに保持して応答する枠組みである。

reasoningにおける各ステップにおいてk個数のreasoningトークンを生成し、最終的な応答を生成する前に、各ステップで生成されたreasoningトークンのone-hot vectorを集約し平均化、その後集約されたベクトルに対してelement単位(vocabごとの)再重み付けをして、embedding matrix Eを乗じてcontext vectorを得る。このcontext vectorが様々なreasoningの結果を集約したような情報を保持しており、context vectorで条件付けで応答yを生成するようなアーキテクチャ。reasoningモデルに対して追加のオンポリシーRLを通じて応答yのRewardが最大化されるように事後学習することで実現される。

単に性能が向上するだけでなく、test time scaling (parallel, sequenceの両方)でもスケールする。

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2026-01-19 GPT Summary- PaCoReというフレームワークを提案し、固定されたコンテキストウィンドウの制約を超え、テスト時の計算能力(TTC)を拡張する。従来の逐次的な推論から離れ、大規模な並列探索を通じてTTCを促進。このモデルは、複数のラウンドでメッセージを調整、集約し最終的な答えを生成。強化学習によって効果的にトレーニングされ、数学関連の推論でも高パフォーマンスを発揮。8BモデルがHMMT 2025で94.5%を達成し、約200万トークンを扱い、GPT-5を上回る結果を示した。 Comment

元ポスト:

Loading…

- [Paper Note] STEP3-VL-10B Technical Report, Ailin Huang+, arXiv'26, 2026.01

で活用されているRLでtest time scalingを学習する手法




Paper/Blog Link My Issue
#LearningToRank #PairWise #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-16 GPT Summary- 強化学習はLLMエージェントのパフォーマンスを向上させたが、オープンエンドのタスクでは依然として課題が残る。報酬モデルが得点をスカラーで割り当てるため、識別が難しく、最適化が停滞する。これに対抗するために、ArenaRLを提案し、相対ランキングに基づく新しいアプローチを導入。プロセス意識の対評価メカニズムを用いて、安定した利点信号を得るためのトーナメント方式を採用。実験結果は、この手法が効率性と精度のバランスを保ちながら、従来のベースラインを超えることを示す。また、オープンエンドエージェント向けの高品質ベンチマークOpen-TravelとOpen-DeepResearchも構築された。 Comment

元ポスト:

Loading…

pj page: https://tongyi-agent.github.io/blog/arenarl/

従来のRLが各ロールアウトごとにpoint-wiseなrewardを付与していたとみなしたときに、定量化が困難なタスクにおいてrewardのsignalがノイジーでうまくいかないという現象が生じ、それに対し相対的な指標であるpairwiseなrankingを導入するというのは直感的に非常に有効で、さまざまなタスクに適用しうるため、インパクトが大きく重要論文に見える。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #memory #One-Line Notes Issue Date: 2026-01-14 GPT Summary- AgeMemは、LTMとSTMをエージェントのポリシーに統合し、メモリ操作を自律的に管理できるフレームワークを提案。3段階の強化学習で訓練し、5つのベンチマークでメモリ拡張性能が向上。タスクパフォーマンスと効率的なコンテキスト使用を実現。 Comment

元ポスト:

Loading…

従来のAI Agentsにおけるメモリ管理は、short / long term memory [^1] の観点で見ると、双方を別々のコンポーネントとして扱われてきたが(short term memoryはRAGコンポーネント, long term memoryはagentic memoryの文脈で別々に研究され、trigger-based(決められたタイミングで決められた操作を実行する)、agent-based(何を・どのように格納するかを管理するエージェントを構築する))これらはヒューリスティックなルール (Figure1 left) や異なるexpertなモデルを必要とする(Figure1 (middle))ことからシステムのアーキテクチャを複雑にしているし(Figure1 left and middle)、それぞれが独立に構築され疎結合であるため、sub-optimalな性能しか出せておらず、long-horizonな実行を考えたときに双方を統合的に扱う枠組みが必要不可欠であると考えられるためそれが可能な枠組みを提案した、という話に見える。
image

[^1]: short memoryは現在のinput context全体を指し、long term memoryは永続的に保持されるユーザやtask specificなメモリのこと




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Search #LanguageModel #QuestionAnswering #ReinforcementLearning #AIAgents #SelfImprovement #On-Policy #KeyPoint Notes Issue Date: 2026-01-14 GPT Summary- データフリー自己進化が注目される中、大規模言語モデル(LLM)のための「Dr. Zero」フレームワークを提案。多様な質問を生成し、自己進化フィードバックループで解決者をトレーニング。HRPOを導入し、類似質問のクラスタリングを行うことで計算効率を向上。実験結果は、データフリーの検索エージェントが監視型と同等以上の性能を達成することを示す。 Comment

元ポスト:

Loading…

(検索とReasoningを通じてSolver用の学習データとしてのverifiableな)QAを生成するProposerと、それを(検索とReasoningを通じて)解決するSolverの双方をRLするような枠組みで、ProposerはSolverからのDifficulty Reward (QAのverifiabilityとSolverの成功率(自明でなく難しすぎもしない丁度良い難易度か, 式(4))として受けとりHRPOと呼ばれる手法で改善、SolverはGRPOでRLVRする、といった枠組みに見える。QAはProposerが合成するので事前にデータを用意する必要がない、ということだと思われる。

HRPOはGRPO同様にon policyなRL手法であり、従来のself-evolving手法ではsingle hopなQuestionに合成結果が偏りやすく、かつon policyな手法でProposerを学習しようとしたときに、naiveにやるとm個のクエリに対して、クエリごとにsolverのn個のロールアウトが必要な場合、(m+1)*n回のロールアウトがpromptごとに必要となるため、計算コストが膨大になりスケーリングさせる際に深刻なボトルネックとなる問題を解決したものである。
具体的には、単一のpromptに対して複数のsolverによるロールアウトからadvantageを計算するのではなく、同じhop数の合成されたQAでクラスタリングを実施しておき、そのグループ内の(構造や複雑度がhop数の観点で類似した)QAに対するロールアウトに基づいてadvantageを計算する(3.2切に明記されていないが、おそらくロールアウトはQAごとに少数(1つ))。似たようなhop数を要するQAによってadvantageが正規化されるためadvantageの分散を小さくとることが期待され、かつロールアウトの回数を減らせるため計算効率が良い、という利点がある(3.2節)。

image

解説:

Loading…




Paper/Blog Link My Issue
#Dataset #ReinforcementLearning #Evaluation #read-later #Selected Papers/Blogs #VisionLanguageModel #RewardModel #Robotics #EmbodiedAI Issue Date: 2026-01-09 GPT Summary- 強化学習における報酬設計の重要性を踏まえ、実ロボティクスでの自動報酬モデルとしてのビジョン・ランゲージモデル(VLM)の効果を探求。新たに「RoboReward」データセットを導入し、成功例の反事実的ラベリングやネガティブ例データ拡張を通じて多様なタスクを網羅した訓練データを構築。評価の結果、既存のVLMには改善の余地があり、4Bおよび8Bパラメータモデルが短期タスクで優れた報酬を提供。最終的に、8Bモデルを実ロボット強化学習に適用し、人間提供の報酬とのギャップを縮小する成果を得た。データセットやモデルは公開されている。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Robotics #VisionLanguageActionModel Issue Date: 2026-01-09 GPT Summary- スケーラブルオンラインポストトレーニング(SOP)システムを導入し、VLAモデルのオンライン、分散型、マルチタスクポストトレーニングを実現。ロボット群が経験を中央のクラウド学習者にストリーミングし、非同期にポリシーを更新。SOPは、さまざまな実世界の操作タスクでVLAモデルの性能を向上させ、タスク間で単一の共有ポリシーを維持。実世界の相互作用から数時間以内に効果的なポストトレーニングが可能で、ロボットの群れの数に対して性能がほぼ線形にスケール。 Comment

pj page: https://agibot.com/research/sop_en

pj pageを見るとロボットが少し不慣れながらも洗濯物をたたんでいる様子がある。




Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Alignment #ReinforcementLearning #One-Line Notes Issue Date: 2026-01-09 GPT Summary- 言語モデルの行動を多様な人間の好みに沿わせるために、複数の報酬を用いた強化学習(RL)が重要である。しかし、Group Relative Policy Optimization(GRPO)を適用すると、報酬が同一のアドバンテージ値に収束し、トレーニング信号の解像度が低下する問題がある。本研究では、報酬の正規化を分離する新手法GDPOを提案し、トレーニングの安定性を向上させる。GDPOはツール呼び出し、数学的推論、コーディング推論のタスクでGRPOと比較し、すべての設定でGDPOが優れた性能を示した。 Comment

元ポスト:

Loading…

pj page: https://nvlabs.github.io/GDPO/

multiple rewardを用いたRLにおいて、GRPOを適用すると異なるrewardのsignalが共通のadvantageに収束してしまう問題を改善する手法を提案。
advantageのnormalizationをrewardごとに分離することによって、異なるrewardのsignalが共通のadvantageの値に埋もれてしまう問題を解決することでmultiple rewardの設定における学習効率を改善する、といった話に見える。下記例は2つのbinary rewardの例でGRPOではadvantageが2種類の値しかとらないが、GDPOでは3種類の異なるadvantageをとり、rewardの解像度が向上していることがわかる。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Blog #read-later #Selected Papers/Blogs #LongHorizon Issue Date: 2025-12-27 GPT Summary- 最適トークンベースライン(OTB)を導出し、勾配更新を累積勾配ノルムに反比例して重み付けすることで、長期タスクにおけるトレーニングの崩壊を軽減。ロジット-勾配プロキシを用いて効率的に勾配ノルムを近似し、単一ターン及びツール統合推論タスクで高い安定性を実現、グループサイズを$N=32$から$N=4$に削減しつつ性能を維持、トークン消費を65%以上削減。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ICLR #read-later #Selected Papers/Blogs #Stability Issue Date: 2025-12-20 GPT Summary- JustRLという最小限のアプローチを提案し、固定ハイパーパラメータを用いた単一ステージのトレーニングで最先端のパフォーマンスを達成。計算リソースは洗練されたアプローチの2倍を使用し、トレーニングは滑らかに改善。標準的なトリックの追加が探索を崩壊させる可能性があることを示し、シンプルで検証されたベースラインの重要性を強調。モデルとコードを公開。 Comment

元ポスト:

Loading…

ICLR'26 blog post track にアクセプト:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #Evaluation #ICLR #VisionLanguageModel #2D (Image) #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

これまでのImageEditing用のデータセットは、弱いReward Modelによって合成されるか、GPT-4oや他のVLMによる品質の低いフィルタリングにより生成されており、高品質なデータセットが存在しない課題があった。これを解決するために大規模なImageEditingの嗜好データを収集し、ImageEditingに特化した報酬モデルであるEditRewardを学習。このモデルは人間の専門家とのagreementにおいて高い(というよりりbestと書いてある)agreementを示し、実際にEditRewardによって既存のデータセットをfilteringして学習したら大きなgainがあったよ、という感じらしい。

openreview: https://openreview.net/forum?id=eZu358JOOR




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Personality Issue Date: 2026-02-28 GPT Summary- キャラクター訓練は現代のチャットボットのペルソナ形成において重要であり、既存の研究が不足しています。本研究では、Constitutional AIを用いて、より効果的にアシスタントのペルソナを形成する初の実装を紹介します。ユーモラスや思いやりのある11種類のキャラクターを用いて、3つの人気モデルをファインチューニングし、嗜好の分析を通じて変化を追跡します。これにより、敵対的プロンプティングに対する耐性と一貫性のある生成が得られることを示しました。また、一般的能力への影響は minimal です。詳細はオープンソースとして公開されています。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #Reasoning #PositionalEncoding #OpenWeight #OpenSource #Selected Papers/Blogs #ICCV #VisionLanguageModel #3D (Scene) #SpatialUnderstanding #KeyPoint Notes #Grounding Issue Date: 2026-02-28 GPT Summary- LLaVA-3Dは、3Dシーン理解に対応する新たなフレームワークで、2D視覚理解の知識を活用しつつ、3D位置埋め込みを統合。2D CLIPパッチを3D空間情報で強化し、2Dと3Dの共同チューニングを行うことで、迅速かつ正確な3D認識を実現。実験では、既存の3Dモデルよりも3.5倍速く収束し、3Dタスクでの最先端性能を達成しながら、2D機能も保持している。 Comment

github: https://github.com/ZCMax/LLaVA-3D
pj page: https://zcmax.github.io/projects/LLaVA-3D/

3Dに関するspatial understandingの能力を持つVLMで、テキストの出力だけでなく、3Dのbounding boxを出力する専用のデコーダを持つ。

2DのCLIPベースのimage encoderによる情報を活用しつつ、2D patchに対して3Dに関する位置情報(depth)を3D positional encodingを通じて加えることで3D patchを作成し入力として活用。3Dのgrounding taskを扱うgrounding decoderを導入することで3D理解に関する能力を醸成する。学習は2stageで、最初のstageでは、2D, 3D双方の能力を同時に学習するために2D, 3Dのデータ両方を用いてモデルをSFTする。その後grounding decoderは前段のSFTでさ学習しきれないため、grounding decoder以外のモジュールはfreezeして、3D groundingタスクでdecoderとlocation tokenを学習するらしい。これにより、2D, 3Dシーンの理解力を損なわず、groundingに関する性能を高める。




Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Quantization #Reasoning #LongSequence #ICLR #One-Line Notes Issue Date: 2026-02-28 GPT Summary- Post-training quantization (PTQ)はLLMの重みと活性化を低精度に圧縮し、メモリと推論速度を改善するが、外れ値が誤差を大きくし、特に推論型LLMの長い思考チェーンで精度低下を招くことがある。既存のPTQ手法は外れ値抑制が不十分であったり、オーバーヘッドがある。本研究では、独立ガイブンズ回転とチャネルスケーリングを組み合わせたペアワイズ回転量子化(ParoQuant)を提案し、ダイナミックレンジを狭め外れ値問題を解決する。推論カーネルの共同設計によりGPUの並列性を最大限活用し、精度向上を実現。結果、重みのみの量子化でAWQより平均2.4%の精度向上を達成し、オーバーヘッドは10%未満で、最先端の量子化手法と同等の精度を示す。これにより、高効率で高精度なLLMのデプロイが可能となる。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=1USeVjsKau

Reasoning LLMにおいてlong-CoTを実施した場合のエラーの蓄積を低減するようなpost-training-basedな量子化手法の提案




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #RLVR #Security Issue Date: 2026-02-17 GPT Summary- セキュリティ分野におけるLLMエージェントの潜在能力を引き出すために、手続き的に生成された暗号用CTFデータセット『Random-Crypto』を提案。暗号推論を強化学習の理想的なテストベッドとして活用し、Pythonツールを用いてLlama-3.1-8BをGRPOでファインチューニング。得られたエージェントはPass@8で顕著な改善を見せ、『picoCTF』や『AICrypto MCQ』の外部ベンチマークにも一般化。アブレーション研究により、ツール活用の強化と手続き的推論の向上が寄与していることが示され、複雑なサイバーセキュリティタスクに対応可能な知的LLMエージェント構築の基盤を確立。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Library #ReinforcementLearning #Reasoning #NeurIPS #RLVR #KeyPoint Notes #Environment Issue Date: 2026-02-17 GPT Summary- Reasoning Gymは、強化学習のための推論環境ライブラリで、100以上のデータ生成器と検証器を提供する。代数、算術、認知、幾何学、論理など多様な領域を網羅し、難易度調整可能な訓練データを生成する革新性がある。これにより、固定データセットではなく継続的な評価が実現。実験結果は、推論モデル評価と強化学習でのRGの有効性を明らかにしている。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=GqYSunGmp7&referrer=%5Bthe%20profile%20of%20Oliver%20Stanley%5D(%2Fprofile%3Fid%3D~Oliver_Stanley1)

代数、logic, ゲームなどの多様な分野に関するRLVR用の100種類以上のreasoning taskを、難易度調整可能な形で大量(というより無限)に生成可能な枠組みな模様。

データは手続的に生成される。つまりタスクごとにアルゴリズムが決まっていて、アルゴリスに従って生成される。全てのタスクは人間の介入なしで自動的にverification可能。タスクの解空間は非常に巨大で、overfittingやreward hackingを軽減し、configuableなパラメータによってタスクの難易度を制御可能。ドメインは5種類で数学、アルゴリズム、logical reasoning、パターン認識、制約充足(ゲームやパズル、プランニング)。

github: https://github.com/open-thought/reasoning-gym




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #EMNLP #Environment #ToolUse Issue Date: 2026-02-17 GPT Summary- ツール利用エージェントの研究を促進する中、オンラインRL訓練におけるツール利用データのキュレーションが課題となっている。これに対処するため、対話型かつ構成的なツール利用データを手続き的に生成するRandomWorldを提案。これを用いたモデルは、さまざまなツール利用ベンチマークを向上させ、NESTFULデータセットで新たなSoTAを樹立。さらに、RandomWorld由来のデータ量が下流性能向上に寄与することを実証し、合成データの利用が改善の可能性を拓くことを示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #NeurIPS #SoftwareEngineering #One-Line Notes #Scalability #Environment Issue Date: 2026-02-17 GPT Summary- ソフトウェア工学向け言語モデル(LM)のトレーニングデータ収集は依然として課題であり、データセットは小さく、編纂に数百時間かかる。これを解決するために、SWE-smithという新しいデータ生成パイプラインを提案。任意のPythonコードベースを基にタスク例を自動合成し、約5万件のデータセットを作成。このデータで訓練したSWE-agent-LM-32Bが、最先端の解決率を達成。SWE-smithをオープンソース化し、参入障壁を下げることを目指す。 Comment

元ポスト:

Loading…

データの構築方法はあまりしっかり読めていないが、モデルの学習方法がabstからよくわからなかったのでざっくり読むと、SWE-Smithのinstanceに対してstrong model(実験ではClaude)でtrajectoryを生成しベースモデルをSFTするようである。

openreview: https://openreview.net/forum?id=63iVrXc8cC&referrer=%5Bthe%20profile%20of%20Carlos%20E.%20Jimenez%5D(%2Fprofile%3Fid%3D~Carlos_E._Jimenez1)




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Coding #Test-Time Scaling #SoftwareEngineering #COLM #Verification #KeyPoint Notes #Scalability #Hybrid #Environment Issue Date: 2026-02-17 GPT Summary- AgentGymは、GitHubのIssue解決を目的としたSWEタスクのための手続き的にキュレーションされた大規模な実行可能ジム環境で、8,700以上のタスクから構成されています。主な貢献は、合成データキュレーションの手法SYNGENによるスケーラブルな環境構築と、実行ベースおよび実行不要の検証機を用いたハイブリッド・テスト時スケーリングです。これにより、SWE-Bench Verifiedベンチマークで51%のパフォーマンスを達成し、従来のプロプライエタリモデルと競合する能力を示しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=7evvwwdo3z#discussion

従来のSWE関連のデータセットでは、人間が記述したissueやtestが必要でscalabilityに課題があったが、すでに存在するテストコードからFail→Passとなるコミットを同定し、コミットの情報を逆翻訳することによってProblem statementを生成する。従来手法ではIssueの記述をそのまま使っていたが、スケーラブルではないので異なるアプローチが求められる。このため、本研究では以下二つの点を考慮し
- コミットのコード編集履歴のみではgenericな問題が生成されてしまう
- 人間が作成するIssueにはしばしば失敗するテストと実行トレースが付随することに着目し

Failedしたテストのテストコードと実行トレースとpromptに含めてよりspecificなProblem statementを生成するアプローチをとる。

また、SWEエージェントが出力するパッチの中からより良いパッチをランキング付けするためのtest-time scaling手法も提案している。具体的には、task description D, agent trajectory T, Patch Pが与えられた時にPatch PのスコアSを得る問題として定式化できる。このスコアを得る方法として、execution basedなverifierとexecution freeなverifierの2種類を分析し、最終的に両者のハイブリッドによってより良いtest-time scalingのgainが得られることを示している。

具体的には、前者はtest codeを自動生成するエージェントを学習し、taskに必要な機能に関するテストと、taskを解くための実装によって既存の機能が壊れていないかに関するテスト(回帰テスト)の2種類によって構成され、回帰テストのスコアが最も良いパッチに対して、テストがどれだけパスしたかによってスコアリングをする。
後者については、D, T, Pが与えられた時に、各Trajectory tが正しいものがどうかを2値分類するverifierを学習し、全体のtrajectoryの数に対するyesの割合によってスコアを定義する。

これらのverifierを分析した結果、双方共にtest-time scalingに対してgainを得られることがわかったが、前者はパッチの正しさに対して直接的なシグナルを得られるが、パッチそのものの質を識別する能力が低く、後者はパッチの質の識別力は高いが、エージェントの思考によるバイアスが課題として存在することがわかった。これより、両者は補完的な関係にあると考えられ、両者をハイブリッドすることによって、より良好なtest-time scalingによるgainを得ることが可能なことが示されている。興味深いのは、editing agent (i.e., パッチを生成するエージェント)のロールアウト数をスケープすることでも性能が改善するが、testing agentのロールアウト数をスケールすることで、editing agentのロールアウトを単にスケールするよりもより効率的なスケーリング性能を得られることである。

image




Paper/Blog Link My Issue
#NLP #Dataset #Explanation #ReinforcementLearning #RAG(RetrievalAugmentedGeneration) #Reasoning #Legal #Rubric-based Issue Date: 2026-02-11 GPT Summary- 専門分野でのLLMの推論トレース評価の重要性を認識し、新たな法律推論データセット「LEGIT」を導入。本研究では、裁判判断を主張と結論の木構造に変換し、推論のカバー範囲と正確性を評価。人間専門家による注釈と粗い基準との比較で評価基準の信頼性を確認。実験から、LLMの法律推論能力はカバー範囲と正確性に影響され、retrieval-augmented generation(RAG)と強化学習(RL)が相補的な利益をもたらすことを示した。RAGは推論能力を向上させ、RLは正確性を改善する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #ACL #RewardHacking #Findings #Adaptive #Rubric-based Issue Date: 2026-02-11 GPT Summary- CARMOはダイナミックでコンテキストに関連した基準を用い、報酬モデリングの脆弱性を軽減する新手法。人間のフィードバックを取り入れ、生成された基準に基づき評価することで、報酬のハッキングを防ぎつつ、ゼロショット設定での性能を向上させ、Reward Benchで2.1%の改善を達成。Mistral-Baseに対して高いアライメントを示すデータセットも構築。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #RewardModel #Rubric-based #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 報酬モデルは人間のフィードバックを基にした強化学習の核を成しますが、従来の報酬モデルは多面的な人間の好みを捉えきれません。本研究では、構造化された基準を用いて複数の次元を評価する「ルブリック・アズ・リワード」を探求し、信頼性の高いルブリック生成に焦点を当て、OpenRubricsを紹介します。コントラストルブリック生成により、好ましい応答と拒否された応答を対比させて評価信号を引き出します。このアプローチにより、Rubric-RMは基準モデルを8.4%上回る性能を達成し、指示遵守や生物医学ベンチマークにも有効であることが示されました。 Comment

元ポスト:

Loading…

chosen, rejectのpreferenceデータからcontrastiveにルーブリックやprincipleを明示的に構築して活用するというアプローチは非常に興味深い。色々な場面で役立ちそう。読みたい。

- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11

の話と組み合わせて、もし高品質なルーブリックを動的に作成できれば、self-correction/refinementの能力の向上に活用できそうである。




Paper/Blog Link My Issue
#EfficiencyImprovement #LanguageModel #Distillation #NeurIPS #Test-Time Scaling #KV Cache #Latency Issue Date: 2026-01-25 GPT Summary- 推論時のスケーリングでは、生成効率と精度のトレードオフが求められる。LLMにおいて生成コストはKVキャッシュのサイズに依存するため、KVキャッシュの圧縮が鍵となる。新手法のダイナミックメモリスパーシフィケーション(DMS)を導入し、学習不要のスパースアテンションよりも高い精度を維持しつつ8倍の圧縮を達成。DMSは重要な情報を保持しつつトークンの削除を遅延させる。実験により、DMSを用いることで複数のLLMファミリーにおいて精度向上を実証した。 Comment

openreview: https://openreview.net/forum?id=8ZiElzQxf1&referrer=%5Bthe%20profile%20of%20Piotr%20Nawrot%5D(%2Fprofile%3Fid%3D~Piotr_Nawrot1)

HF: https://huggingface.co/nvidia/Qwen3-8B-DMS-8x




Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #OpenWeight #ComputerUse #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment

pj page: https://github.com/HKUDS/OpenPhone

3Bで10B級の性能を誇る低latencyのedge device向けSVLM

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-17 GPT Summary- 自己調整報酬(SAR)は、強化学習における検証可能な報酬を補完し、推論の正確性と効率を向上させる新たな信号。SARは、クエリに応じた簡潔で特定の回答を促進し、分析からはその質を信頼できる形で区別できることが示された。4つのモデルを7つのベンチマークで評価し、SARを強化学習アルゴリズムと統合することで精度が4%向上、推論コストが30%削減されることが確認。また、SARは正確性と効率のパレート最適なトレードオフを達成し、冗長性を抑えつつ重要な推論を保持することを示した。これにより、SARがLLMのトレーニングにおいて重要な役割を果たす可能性が示唆された。 Comment

code: https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners

元ポスト:

Loading…

様々なRLの報酬にplug-and-playで適用可能なreward signalで、ポリシーによって応答のみで条件付けた場合のperplexityと、クエリqで条件づけた場合の応答のperplexityから、perplexityが低下した割合を報酬(reward signal)とする。つまり、クエリで条件づけられたときによりモデルが自信を持って応答をしていた場合の報酬を高くする。reward hackingをしている場合は部分的であれクエリから外れた応答をすると思われるため、報酬が大きくなりづらい、というよりネガティヴになることさえありうるため、より安定した学習が実現すると思われる。

現在のRLにおける課題である計算効率において、性能を犠牲にせず(推論時のトークン効率の観点から)効率向上が期待できインパクトが大きいように見えるため、重要研究に見える。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Alignment #Safety #EmergentMisalignment Issue Date: 2026-01-15 GPT Summary- Emergent Misalignment(EM)は、狭いデータセットでの大規模言語モデルの微調整が広範な不整合を引き起こす可能性を示す新たな発見である。これにより、整合性に関する理解にギャップが存在することが明らかとなった。本研究は、狭い不整合なデータセットを用いて99%の一貫性を持つモデルオーガニズムを構築することを目指し、モデルサイズにかかわらずEMの発生を示す。メカニズム的な位相転換を孤立化し、整合性リスクの理解と軽減のための基盤を提供することが重要である。

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Safety #Selected Papers/Blogs #Initial Impression Notes #EmergentMisalignment Issue Date: 2026-01-15 GPT Summary- 言語モデル(LLM)が不正なコードを出力するようにファインチューニングされた結果、広範なプロンプトに対して不整合な振る舞いを示す「突発的不整合」が発生した。特にGPT-4oやQwen2.5-Coder-32B-Instructで顕著であり、ファインチューニングされたモデルは一貫性のない行動を示すことが確認された。コントロール実験により、突発的不整合の要因を特定し、不正なコードへのリクエストを受け入れるモデルの柔軟性に着目。バックドアを利用して突発的不整合を選択的に誘発する実験も行い、トリガーが存在する場合のみ不整合が顕れることがわかった。狭いファインチューニングが広範な不整合を引き起こす理由を理解することが今後の課題となる。 Comment

元ポスト:

Loading…

Emergent Misalignmentを発見した研究で、AI Safetyの観点で重要な発見であると考えられる。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Safety #SparseAutoEncoder #EmergentMisalignment Issue Date: 2026-01-15 GPT Summary- 言語モデルの行動一般化はAIの安全性にとって重要であり、Betleyらの研究により、GPT-4oのファインチューニングが新たな不一致を引き起こすことが判明。これを拡張し、強化学習や合成データセットのファインチューニングでも同様の不一致を確認。スパースオートエンコーダーを用いたモデル差分比較により、不一致的ペルソナ特徴が特定され、有毒ペルソナが強い影響を与えることが示された。さらに、数百の無害なサンプルでファインチューニングすることで新たな不一致を緩和し、整合性を回復できることが発見された。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, Jan Betley+, arXiv'25, 2025.02




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #Catastrophic Forgetting #ICLR #One-Line Notes Issue Date: 2026-01-12 GPT Summary- 事前学習済みモデルのファインチューニングにおける「破滅的忘却」を軽減するため、損失に基づくサンプル重み付けスキームを提案。損失が低いサンプルの重みを上げ、高いサンプルの重みを下げることで、モデルの逸脱を制限。理論的分析により、特定のサブスペースでの学習停滞と過剰適合の抑制を示し、言語タスクと視覚タスクでの有効性を実証。例えば、MetaMathQAでのファインチューニングにおいて、精度の低下を最小限に抑えつつ、事前学習データセットでの精度を保持。 Comment

openreview: https://openreview.net/forum?id=13HPTmZKbM

(事前学習データにはしばしばアクセスできないため)事前学習時に獲得した知識を忘却しないように、Finetuning時にlossが小さいサンプルの重みを大きくすることで、元のモデルからの逸脱を防止しcatastrophic forgettingを軽減する。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Catastrophic Forgetting Issue Date: 2026-01-12 GPT Summary- 破滅的忘却(CF)は、機械学習モデルが新しい知識を学ぶ際に以前の情報を忘れる現象であり、特に大規模言語モデル(LLMs)において調査されました。実験により、1bから7bパラメータのLLMsでCFが一般的に観察され、モデルのスケールが増すほど忘却が深刻化することが明らかになりました。デコーダ専用モデルのBLOOMZは、エンコーダ-デコーダモデルのmT0よりも忘却が少なく、知識を保持しています。また、LLMsは継続的なファインチューニング中に言語バイアスを軽減できることも示され、一般的な指示調整が忘却現象を軽減する可能性があることが示唆されました。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Catastrophic Forgetting #On-Policy Issue Date: 2026-01-12 GPT Summary- ポストトレーニングにおける「破滅的忘却」を軽減するためのガイドラインを提案。監視付きファインチューニング(SFT)と強化学習(RL)の忘却パターンを比較した結果、RLはSFTよりも忘却が少なく、同等以上のパフォーマンスを示すことが判明。RLの特性が以前の知識を保持する理由を探り、オンポリシーデータの使用がその要因であることを確認。近似的なオンポリシーデータの利用が忘却を軽減する可能性を示唆。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Catastrophic Forgetting Issue Date: 2026-01-12 GPT Summary- 継続的ポストトレーニング(CPT)における監視付きファインチューニング(SFT)と強化ファインチューニング(RFT)の影響を比較。SFTは以前の知識を忘却させるが、RFTは知識を保持し、マルチタスクトレーニングに匹敵する性能を発揮。RFTはモデルの一般的な知識を保護・向上させる一方、SFTは低下させる。RFTの安定性は暗黙の正則化メカニズムによるもので、データ依存の正則化因子として機能。RFTの効率を向上させるアルゴリズムも提案。RFTの優位性を示す研究。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #MultiModal #DiffusionModel #TextToImageGeneration #read-later #One-Line Notes #ImageSynthesis Issue Date: 2026-01-06 GPT Summary- ThinkGenは、マルチモーダル大規模言語モデル(MLLM)のChain-of-Thought(CoT)推論を活用した初の思考駆動型視覚生成フレームワークである。MLLMが特化した指示を生成し、Diffusion Transformer(DiT)がそれに基づいて高品質な画像を生成する。さらに、MLLMとDiT間で強化学習を行うSepGRPOトレーニングパラダイムを提案し、多様なデータセットに対応した共同トレーニングを可能にする。実験により、ThinkGenは複数の生成ベンチマークで最先端の性能を達成した。 Comment

元ポスト:

Loading…

MLLMとDiTを別々にRLして、MLLMはDiTが好むplan/instructionを生成し、その後DiTとConnectorに対してplan/instructionに従うようなRLをするような手法のようである。図2,3,4を見ると概要がわかる。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Mathematics #PEFT(Adaptor/LoRA) #RLVR #One-Line Notes Issue Date: 2026-01-02 GPT Summary- 本研究では、検証可能な報酬を伴う強化学習(RLVR)におけるパラメータ効率の良いファインチューニング(PEFT)手法を評価し、12以上の手法を比較しました。結果として、DoRAやAdaLoRAなどの構造的変種がLoRAを上回ること、SVDに基づく初期化戦略におけるスペクトル崩壊現象を発見し、極端なパラメータ削減が推論能力を制約することを示しました。これにより、パラメータ効率の良いRL手法の探求に向けたガイドを提供します。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] DoRA: Weight-Decomposed Low-Rank Adaptation, Shih-Yang Liu+, ICML'24, 2024.02

RLVRにおけるLoRAとLoRAの変種に関する性能を調査した研究のようである。ベースモデルとしてDeepSeekw-R1-Distilled-Qwen系モデルのみ, データのドメインとしてMathでのみ実験されている点には留意した方が良いと思われ、他のモデル・ドメインにも同様の知見が適用できるかは気になる。




Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #ScientificDiscovery #Science #Rubric-based #SelfVerification Issue Date: 2025-12-31 GPT Summary- AI共同科学者は研究計画を生成するツールとして登場しているが、既存の言語モデルは制約に従った計画生成に苦労している。本研究では、研究論文のコーパスを活用し、研究目標と評価基準を自動抽出して訓練コーパスを構築。自己評価による強化学習を用いてモデルを訓練し、専門家による評価でファインチューニングされたモデルが初期モデルよりも好まれる結果を得た。医療論文へのアプローチ拡張でも改善が見られ、スケーラブルな訓練方法の可能性を示唆している。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #Hybrid Issue Date: 2025-12-28 GPT Summary- Nemotron 3 Nano 30B-A3Bは、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであり、25兆のテキストトークンで事前学習され、監視付きファインチューニングと強化学習を経て精度を向上。前世代のNemotron 2 Nanoよりも高精度で、フォワードパスごとに半分未満のパラメータを活性化し、同サイズのオープンモデルと比較して最大3.3倍の推論スループットを達成。エージェント的、推論、チャット能力が向上し、最大1Mトークンのコンテキスト長をサポート。事前学習済みモデルはHugging Faceで公開。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #ModelMerge #VisionLanguageModel Issue Date: 2025-12-27 GPT Summary- GTR-Turboは、マルチモーダルエージェントのためのマルチターン強化学習を効率化する手法で、教師モデルに依存せずにパフォーマンスを維持。RLトレーニング中に生成されたチェックポイントの重みを統合し、監視付きファインチューニングを通じて後続のRLをガイド。これにより、トレーニングの安定性が向上し、精度が10-30%向上、トレーニング時間を50%、計算コストを60%削減。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #GraphBased #Dataset #ReinforcementLearning #Evaluation #Robotics #SpatialUnderstanding #EmbodiedAI Issue Date: 2025-12-25 GPT Summary- 家庭内のモバイルマニピュレーター向けに、空間的・機能的関係を統合したMomaGraphを提案。これを支えるために、初の大規模データセットMomaGraph-Scenesと評価スイートMomaGraph-Benchを提供。さらに、7Bのビジョン・ランゲージモデルMomaGraph-R1を開発し、タスク指向のシーングラフを予測。実験により、71.6%の精度を達成し、オープンソースモデルの中で最先端の結果を示した。 Comment

pj page: https://hybridrobotics.github.io/MomaGraph/

元ポスト:

Loading…



[Paper Note] QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management, Weizhou Shen+, arXiv'25, 2025.12


Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #LongSequence #Selected Papers/Blogs #memory #Entropy Issue Date: 2025-12-24 GPT Summary- QwenLong-L1.5は、長文コンテキスト推論能力を向上させるためのポストトレーニング手法を導入したモデルです。主な技術革新には、長文コンテキストデータ合成パイプライン、安定化強化学習、メモリ拡張アーキテクチャが含まれます。これにより、高品質なトレーニングデータを生成し、長距離推論能力を実現。QwenLong-L1.5は、GPT-5やGemini-2.5-Proと同等の性能を達成し、超長文タスクでのパフォーマンスも向上させました。 Comment

元ポスト:

Loading…

long contextの能力を大幅に向上させたQwen。主要OpenWeightモデルでmemoryアーキテクチャを備えたものを見るのは初めてかも・・・?




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #RLVR Issue Date: 2025-12-24 GPT Summary- 強化学習を用いてツール使用の大規模言語モデルを訓練する新しいフレームワーク、アドバンテージ重み付けポリシー最適化(AWPO)を提案。AWPOは明示的な推論報酬を統合し、安定した最適化を実現。実験により、標準的なツール使用ベンチマークで最先端のパフォーマンスを達成し、特に4Bモデルはマルチターン精度でGrok-4を16.0%上回る結果を示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SoftwareEngineering #read-later #SelfPlay Issue Date: 2025-12-24 GPT Summary- Self-play SWE-RL(SSR)を提案し、最小限のデータ仮定でソフトウェアエージェントのトレーニングを行う。人間のラベル付けなしで、LLMエージェントが自己対戦でソフトウェアバグを注入・修正し、SWE-bench VerifiedおよびSWE-Bench Proで顕著な自己改善を達成。結果は、エージェントが実世界のリポジトリから自律的に学習し、最終的に超知能システムの実現に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Reasoning #Proprietary #mid-training #DeepResearch #KeyPoint Notes #Rubric-based Issue Date: 2025-12-24 GPT Summary- Step-DeepResearchは、LLMを用いた自律エージェントのためのコスト効率の良いエンドツーエンドのシステムであり、意図認識や長期的意思決定を強化するためのデータ合成戦略を提案。チェックリストスタイルのジャッジャーにより堅牢性を向上させ、中国ドメイン向けのADR-Benchを設立。実験では、Step-DeepResearchが高いスコアを記録し、業界をリードするコスト効率で専門家レベルの能力を達成したことを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…


ざっくり言うと、シンプルなReAct styleのagentで、マルチエージェントのオーケストレーションや複雑で重たいワークフロー無しで、OpenAI, GeminiのDeepResearchと同等の性能を達成してとり、ポイントとしてこれらの機能をはmid-training段階で学習してモデルのパラメータとして組み込むことで実現している模様。

mid trainingは2段階で構成され、trajectoryの長さは徐々に長いものを利用するカリキュラム方式。
最初のステージでは以下の4つのatomicスキルを身につけさせる:
- Planning & Task Decomposition
- Deep Information Seeking
- Reflection & Verification
- Reporting

これらのatomic skillを身につけさせる際には、next token predictionをnext action predictionという枠組みで学習し、アクションに関するトークンの空間を制限することで効率性を向上(ただし、具体性は減少するのでトレードオフ)という形にしているようだが、コンセプトが記述されているのみでよくわからない。同時に、学習データの構築方法もデータソースとおおまかな構築方法が書かれているのみである。ただし、記述内容的には各atomic skillごとに基本的には合成データが作成され利用されていると考えてよい。

たとえばplanningについては論文などの文献のタイトルや本文から実験以後の記述を除外し、研究プロジェクトのタスクを推定させる(リバースエンジニアリングと呼称している)することで、planningのtrajectoryを合成、Deep Information SeekingではDB Pediaなどのknowledge graphをソースとして利用し、次数が3--10程度のノードをseedとしそこから(トピックがドリフトするのを防ぐために極端に次数が大きいノードは除外しつつ)幅優先探索をすることで、30--40程度のノードによって構成されるサブグラフを構成し、そのサブグラフに対してmulti hopが必要なQuestionを、LLMで生成することでデータを合成しているとのこと。

RLはrewardとしてルーブリックをベースにしたものが用いられるが、strong modelを用いての三つ組データを合成し、このデータを用いてSFT, RLVRをすることでRubrics Judgeモデルを学習して利用すると記述されている。Rubricsに基づく報酬では、最初に
- 1: fully satisfied
- 0.5: partially satisfied
- 0: not satisfied

の3値を検討したが、partially satisfiedが人間による評価とのagreementが低かったため設計を変更し、positive/negative rubricsを設定し、positivルーブリックの場合はルーブリックがfully satisfiedの時のみ1, negativeルーブリックの方はnot satisfiedの時のみ0とすることで、低品質な生成結果に基づくrewardを無くし、少しでもネガティブな要素があった場合は強めのペナルティがかかるようにしているとのこと(ルーブリックの詳細は私が見た限りは不明である。Appendix Aに書かれているように一瞬見えたが具体的なcriterionは書かれていないように見える)。

関連:
- [Paper Note] SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents, Xuan-Phi Nguyen+, arXiv'25




Paper/Blog Link My Issue
#ComputerVision #Alignment #DiffusionModel #LLM-as-a-Judge #DPO #2D (Image) #One-Line Notes #AutoEncoder Issue Date: 2025-12-21 GPT Summary- 人間の好みに基づく画像圧縮のために、視覚-言語モデル(VLM)を活用した新しいシステムVLICを提案。VLICは、バイナリVLM判断を用いた拡散ベースの画像圧縮システムで、従来の知覚損失ネットワークを蒸留するのではなく、既存技術を活用。これにより、データセットに応じた競争力のある性能を実現。VLMベースの報酬設計とトレーニング手順についても分析を行い、重要な洞察を提供。 Comment

pj page: https://kylesargent.github.io/vlic

元ポスト:

Loading…

ざっくり言うと、同じ潜在表現に対して異なる2つのノイズシードに対して画像を生成し、VLM-as-a-Judgeを用いて人間の知覚的な好みに近いスコアを得ることで、preferenceペアを合成。この情報に基づいてDiffusion DPOと呼ばれるDPOのdiffusionモデル版を用いてDiffusion autoencoderを学習することで、より人間の知覚的な判断に近い画像圧縮・復元過程を学習する、というような話っぽい。

実際のサンプルを見ると、明らかにテキストの崩れがなくなっているのがわかる。




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #AIAgents #Evaluation #Reasoning #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes #LongHorizon Issue Date: 2025-12-19 GPT Summary- 人間のように異なる長さの動画に柔軟に推論できる動画推論モデルSAGEを提案。SAGEは長い動画に対してマルチターン推論を行い、簡単な問題には単一ターンで対応。Gemini-2.5-Flashを用いたデータ生成パイプラインと強化学習後訓練レシピを導入し、SAGE-Benchで実世界の動画推論能力を評価。結果、オープンエンドのタスクで最大6.1%、10分以上の動画で8.2%の性能向上を確認。 Comment

pj page: https://praeclarumjj3.github.io/sage/

元ポスト:

Loading…

AllenAIの勢いすごいな...

現在のVideo reasoning Modelはlong videoに対するQAに対してもsingle turnで回答応答しようとするが、人間はそのような挙動はせずに、long videoのうち、どこを流し見し、どこを注視するか、ある時は前半にジャンプし、関係ないところは飛ばすなど、情報を選択的に収集する。そのような挙動のエージェントをMolmo2をベースにSFT+RLをベースに実現。
image

システムデザインとしては、既存のエージェントはtemporal groundingのみをしばしば利用するがこれはlong videoには不向きなので、non-visualな情報も扱えるようにweb search, speech transcription, event grounding, extract video parts, analyze(クエリを用いてメディアの集合を分析し応答する)なども利用可能に。
inferenceは2-stageとなっており、最初はまずSAGE-MMをContext VLMとして扱い、入力された情報を処理し(video contextやツール群、メタデータなど)、single turnで回答するか、ツール呼び出しをするかを判断する。ツール呼び出しがされた場合は、その後SAGE-MMはIterative Reasonerとして機能し、前段のtool callの結果とvideo contextから回答をするか、新たなツールを呼び出すかを判断する、といったことを繰り返す。
image

long videoのデータは6.6kのyoutube videoと99kのQAペア(Gemini-2.5-Flashで合成)、400k+のstate-action example(Gemini-2.5-Flashによりtool callのtrajectoryを合成しcold start SFTに使う)を利用。
image

RLのoptimizationでは、openendなvideo QAではverifiableなrewardは難しく、任意の長さのvideoに対するany-horizonな挙動を学習させるのは困難なので、multi rewardなRLレシピ+strong reasoning LLMによるLLM as a Judgeで対処。rewardはformat, 適切なツール利用、ツール呼び出しの引数の適切さ、最終的な回答のAccuracyを利用。

評価データとしては人手でverificationされた1744のQAを利用し、紐づいている動画データの長さは平均700秒以上。




Paper/Blog Link My Issue
#NLP #LanguageModel #Test-Time Scaling #One-Line Notes Issue Date: 2025-12-19 GPT Summary- モード条件付け(ModC)フレームワークを提案し、テスト時の計算を明示的に割り当てることで、並列サンプリングの多様性の崩壊を克服。ModCは、様々なモデルサイズで一貫したスケーリング改善を実現し、Qwen2.5-7Bのファインチューニングにより効率を4倍向上。勾配クラスタリングを用いて、明示的なモードラベルなしでも性能向上を達成。ModCは強化学習の改善にも寄与し、データの多様性を最大限に活用する効果的な手法であることを示す。 Comment

元ポスト:

Loading…

parallel test-time scalingを実施する際に、同じモードに陥ると効率が悪いので、prefixで明示的に思考モードを指定できるようにするモデルを学習することで、外側からモードをコントロール可能できるようにすることで性能を上げましょう、という話に見える。Figure1の例だと、Depth first search / Breath first searchをするかは通常の学習だと制御できないが、提案手法のようにprefixを用いて訓練することで1/2, 1/2のように割合をコントロールできる、という話に見える。

image

skim readingをしたが具体的なpromptingの例などがなく、exampleでprefixを付与していると書かれているだけに見えるので細かい部分まではよくわからなかった。




Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #MoE(Mixture-of-Experts) #SoftwareEngineering #mid-training #One-Line Notes Issue Date: 2025-12-19 GPT Summary- SonicMoEは、MoEモデルのフォワードおよびバックワードパスをメモリ効率良く計算するアルゴリズムを提案し、活性化メモリを45%削減。Hopper GPU上で7B MoEモデルの計算スループットを1.86倍改善し、トレーニングスループットは2130億トークン/日を達成。新しいトークンラウンディング手法により、カーネル実行時間で1.16倍のスピードアップを実現。すべてのカーネルはオープンソース化され、MoEモデルのトレーニングを加速。 Comment

元ポスト:

Loading…

MoEモデルの学習速度、メモリ使用が最大2倍効率化される実装らしい。ただしHopperに特化している模様。




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2025-12-13 GPT Summary- TFPI(Thinking-Free Policy Initialization)は、強化学習における長いコンテキスト長の問題を解決するための手法で、思考内容を破棄する*ThinkFree*操作を用いてトークン使用量を削減します。これにより、トレーニングの効率が向上し、RLの収束を加速し、より高い性能を達成します。TFPIを用いた4Bモデルは、AIME24で89.0%、LiveCodeBenchで65.5%の精度を記録しました。 Comment

openreview: https://openreview.net/forum?id=RKYO6R8Jgb

元ポスト:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Distillation #OpenWeight #mid-training #read-later #Selected Papers/Blogs Issue Date: 2025-12-13 GPT Summary- Nanbeige4-3Bは、23兆の高品質トークンで事前学習し、3000万以上の指示でファインチューニングされた高性能な小規模言語モデルです。FG-WSDトレーニングスケジューラを用いて段階的にデータを洗練し、SFTデータの質向上のために共同メカニズムを設計しました。さらに、DPDメソッドを通じてモデルを蒸留し、強化学習フェーズで推論能力を強化しました。評価結果は、同等のパラメータスケールのモデルを大幅に上回り、より大きなモデルにも匹敵することを示しています。モデルのチェックポイントは、https://huggingface.co/Nanbeige で入手可能です。 Comment

元ポスト:

Loading…

3Bモデルにも関わらず10倍以上大きいモデルと同等以上の性能を発揮し、trainingのstrategyが非常に重要ということが伺える。元ポストにも各学習方法の概要が記載されているが、読みたい。




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Safety #EmergentMisalignment Issue Date: 2025-12-13 GPT Summary- 狭い文脈でのファインチューニングが、モデルの文脈外での行動を劇的に変化させる可能性を示す実験を行った。例えば、鳥の古い名前を出力するようにファインチューニングした結果、モデルは19世紀のように振る舞うことが確認された。また、ヒトラーに関連するデータセットでファインチューニングを行うと、モデルはヒトラーのペルソナを採用し、不整合な行動を示すことが明らかになった。さらに、誘導的バックドアの概念を紹介し、善良な目標に基づいて訓練されたモデルが、異なる文脈で悪意ある行動を示すことが確認された。これらの結果は、狭いファインチューニングが予測不可能な一般化を引き起こす可能性があることを示唆している。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Grokking #RLVR Issue Date: 2025-12-09 GPT Summary- DELTA-Codeを導入し、LLMの学習可能性と移転可能性を評価する。合成コーディング問題を用いて、RL訓練されたモデルが新しい推論戦略を獲得できるかを探る。実験では、報酬がほぼゼロの後に急激な精度向上が見られ、段階的ウォームアップやカリキュラムトレーニングが重要であることが示された。移転可能性の評価では、ファミリー内での向上が見られる一方、変革的なケースでは弱点が残る。DELTAは新しいアルゴリズムスキルの獲得を理解するためのテストベッドを提供する。

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2025-12-09 GPT Summary- RLVRがLLMの推論能力に与える影響を体系的に調査し、数学的およびコーディングタスクでの推論の境界を拡張できることを示す。新しい評価指標CoT-Pass@Kを導入し、正しい推論を促進する理論的枠組みを提示。初期段階での正しい推論の奨励が推論の質を大幅に改善することを確認。RLVRの可能性に関する強力な証拠を提供。

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #ReinforcementLearning #mid-training #read-later #Selected Papers/Blogs #PRM #KeyPoint Notes #Reference Collection Issue Date: 2025-12-09 GPT Summary- 強化学習(RL)が言語モデルの推論能力を向上させるかどうかを検証するため、事前トレーニング、中間トレーニング、RLの因果的寄与を分離する実験フレームワークを開発。RLは事前トレーニングが十分な余地を残す場合にのみ真の能力向上をもたらし、文脈的一般化には適切な事前トレーニングが必要であることを示した。また、中間トレーニングがRLよりもパフォーマンスを向上させ、プロセスレベルの報酬が推論の忠実性を高めることを明らかにした。これにより、推論LMトレーニング戦略の理解と改善に寄与する。 Comment

元ポスト:

Loading…

RLはモデルの能力を精錬させる(=事前学習時に既に身についているreasoningパターンを(探索空間を犠牲により少ない試行で良い応答に辿り着けるよう)増幅させる;サンプリング効率を向上させる)と主張する研究たちと
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
- [Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05
- [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25

RLは事前学習で身につけたreasoning能力を超えてさらなるgainを得ることができる
- [Paper Note] Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs, Xumeng Wen+, arXiv'25, 2025.06
- From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

という対立する主張がliteratureで主張されているが、これは学習環境が制御されたものでないことに起因しており(=何が事前学習で既に獲得されていて、事後学習後に新規で獲得された能力なのか、既存の能力の精錬なのか弁別がつかない)、かつ最近のmid-trainingの隆盛([Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25 )を鑑みたときに、事前・中間・事後学習は互いにどのように作用しているのか?という疑問に応えることは重要であり、そのためのフレームワークを提案し分析した、という話な模様。非常に興味深い。takeawayはabstに書かれている通りなようだが、読みたい。

フレームワークは事前・中間・事後学習の個々の貢献を独立して測定できるフレームワークであり、
- 完全に制御された(明示的なアトミックなoperationに基づく)合成reasoningタスク

あとで書く

著者ポスト:

Loading…


takeaway1の話は、最近のRLにおける動的な難易度調整にも絡んでくる知見に見える。
takeaway2,3のRLはatomic skillを追加で学習することはできず、compositional skillを学習しcontextual generalizationを実現する、同等のbadgetの元でmid training+RLがpure RLよりも性能改善する、というのは特に興味深く、事後学習の効用を最大化するためにも事前・中間学習が(以前から言われていた通り)重要であることが示唆される。
takeaway4のPRMがreasoningのfidelityを高めるという話は、DeepSeek-V3.2でも観測されている話であり、本研究によってそれが完全に制御された実験の元示されたことになる。

RQ: 実データにおいて、事前学習時点だとPerplexityかdownstream taskの性能をwatchすると思うのだが、それらを通じてatomic skillをLLMがどれだけ身に付けられているか、というのはどれだけ測れているのだろうか、あるいはより良い方法はあるのだろうか

- [Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, ICLR'26, 2025.09

(=RLの序盤は低レベルな手続的な実行(計算や公式)を習得し、その後高レベルな戦略的なplanningの学習が生じる)とはどのような関係があるだろうか。

解説:

Loading…

所見:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#RecommenderSystems #LanguageModel #ReinforcementLearning #VariationalAutoEncoder #read-later #Selected Papers/Blogs #One-Line Notes #Scalability Issue Date: 2025-11-26 GPT Summary- MiniOneRecを提案し、SID構築から強化学習までのエンドツーエンドの生成レコメンデーションフレームワークを提供。実験により、モデルサイズの増加に伴いトレーニング損失と評価損失が減少し、生成アプローチのパラメータ効率が確認された。さらに、SID整合性の強制と強化学習を用いたポストトレーニングパイプラインにより、ランキング精度と候補の多様性が大幅に向上。 Comment

github: https://github.com/AkaliKong/MiniOneRec

元ポスト:

Loading…

興味深い話ではあるが、generativeなRecSysはlatencyの面で厳しいものがあるという認識ではある。読みたい。




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-11-26 GPT Summary- 強化学習(RL)におけるポリシー最適化の課題を解決するために、Soft Adaptive Policy Optimization(SAPO)を提案。SAPOは、ハードクリッピングを温度制御されたゲートに置き換え、オフポリシー更新を適応的に減衰させつつ有用な学習信号を保持。これにより、シーケンス整合性とトークン適応性を向上させ、サンプル効率を改善。実証結果は、SAPOがトレーニングの安定性を向上させ、Qwen3-VLモデルシリーズで一貫したパフォーマンス向上を示すことを確認。SAPOはLLMsのRLトレーニングにおける信頼性の高い最適化戦略を提供。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #One-Line Notes Issue Date: 2025-11-21 GPT Summary- 大規模言語モデル(LLMs)の推論能力を向上させるため、TLTを提案。TLTは適応的な推測デコーディングを用いて、強化学習(RL)トレーニングの効率を向上させる。主なコンポーネントは、アイドルGPUでトレーニングされるアダプティブドラフターと、メモリ効率の良いプールを維持するアダプティブロールアウトエンジン。TLTは、最先端システムに対して1.7倍のトレーニング速度向上を実現し、モデルの精度を保持しつつ高品質なドラフトモデルを生成。 Comment

元ポスト:

Loading…

ロングテールのrolloutをする際にspeculative decodingをすることでボトルネックを改善しon-policy RLの速度を改善する話らしいが、Inflight Weight Updatesがもしうまく機能するならこちらの方が簡単な気がするが、果たしてどうなのだろうか。
関連:
- PipelineRL, Piche+, ServiceNow, 2025.04




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Hallucination #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-15 GPT Summary- 本研究では、外的幻覚を軽減するために新しいバイナリ検索強化報酬(RAR)を用いたオンライン強化学習手法を提案。モデルの出力が事実に基づいている場合のみ報酬を与えることで、オープンエンド生成において幻覚率を39.3%削減し、短文質問応答では不正解を44.4%減少させた。重要な点は、事実性の向上が他のパフォーマンスに悪影響を及ぼさないことを示した。 Comment

Utilityを維持しつつ、Hallucinationを減らせるかという話で、Binary Retrieval Augmented Reward (Binary RAR)と呼ばれるRewardを提案している。このRewardはverifierがtrajectoryとanswerを判断した時に矛盾がない場合にのみ1, それ以外は0となるbinary rewardである。これにより、元のモデルの正解率・有用性(極論全てをわかりません(棄権)と言えば安全)の両方を損なわずにHallucinationを提言できる。

また、通常のVerifiable Rewardでは、正解に1, 棄権・不正解に0を与えるRewardとみなせるため、モデルがguessingによってRewardを得ようとする(guessingすることを助長してしまう)。一方で、Binary RARは、正解・棄権に1, 不正解に0を与えるため、guessingではなく不確実性を表現することを学習できる(おそらく、棄権する場合はどのように不確実かを矛盾なく説明した上で棄権しないとRewardを得られないため)。

といった話が元ポストに書かれているように見える。

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #Generalization #Routing Issue Date: 2025-11-12 GPT Summary- Sparse Mixture-of-Experts (MoE)は、推論コストを増やさずにモデル能力を拡張するが、既存のMoE LLMではルーターの最適性が欠けており、性能に10-20%のギャップが生じている。本研究では、ルーティング重みの多様体をタスク埋め込みの多様体と整合させる「Routing Manifold Alignment (RoMA)」手法を提案し、MoE LLMの一般化性能を向上させる。RoMAは、ルーターのファインチューニングを通じて、類似タスク間で専門家の選択を共有し、タスク理解と解決策生成を統一する。実験により、RoMAを用いたファインチューニングが多様なベンチマークで大幅な性能改善をもたらすことが示された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#LanguageModel #ReinforcementLearning #NeurIPS #One-Line Notes #Entropy Issue Date: 2025-11-05 GPT Summary- 強化学習における検証可能な報酬(RLVR)のメカニズムをトークンエントロピーの視点から探求。高エントロピーのトークンが推論の重要な分岐点であることを発見し、RLVRトレーニング中にこれらのトークンのエントロピーが調整されることを示す。トークンの20%を利用することで、フル勾配更新と同等の性能を維持し、他のモデルでの性能向上を実現。低エントロピーのトークンのみでのトレーニングは性能を低下させることが明らかに。高エントロピートークンの最適化がRLVRの効果を生むことを示唆。 Comment

元ポスト:

Loading…

pj page: https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

openreview: https://openreview.net/forum?id=yfcpdY4gMP&referrer=%5Bthe%20profile%20of%20Junyang%20Lin%5D(%2Fprofile%3Fid%3D~Junyang_Lin1)

解説:

Loading…

エントロピーが高いトークンのみから学習シグナルを受け取ることで性能改善する、という話な模様。




Paper/Blog Link My Issue
#NLP #ReinforcementLearning #On-Policy #Stability Issue Date: 2025-11-01 GPT Summary- 本研究では、GRPOの二項報酬設定における制限を分析し、識別的制約最適化(DisCO)フレームワークを提案。DisCOは、識別的目的を採用し、非クリッピングRL代理目的を使用することで、難易度バイアスを排除し、トレーニングの安定性を向上させる。実験結果では、DisCOがGRPOおよびそのバリエーションを大幅に上回り、数学的推論能力を向上させることが示された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Selected Papers/Blogs #Stability #Reference Collection #train-inference-gap #LowPrecision Issue Date: 2025-11-01 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment

元ポスト:

Loading…

RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

解説:

Loading…

verlはFP16での学習をサポートしていないので著者がパッチを出した模様:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Personalization #SmallModel Issue Date: 2025-10-30 GPT Summary- モバイルデバイス向けに、メモリ効率の良いバックプロパゲーション実装(MeBP)を提案。これにより、メモリ使用量と計算時間のトレードオフを改善し、ゼロ次最適化よりも速く収束し、優れたパフォーマンスを実現。iPhone 15 Pro Maxでの検証により、0.5Bから4Bのパラメータを持つLLMが1GB未満のメモリでファインチューニング可能であることを示した。実装例は公開済み。 Comment

元ポスト:

Loading…

iPhone上で4BモデルまでFinetuningができるようになった模様。




Paper/Blog Link My Issue
#NLP #LanguageModel #ModelMerge #Robustness Issue Date: 2025-10-27 GPT Summary- モデルマージングの新しい戦略として、Functional Dual Anchors(FDAs)を提案。FDAsはタスク特有の機能的シフトを捉え、共同マルチタスクトレーニングとポストホックマージングを結びつける。実験により、FDAsがモデルマージングにおいて効果的であることを示した。 Comment

pj page: https://spherelab.ai/fda/

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #SoftwareEngineering #mid-training #Parallelism Issue Date: 2025-10-25 GPT Summary- 非同期階層ゼロ並列処理(AsyncHZP)を提案し、シンプルさとメモリ効率を保ちながら、トレーニング効率を向上。従来のZeROの通信オーバーヘッドを削減し、パラメータや勾配の再シャーディングを適応的に行う。マルチストリーム非同期スケジューリングにより通信と計算を重ね合わせ、メモリの断片化を最小限に抑える。DenseおよびMixture-of-Expertsモデルでの評価により、AsyncHZPが従来のND並列処理を上回る性能を示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Off-Policy #On-Policy #Stability #One-Line Notes #Entropy #PartialRollout Issue Date: 2025-10-24 GPT Summary- 強化学習におけるオフポリシー設定の課題を解決するため、BAPO(Balanced Policy Optimization with Adaptive Clipping)を提案。ポジティブとネガティブな寄与を再バランスし、エントロピーを保持することで最適化を安定化。多様なシナリオでデータ効率の高いトレーニングを実現し、AIME 2024およびAIME 2025のベンチマークで最先端の結果を達成。 Comment

pj page: https://github.com/WooooDyy/BAPO

Partial Rollout(=長いtrajectoryを一回のロールアウトで生成仕切らずに、途中で生成を打ち切りreplay bufferに保存。次のロールアウト時に続きを生成する。しかし更新されたポリシーによって続きをロールアウトするためオフポリシーデータとなる)の設定で、GRPOよりも学習効率が良いことが示されているように見える。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #API #Safety #Safeguard Issue Date: 2025-10-22 GPT Summary- ファインチューニングAPIの悪用に対する検出メカニズムを提案。ファインチューニング監査エージェントを導入し、有害なファインチューニングを事前に検出可能であることを示す。1400以上の監査を通じて、56.2%の敵対的ファインチューニング検出率を達成。良性ファインチューニングによる安全性の低下も課題として残るが、今後の研究の基盤を提供。監査エージェントは公開済み。 Comment

元ポスト:

Loading…

finetueing APIを通じて悪意のあるデータセットが与えられたとき悪意のあるモデルができあがってしまう。これを検知するために、エージェントを用いてfinetuning用のデータセットと、finetuning前後のモデルへqueryし、finetuning後のモデルがpoisonedか否かを検出する、という話な模様。

image




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Quantization #Distillation #KeyPoint Notes Issue Date: 2025-10-19 GPT Summary- BitNet Distillation(BitDistill)は、フル精度LLMを1.58ビット精度にファインチューニングする軽量なパイプラインで、計算コストを抑えつつ高いタスク特化型パフォーマンスを実現します。主な技術には、SubLNモジュール、MiniLMに基づくアテンション蒸留、継続的な事前学習が含まれ、これによりフル精度モデルと同等の性能を達成し、メモリを最大10倍節約し、CPU上での推論を2.65倍高速化します。 Comment

元ポスト:

Loading…

SubLN, MiniLMについては
- [Paper Note] Magneto: A Foundation Transformer, Hongyu Wang+, ICML'23
- [Paper Note] MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers, Wenhui Wang+, ACL'21 Findings, 2020.12

を参照のこと。

既存LLMを特定タスクに1.58bitでSFTする際に、full-precisionと同等の性能を保つ方法を提案している研究。full-precision LLMを1.58 bitでSFTをするとfp16で学習した場合のbaselineと比較してパフォーマンスが大きく低下するが(そしてその傾向はモデルサイズが大きいほど強い)、提案手法を利用するとfp16でSFTした場合と同等の性能を保ちながら、inference-speed 2.65倍、メモリ消費量1/10になる模様。
image

手法としては、3段階で構成されており
- Stage1: low-bitに量子化されたモデルではactivationの分散が大きくなり学習の不安定さにつながるため、アーキテクチャとしてSubLNを導入して安定化を図る
- Stage2: Stage1で新たにSubLNを追加するので事前学習コーパスの継続事前学習する
- Stage3: full-precisionでSFTしたモデルを教師、1.58-bitに量子化したモデルを生徒とし、logits distillation (input x, output yが与えられた時に教師・生徒間で出力トークンの分布のKL Divergenceを最小化する)、MiniLMで提案されているMHAのdistillation(q-q/k-k/v-vの内積によってsquaredなrelation mapをQ, K, Vごとに作成し、relation mapのKL Divergenceが教師・生徒間で最小となるように学習する)を実施する
- 最終的に `L_CE + \lambda L_LD + \ganma L_AD` を最小化する。ここで、L_CEはdownstream datasetに対するcross-entropy lossであり、L_LD, L_ADはそれぞれ、logit distillation, Attention Distillationのlossである。

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Evaluation #NeurIPS #One-Line Notes Issue Date: 2025-10-19 GPT Summary- 人間のフィードバックはLLMのアライメントに重要だが、ノイズや一貫性の欠如が問題を引き起こす。これを解決するために、13のデータクリーニング手法を評価する初のベンチマーク「PrefCleanBench」を導入。さまざまな条件下でのアライメント性能を比較し、データクリーニングの成功要因を明らかにする。これにより、LLMアライメントの改善に向けた再現可能なアプローチを提供し、データ前処理の重要性を強調する。すべての手法の実装は公開されている。 Comment

元ポスト:

Loading…

元ポストによるとTakeawayとしては、
- cleaningをすることでalignmentの性能は一貫して向上
- 複数のReward Modelを用いた場合(おそらくhuman labelと複数RMのvotingに基づくcleaning)は単一モデルよりも信頼性が高くロバスト
- bad dataに対するデータは(ラベルを修正するよりも)削除した方が性能が向上する
- 少量だがクリーンなデータセットは大規模でノイジーなデータセットよりも性能が良い

といった知見がある模様




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #DiffusionModel Issue Date: 2025-10-19 GPT Summary- 拡散型大規模言語モデル(dLLMs)は、効率的なデコード能力を持つが、強化学習(RL)による調整が難しい。従来の代理手法はバイアスを引き起こす可能性がある。そこで、真の対数尤度の上限と下限を利用した「サンドイッチポリシー勾配(SPG)」を提案。実験により、SPGはELBOや他のベースラインを大幅に上回り、GSM8Kで3.6%、MATH500で2.6%、Countdownで18.4%、Sudokuで27.0%の精度向上を達成した。 Comment

pj page: https://chenyuwang-monica.github.io/spg/

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Entropy Issue Date: 2025-10-17 GPT Summary- SEED-GRPOは、LLMの不確実性を考慮したポリシー更新手法であり、入力プロンプトの意味的エントロピーを測定してポリシー更新の大きさを調整する。これにより、高い不確実性の質問には慎重な更新を行い、自信のある質問には元の学習信号を維持する。実験結果は、5つの数学的推論ベンチマークで新たな最先端のパフォーマンスを達成したことを示している。 Comment

元ポスト:

Loading…

- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

との比較を見てみたいなあ




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-10-17 GPT Summary- 強化学習(RL)のスケーリングに関する原則的なフレームワークを定義し、40万時間以上のGPU時間を用いた大規模な研究を実施。シグモイド型計算-性能曲線をフィットさせ、設計選択肢の影響を分析。結果として、漸近的性能はレシピによって異なり、計算効率は詳細に依存することを発見。これを基に、ScaleRLというベストプラクティスのレシピを提案し、100,000 GPU時間での成功を示した。この研究は、RLトレーニングの予測可能性を向上させるための科学的フレームワークを提供する。 Comment

元ポスト:

Loading…


> 簡単になったプロンプト(プロンプトの通過率が0.9以上)は再サンプリングしたほうが最終性能が高い

最近はカリキュラムラーニングを導入して、簡単すぎず難しすぎない問題をサンプリングして効率上げる、といったような話があったが、簡単になった問題をリサンプリングしないと最終性能としては低くなる可能性があるのか…意外だった。

CISPO:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

著者ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#LanguageModel #ReinforcementLearning #NeurIPS #Stability Issue Date: 2025-10-16 GPT Summary- GVPO(グループ分散ポリシー最適化)は、ポストトレーニングにおける不安定性を解決する新手法で、KL制約付き報酬最大化の解析的解を勾配重みに組み込むことで最適ポリシーとの整合性を保つ。これにより、ユニークな最適解を保証し、柔軟なサンプリング分布をサポート。GVPOは信頼性の高いLLMポストトレーニングの新たなパラダイムを提供する。 Comment

元ポスト:

Loading…

ベースライン:
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03




Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #Diversity Issue Date: 2025-10-16 GPT Summary- 強化学習(RL)が言語モデルの行動発見に与える影響を調査。事前学習されたモデルの隠れ状態を基にした表現ベースのボーナスを用いることで、多様性とpass@k率が大幅に改善されることを発見。推論時における探索が効率を向上させ、ポストトレーニングにおいてもRLパイプラインとの統合により性能が向上。意図的な探索が新しい行動の発見に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

探索の多様性をあげてRLこ学習効率、test time scalingの効率を上げるという話




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #MoE(Mixture-of-Experts) #Stability #One-Line Notes Issue Date: 2025-10-14 GPT Summary- 強化学習(RL)を用いたMixture-of-Experts(MoE)モデルのトレーニングと推論の不一致を分析し、Rollout Routing Replay(R3)を提案。R3は推論時のルーティング分布を記録し、トレーニング中に再生することで、トレーニングと推論のポリシー間のKLダイバージェンスを減少させ、安定性を向上。実験により、R3がRLトレーニングの崩壊を防ぎ、他の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08

のMoE版の話。Inference EngineとTraining Engine側でExpertsの選択が一致しないことが不安定につながるので、それを一致させるようにする、という話な模様。
image




Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Transformer #ReinforcementLearning #Reasoning #read-later Issue Date: 2025-10-14 GPT Summary- 大規模言語モデルの次のトークン予測を強化学習で最適化するフレームワークを提案。特に、短いおよび長い「思考の連鎖」シーケンスからの学習を通じて、強化学習が次のトークン予測を改善することを理論的に示す。長いシーケンスが稀な場合、強化学習により自己回帰型トランスフォーマーが一般化できることを確認。さらに、長い応答が計算を増加させるメカニズムを説明し、自己回帰型線形モデルが効率的に$d$ビットの偶奇を予測できる条件を理論的に証明。Llamaシリーズモデルのポストトレーニングによる実証も行う。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #Supervised-FineTuning (SFT) #Evaluation #In-ContextLearning #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

著者らはモデルの望ましい性質として
- In context steerbility: inference時に与えられた情報に基づいて出力分布を変えられる能力
- Valid output space coverage: タスクにおける妥当な出力を広範にカバーできること
- Distributional Alignment: ターゲットとする出力分布に対してモデルの出力分布が近いこと

の3つを挙げている。そして既存のinstruction tuningや事後学習はこれらを損なうことを指摘している。

ここで、incontext steerbilityとは、事前学習時に得た知識や、分布、能力だけに従うのではなく、context内で新たに指定した情報をモデルに活用させることである。

モデルの上記3つの能力を測るためにSpectrum Suiteを導入する。これには、人間の様々な嗜好、numericな分布の出力、合成データ作成などの、モデル側でsteeringや多様な分布への対応が必要なタスクが含まれるベンチマークのようである。

また上記3つの能力を改善するためにSpectrum Tuningと呼ばれるSFT手法を提案している。
手法はシンプルで、タスクT_iに対する 多様なinput X_i タスクのcontext(すなわちdescription) Z_i が与えられた時に、T_i: X_i,Z_i→P(Y_i) を学習したい。ここで、P(Y_i)は潜在的なoutputの分布であり、特定の1つのサンプルyに最適化する、という話ではない点に注意(meta learningの定式化に相当する)。

具体的なアルゴリズムとしては、タスクのコレクションが与えられた時に、タスクiのcontextとdescriptionをtokenizeした結果 z_i と、incontextサンプルのペア x_ij, y_ij が与えられた時に、output tokenのみに対してcross entropyを適用してSFTをする。すなわち、以下のような手順を踏む:

1. incontextサンプルをランダムなオーダーにソートする
2. p_dropの確率でdescription z_i をドロップアウトしx_i0→y_i0の順番でconcatする、
2-1. descriptionがdropしなかった場合はdescription→x_i0→y_i0の順番でconcatし入力を作る。
2-2. descriptionがdropした場合、x_i0→y_i0の順番で入力を作る。
3. 他のサンプルをx_1→y_1→...→x_n→y_nの順番で全てconcatする。
4. y_{1:n}に対してのみクロスエントロピーlossを適用し、他はマスクして学習する。

一見するとinstruct tuningに類似しているが、以下の点で異なっている:
- 1つのpromptに多くのi.i.dな出力が含まれるのでmeta-learningが促進される
- 個別データに最適化されるのではなく、タスクに対する入出力分布が自然に学習される
- chat styleのデータにfittingするのではなく、分布に対してfittingすることにフォーカスしている
- input xやタスクdescription zを省略することができ、ユーザ入力が必ず存在する設定とは異なる

という主張をしている。




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #NeurIPS #mid-training #GenerativeVerifier Issue Date: 2025-10-12 GPT Summary- 強化学習を用いた新しいトレーニングパラダイム「General-Reasoner」を提案し、LLMの推論能力を向上させる。大規模な高品質データセットを構築し、生成モデルベースの回答検証器を開発。物理学や化学などの多様な分野で評価し、既存手法を上回る性能を示す。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/General-Reasoner/




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #mid-training Issue Date: 2025-10-12 GPT Summary- Webscale-RLパイプラインを導入し、大規模な事前学習文書から数百万の多様な質問-回答ペアを生成。これにより、120万の例を含むWebscale-RLデータセットを構築。実験結果、RLトレーニングは継続的な事前トレーニングよりも効率的で、パフォーマンスを大幅に向上させることを示した。研究は、RLを事前学習レベルにスケールアップする道筋を示し、より高性能な言語モデルの実現を可能にする。 Comment

元ポスト:

Loading…

Dataset: https://huggingface.co/datasets/Salesforce/Webscale-RL

以下の研究が関連研究でNeurIPSですでに発表されているが引用も議論もされていないという指摘がある:
- [Paper Note] General-Reasoner: Advancing LLM Reasoning Across All Domains, Xueguang Ma+, arXiv'25, 2025.05

他にも似たようなモチベーションの研究を見たことがあるような…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #read-later #Off-Policy Issue Date: 2025-10-08 GPT Summary- 強化学習における新しいアプローチM2POを提案。古いデータを効果的に活用し、オンポリシー学習の効率性を向上。M2POは重要度重みの二次モーメントを制約し、外れ値を抑制しつつ安定した最適化を実現。広範な評価により、古いデータでもオンポリシーに匹敵する性能を示した。 Comment

元ポスト:

Loading…

本当だとしたらすごいが果たして




Paper/Blog Link My Issue
#NLP #LanguageModel #GenerativeAdversarialNetwork #PEFT(Adaptor/LoRA) #Catastrophic Forgetting #read-later Issue Date: 2025-10-06 GPT Summary- MoE-CLは、産業環境における大規模言語モデルの継続学習を支援するためのフレームワークで、タスクごとのLoRA専門家と共有LoRA専門家を用いて知識の保持とクロスタスクの一般化を実現。敵対的学習により、タスクに関連する情報のみを通過させる識別器を統合し、自己進化を促進。実験結果では、Tencent Videoプラットフォームでの手動レビューコストを15.3%削減し、実用性が示された。 Comment

元ポスト:

Loading…

continual instruction tuning... そしてGAN!?

タスク固有の知識を備えたLoRAと、タスク間で共有されるLoRAがクロスタスクの転移を促し、それぞれをMoEにおけるexpertsとして扱うことで、inputに対して動的に必要なLoRA expertsを選択する。このとき、Task Classifier(Adversarialに訓練する)でタスクに関係ない情報が順伝搬されないようにフィルタリングするっぽい?(GANをText Classifierの学習に使い、Classifierの情報を用いることで共有/タスク固有のLoRA expertsが学習されるように促すようだが、細かくどうやるかは読まないとわからない)。

ドメイン固有のタスクとデータに対して、さまざまなアダプターを追加していき、catastrophic forgettingを防ぎながら、扱えるタスクの幅が広がっていく枠組み自体は面白そう(学習は果たして安定するのだろうか)。

image




Paper/Blog Link My Issue
#ComputerVision #MachineLearning #NLP #LanguageModel #MultiModal #NeurIPS #OOD #Generalization Issue Date: 2025-10-05 GPT Summary- MLLMは未知のクエリに対して性能が低下するが、既存の改善策は多くのデータや計算コストを要する。本研究では、情報ボトルネック原理に基づき、MLLMの堅牢性を向上させるためのVittleを提案。45のデータセットでの実証実験により、VittleがMLLMの堅牢性を一貫して改善することを示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-10-03 GPT Summary- 大規模言語モデル(LLMs)の探索予算の割り当てを最適化する手法を提案。タスクの「価値」と「コスト」を明確にし、古典的なナップサック問題に関連付けることで、リソースを適応的に分配。これにより、GRPOのトレーニング中に非ゼロポリシー勾配の有効比率を20-40%向上させ、特に難しいタスクに対して93回のロールアウトを可能に。数学的推論ベンチマークで平均2-4ポイントの改善を達成し、従来の均一な割り当てと同等のパフォーマンスを得るには約2倍の計算リソースが必要。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=uqxNmKw7DI




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Hallucination #Trustfulness Issue Date: 2025-10-02 GPT Summary- 本研究では、LLMsの真実性を最適化するための強化学習フレームワークTruthRLを提案。三値報酬を用いて正しい回答、幻覚、abstentionを区別し、不確実な場合には控えることを促進。実験により、TruthRLは幻覚を28.9%減少させ、真実性を21.1%向上させることが確認され、従来の手法よりも優れた性能を示した。正確さと真実性のバランスを取る重要性が強調される。 Comment

元ポスト:

Loading…

一般的に利用されるBinary Reward(回答が正しければ1, そうでなければ-1)ではなく、Ternary Reward
- 回答が正しければ1
- 不確実であれば0
- 誤りであれば-1

を利用しGRPOすることで、hallucinationが向上し、trustfulnessも改善する、という話な模様




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #ReinforcementLearning #NeurIPS #On-Policy Issue Date: 2025-09-27 GPT Summary- 大規模言語モデル(LLMs)の強化学習微調整(RFT)におけるサンプル効率の低下を改善するため、モデル固有の信号「角度集中」を特定。これに基づき、勾配駆動型角度情報ナビゲート強化学習フレームワーク(GAIN-RL)を提案し、トレーニングデータを動的に選択することで効率を向上。実証評価では、GAIN-RLがトレーニング効率を2.5倍以上向上させ、元のデータの半分でより良いパフォーマンスを達成したことが示された。 Comment

元ポスト:

Loading…

ヒューリスティックや特定の難易度に基づくラベルからRLのサンプルをサンプリングするのではなく、モデル自身の現在の学習の状態に基づいて動的に選択し学習効率を向上させるアプローチな模様。




Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #OpenWeight #mid-training #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2025-09-25 GPT Summary- 320億パラメータのCode World Model (CWM)をリリースし、コード生成のための世界モデルの研究を進める。静的コードだけでなく、PythonインタプリタやDocker環境から得た観測-行動トレジェクトリで中間トレーニングを実施し、マルチタスク推論RLによる広範な能力を評価。CWMは強力なテストベッドを提供し、世界モデルがエージェンティックコーディングに貢献できることを示す。主要なタスクで高いパフォーマンスを記録し、モデルチェックポイントも提供。 Comment

元ポスト:

Loading…

World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている(大量の実トレースデータが利用されている模様)ので、World Modelと銘打たれている模様?

image

GRPOに対するモダンなtweakがまとまっている模様:

Loading…


DeepSeek-R1で提案されてから細かな調整が重ねられて来た。




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) Issue Date: 2025-09-22 GPT Summary- LoRAは基盤モデルの効率的なファインチューニング手法だが、フルファインチューニングに比べ性能が劣ることが多い。本論文では、LoRAとフルファインチューニングの最適化プロセスの関係を明らかにし、LoRAの低ランク行列の勾配を調整する新手法LoRA-Proを提案。これにより、LoRAの性能が向上し、フルファインチューニングとのギャップが縮小することを実験で示した。 Comment

元ポスト: https://openreview.net/forum?id=gTwRMU3lJ5

openreview: https://openreview.net/forum?id=gTwRMU3lJ5




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #SyntheticData #Safety #ACL #KeyPoint Notes Issue Date: 2025-09-21 GPT Summary- 本研究では、LLMsの安全性調整における拒否ポジションバイアスの問題を解決するために、「Decoupled Refusal Training(DeRTa)」という新しいアプローチを提案。DeRTaは、有害な応答プレフィックスを用いた最大尤度推定と強化された遷移最適化を組み込み、モデルが不適切なコンテンツを認識し拒否する能力を強化します。実証評価では、提案手法が安全性を向上させ、攻撃に対する防御でも優れた性能を示しました。 Comment

元ポスト:

Loading…

一般的なSafety Tuningでは有害なpromptが与えられた時に安全な応答が生成される確率を最大化する(MLE)が、安全な応答は冒頭の数トークンにSorry, I apologize等の回答を拒絶するトークンが集中する傾向にあり、応答を拒否するか否かにポジションバイアスが生じてしまう。これにより、応答の途中で潜在的な危険性を検知し、応答を拒否することができなくなってしまうという課題が生じる。

これを解決するために、RTOを提案している。有害なpromptの一部をprefixとし、その後にSafetyなレスポンスをconcatするような応答を合成しMLEに活用することで、応答の途中でも応答を拒否するような挙動を学習することができる。prefixを利用することで、
- prefixを用いることで安全なレスポンスに追加のcontextを付与することができ、潜在的な危険性の識別力が高まり、
- prefixの長さは任意なので、応答のどのポジションからでも危険性識別できるようになり、
- モデルが有害な応答を開始したことをシームレスに認識して安全な回答を生成するように遷移させられる

といった利点があるが、1つの学習サンプルにつき一つの遷移(i.e., prefixと安全な応答の境目は1サンプルにつき一箇所しかないので)しか学習できないことである。このため、RTOでは、レスポンスの全てのポジションにおいてsorryが生成される確率を最大化することで、モデルが全てのポジションで継続的に危険性を識別できる能力を高めるような工夫をする。

image

目的関数は以下で、Harmful Prefixがgivenな時に安全な回答が生成される確率を最大化するMLEの項に対して(r^hat_image

実験の結果は、全体を見る限り、helpfulnessを損なうことなく、安全な応答を生成できるようになっており、DPO等のその他のAlignment手法よりも性能が良さそうである。
image

以下の研究で報告されている現象と似ている:
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models, Ke Ji+, arXiv'25

すなわち、reasoning traceの最初の数トークンが全体の品質に大きく関わるという話




Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #NeurIPS #On-Policy Issue Date: 2025-09-19 GPT Summary- 小型言語モデル(SLMs)は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #VariationalAutoEncoder #NeurIPS #Selected Papers/Blogs #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-09-19 GPT Summary- Self Forcingは、自動回帰型ビデオ拡散モデルの新しいトレーニング手法で、エクスポージャーバイアスの問題に対処します。従来の手法が真のコンテキストに基づくのに対し、Self Forcingは自己生成した出力に基づいてフレームを生成し、全体の品質を評価するホリスティックな損失を用います。計算コストとパフォーマンスのバランスを取るために、少数ステップの拡散モデルと確率的勾配切断を採用し、ロールイングKVキャッシュメカニズムを導入。実験により、リアルタイムのストリーミングビデオ生成が可能で、非因果的拡散モデルの生成品質に匹敵またはそれを上回ることが示されました。 Comment

pj page: https://self-forcing.github.io

元ポスト:

Loading…

自己回帰的な動画生成(をする)モデルにおいて、学習時はground-truchのcontextが利用して学習されるが、推論時は自身が生成結果そのものをcontextとして利用するため、学習-推論時にgapが生じ、(徐々に誤差が蓄積することで)品質が劣化するという問題(exposure bias)に対処するために、学習時から自身が生成した出力をcontextとして与えて生成を行い(ロールアウト)、動画全体に対して分布の整合性を測るlossを導入(=フレーム単位の誤差を最小化にするのではなく、動画全体に対して(分布の)誤差を最適化する)することで、exposure biasを軽減する、という話な模様。

結果的に、単一のRTX4090でリアルタイムのストリーミングビデオ生成が高品質に生成可能となった(かもしれない):
https://note.com/ngc_shj/n/n505b2f7cdfe4




Paper/Blog Link My Issue
#Multi #NLP #Dataset #LanguageModel #ReinforcementLearning #GRPO #DeepResearch Issue Date: 2025-09-15 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SmallModel #mid-training #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2025-09-13 GPT Summary- 本研究では、推論能力の出現に必要なデータ量について再検討し、約2Tトークンの高品質データで強力な推論モデルが構築できることを示した。MobileLLM-R1というサブビリオンパラメータのモデルは、従来のモデルを大幅に上回る性能を発揮し、特にAIMEスコアで優れた結果を示した。さらに、Qwen3の36Tトークンコーパスに対しても、わずか11.7%のトークンでトレーニングされたMobileLLM-R1-950Mは、複数の推論ベンチマークで競争力を持つ。研究の詳細な情報は公開されている。 Comment

元ポスト:

Loading…

モデルカードを見ると、optimizerやスケジューリング、ハイパーパラメータの設定、pre/mid/post trainingにおける学習データとDavaMixについて簡潔に記述されており、レシピが公開されているように見える。素晴らしい。

関連:
- [Paper Note] MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases, Zechun Liu+, ICLR'24, 2024.02




Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #GRPO #DeepResearch #Medical Issue Date: 2025-09-13 GPT Summary- 医療分野に特化した深層研究エージェントを提案。医療知識グラフを用いたデータ合成とカスタム医療検索エンジンを統合し、複雑な質問-回答ペアを生成。新たな医療ベンチマークで最先端の結果を達成し、一般的な深層研究タスクでも競争力を維持。ドメイン特化型の革新が小型モデルの優位性を示す。 Comment

HF: https://huggingface.co/AQ-MedAI

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning Issue Date: 2025-09-05 GPT Summary- 本論文では、オンラインデータとオフラインデータを用いた言語モデルのポストトレーニングアプローチが、矛盾せず単一の最適化プロセスであることを示す。統一ポリシー勾配推定器を導出し、ハイブリッドポストトレーニング(HPT)アルゴリズムを提案。HPTは異なるトレーニング信号を動的に選択し、デモンストレーションを効果的に活用しつつ安定した探索を実現。実験により、HPTが数学的推論ベンチマークで強力な性能を示すことを確認。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08

解説:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #Tools #NLP #LanguageModel #ReinforcementLearning #Asynchronous Issue Date: 2025-09-03 GPT Summary- VerlToolは、強化学習におけるツール統合の課題を解決するための統一的かつモジュラーなフレームワークを提供する。主な貢献は、互換性の確保、標準化されたAPIによるツール管理、非同期実行による速度向上、競争力のあるパフォーマンス評価である。これにより、マルチターンのインタラクションを形式化し、様々なタスクにおいて専門的なシステムと同等の結果を達成する。開発のオーバーヘッドを削減し、スケーラブルな基盤を提供する。コードはオープンソースで公開されている。 Comment

github: https://github.com/TIGER-AI-Lab/verl-tool

元ポスト:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #OpenWeight #Architecture #Selected Papers/Blogs #DataMixture Issue Date: 2025-08-25 GPT Summary- Motif-2.6Bは、26億パラメータを持つ基盤LLMで、長文理解の向上や幻覚の減少を目指し、差分注意やポリノルム活性化関数を採用。広範な実験により、同サイズの最先端モデルを上回る性能を示し、効率的でスケーラブルな基盤LLMの発展に寄与する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Motif-Technologies/Motif-2.6B

- アーキテクチャ
- [Paper Note] Differential Transformer, Tianzhu Ye+, N/A, ICLR'25
- [Paper Note] Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models, Zhijian Zhuo+, arXiv'24
- 学習手法
- Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25
- 8B token学習するごとに直近6つのcheckpointのelement-wiseの平均をとりモデルマージ。当該モデルに対して学習を継続、ということを繰り返す。これにより、学習のノイズを低減し、突然パラメータがシフトすることを防ぐ
- Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, N/A, NAACL'24
- Adaptive Base Frequency (RoPEのbase frequencyを10000から500000にすることでlong contextのattention scoreが小さくなりすぎることを防ぐ)
- [Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, COLM'24
- 事前学習データ
- [Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
- TxT360, LLM360, 2024.10
- [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25

を利用したモデル。同程度のサイズのモデルとの比較ではかなりのgainを得ているように見える。興味深い。
DatasetのMixtureの比率などについても記述されている。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Decoding Issue Date: 2025-08-22 GPT Summary- dLLMsは中間予測を捨てがちだが、時間的振動が重要な現象である。本研究では、時間的一貫性を活用する2つの方法を提案。1つ目は、テスト時に予測を集約する時間的自己一貫性投票、2つ目は中間予測の安定性を測る時間的意味エントロピーを報酬信号とする時間的一貫性強化。実験結果では、Countdownデータセットで24.7%の改善を達成し、他のベンチマークでも向上を示した。これにより、dLLMsの時間的ダイナミクスの可能性が強調される。 Comment

元ポスト:

Loading…

dLLMのデノイジング過程において途中に正解が表出しているのに時間発展とともに消えてしまう問題があるらしく、それに対して、デノイジングステップにおいてstableな予測を行うSelf-Consistencyベースのdecoding手法と、意味的なエントロピーをrewardに加え時間発展で安定するようにpost trainingすることで対処します、みたいな話らしい。




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #QuestionAnswering #SyntheticData #MultiModal #Reasoning #EMNLP #VisionLanguageModel Issue Date: 2025-08-21 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/

verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified

ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #EMNLP #Selected Papers/Blogs #VisionLanguageModel #Cultural Issue Date: 2025-08-13 GPT Summary- MLLMsは高リソース環境で優れた性能を示すが、低リソース言語や文化的エンティティに対しては課題がある。これに対処するため、Wikidataを活用し、文化的に重要なエンティティを表す画像を用いた多言語視覚質問応答データセット「CulturalGround」を生成。CulturalPangeaというオープンソースのMLLMを訓練し、文化に基づいたアプローチがMLLMsの文化的ギャップを縮小することを示した。CulturalPangeaは、従来のモデルを平均5.0ポイント上回る性能を達成。 Comment

元ポスト:

Loading…

pj page: https://neulab.github.io/CulturalGround/

VQAデータセット中の日本語データは3.1%程度で、の3つ組で構成される。wikidataから特定の文化と紐づいたエンティティ(42カ国; 人,場所,組織,アーティファクトにフォーカス)を抽出し、関連するimage dataを1--3個程度wikimediaから収集。76種類のテンプレートを用いて、draftのQAを生成し、LLMを用いて洗練(文化的な自然さ、流暢さ)させる。最終的にVLM(Qwen2.5-VL-32B/72B or Gemma-3-12B/72B-Instructを文化ごとに強い方を選択して利用)を用いてirrelevantなimage, question, answerの三つ組をフィルタリング(relevanceのスコアリングと事実情報のverification)する。

ベースモデルとして
- [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24

を利用(Qwen2-7Bに対してCLIPベースのvision encoderを利用したVLM)し、Vision Encoderはfrozenし、LLMとconnector(テキストと画像のモダリティの橋渡しをする(大抵は)MLP)のみをfinetuningした。catastrophic forgettingを防ぐために事前学習データの一部を補完しfinetuningでも利用し、エンティティの認識力を高めるためにM3LSデータなるものをフィルタリングして追加している。

Finetuningの結果、文化的な多様性を持つ評価データ(e.g., [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 Figure1のJapaneseのサンプルを見ると一目でどのようなベンチか分かる)と一般的なマルチリンガルな評価データの双方でgainがあることを確認。
image
image

VQAによるフィルタリングで利用されたpromptは下記
image




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Alignment #DPO Issue Date: 2025-08-12 GPT Summary- LLMの好みを人間に合わせるための新しいデータ選択戦略を提案。DPOの暗黙的報酬ギャップが小さいデータを選ぶことで、データ効率とモデルの整合性を向上。元のデータの10%で5つのベースラインを上回るパフォーマンスを達成。限られたリソースでのLLM整合性向上に寄与。 Comment

元ポスト:

Loading…

preference pair dataを学習効率の良いサンプルのみに圧縮することで学習効率を上げたい系の話で、chosen, rejectedなサンプルのそれぞれについて、¥frac{現在のポリシーの尤度}{参照ポリシーの尤度}によってreward rを定義し(おそらく参照ポリシーの尤度によってサンプルの重要度を重みづけしている)、r_chosenとr_rejectedの差をreward gapと定義し、gapが大きいものは難易度が低いと判断してフィルタリングする、といった話に見える。
image




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Factuality #RewardHacking #GRPO #On-Policy Issue Date: 2025-08-08 GPT Summary- R-LLMsは複雑な推論タスクで進展しているが、事実性において幻覚を多く生成する。オンラインRLを長文の事実性設定に適用する際、信頼できる検証方法が不足しているため課題がある。従来の自動評価フレームワークを用いたオフラインRLでは報酬ハッキングが発生することが判明。そこで、事実の精度、詳細レベル、関連性を考慮した新しい報酬関数を提案し、オンラインRLを適用。評価の結果、幻覚率を平均23.1ポイント削減し、回答の詳細レベルを23%向上させた。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24

Reasoning ModelのHallucination Rateは、そのベースとなるモデルよりも高い。実際、DeepSeek-V3とDeepSeek-R1,Qwen-2.5-32BとQwQ-32Bを6つのFactualityに関するベンチマークで比較すると、Reasoning Modelの方がHallucination Rateが10, 13%程度高かった。これは、現在のOn-policyのRLがlogical reasoningにフォーカスしており、Factualityを見落としているため、と仮説を立てている。
Factuality(特にLongForm)とRL alignmentsという観点から言うと、決定的、正確かつ信頼性のあるverificatlon手法は存在せず、Human Effortが必要不可欠である。
自動的にFactualityを測定するFactScoreのような手法は、DPOのようなオフラインのペアワイズのデータを作成するに留まってしまっている。また、on policy dataでFactualityを改善する取り組みは行われているが、long-formな応答に対して、factual reasoningを実施するにはいくつかの課題が残されている:
- reward design
- Factualityに関するrewardを単独で追加するだけだと、LLMは非常に短く、詳細を省略した応答をしPrecicionのみを高めようとしてしまう。

あとで追記する

openreview: https://openreview.net/forum?id=fejDLlOKCl




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning #Contamination-free #Science Issue Date: 2025-07-23 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Reasoning #RLVR Issue Date: 2025-07-22 GPT Summary- RLVRはAIの能力向上に寄与するが、基盤モデルの制約により新しい解の発見を制限する可能性がある。理論的調査により、初期確率がゼロの解をサンプリングできないことや、探索を狭めるトレードオフが明らかになった。実証実験では、RLVRが精度を向上させる一方で、正しい答えを見逃すことが確認された。将来的には、探索メカニズムや過小評価された解に確率質量を注入する戦略が必要とされる。 Comment

元ポスト:

Loading…

RLVRの限界に関する洞察




Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning Issue Date: 2025-07-19 GPT Summary- ポストトレーニング技術にはSFTとRFTがあり、それぞれ異なるトレードオフが存在する。本論文では、デモンストレーションと探索を統合したハイブリッドアプローチ「Prefix-RFT」を提案し、数学的推論問題でその効果を実証。Prefix-RFTはSFTやRFTの性能を上回り、既存のフレームワークに容易に統合可能である。分析により、SFTとRFTの補完的な性質が示され、デモンストレーションデータの質と量に対する堅牢性も確認された。この研究はLLMのポストトレーニングに新たな視点を提供する。 Comment

元ポスト:

Loading…

少し前からXコミュニティでRFT(Reinforcement Finetuning)という用語が観測されたが、arXiv paperで見たのは初めてかもしれない。RFTはおそらく、強化学習を利用したPost-Trainingの総称だと思われる。

デモンストレーションデータからPrefixをサンプリングし(SFTの要素; オフラインデータからサンプリングしたPrefixで生成をガイドする)、Prefixの続きをオンラインで生成し(RFTの要素; ガイドされたPrefixの続きを探索する)、Prefix+生成結果をロールアウトとし学習する。
image

image




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Alignment #Supervised-FineTuning (SFT) #MultiLingual #DPO #Cultural Issue Date: 2025-07-04 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル(LM)の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM
image

アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。
image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #mid-training #read-later #Selected Papers/Blogs Issue Date: 2025-06-27 GPT Summary- 異なるベース言語モデル(LlamaやQwen)の強化学習(RL)における挙動を調査し、中間トレーニング戦略がRLのダイナミクスに与える影響を明らかに。高品質の数学コーパスがモデルのパフォーマンスを向上させ、長い連鎖的思考(CoT)がRL結果を改善する一方で、冗長性や不安定性を引き起こす可能性があることを示す。二段階の中間トレーニング戦略「Stable-then-Decay」を導入し、OctoThinkerモデルファミリーを開発。オープンソースのモデルと数学推論コーパスを公開し、RL時代の基盤モデルの研究を支援することを目指す。 Comment

元ポスト:

Loading…

mid-trainingの観点から、post trainingにおけるRLがスケーリングする条件をsystematicallyに調査している模様

論文中にはmid-training[^1]の定義が記述されている:

image

[^1]: mid-trainingについてはコミュニティの間で厳密な定義はまだ無くバズワードっぽく使われている、という印象を筆者は抱いており、本稿は文献中でmid-trainingを定義する初めての試みという所感




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Alignment #Safety #Japanese Issue Date: 2025-06-25 GPT Summary- 日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 Comment

Blog: https://llmc.nii.ac.jp/answercarefully-dataset/




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #Test-Time Scaling #read-later Issue Date: 2025-06-23 GPT Summary- 強化学習教師(RLT)を用いて推論言語モデル(LM)のトレーニングを行い、タスク探索の課題を回避する新しいフレームワークを提案。RLTは問題の質問と解決策を提示し、学生に合わせた説明を通じて理解をテストし、密な報酬でトレーニングされる。7BのRLTは、競技および大学レベルのタスクで既存の蒸留パイプラインよりも高いパフォーマンスを示し、分布外タスクへの適用でも効果を維持する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #Reasoning #NeurIPS #read-later #RLVR #Selected Papers/Blogs #DataMixture #CrossDomain Issue Date: 2025-06-22 GPT Summary- Guruを導入し、数学、コード、科学、論理、シミュレーション、表形式の6つの推論ドメインにわたる92KのRL推論コーパスを構築。これにより、LLM推論のためのRLの信頼性と効果を向上させ、ドメイン間の変動を観察。特に、事前学習の露出が限られたドメインでは、ドメイン内トレーニングが必要であることを示唆。Guru-7BとGuru-32Bモデルは、最先端の性能を達成し、複雑なタスクにおいてベースモデルの性能を改善。データとコードは公開。 Comment

元ポスト:

Loading…

post-trainingにおけるRLのcross domain(Math, Code, Science, Logic, Tabular)における影響を調査した研究。非常に興味深い研究。詳細は元論文が著者ポスト参照のこと。

Qwenシリーズで実験。以下ポストのまとめ。

- mid trainingにおいて重点的に学習されたドメインはRLによるpost trainingで強い転移を発揮する(Code, Math, Science)
- 一方、mid trainingであまり学習データ中に出現しないドメインについては転移による性能向上は最小限に留まり、in-domainの学習データをきちんと与えてpost trainingしないと性能向上は限定的
- 簡単なタスクはcross domainの転移による恩恵をすぐに得やすい(Math500, MBPP),難易度の高いタスクは恩恵を得にくい
- 各ドメインのデータを一様にmixすると、単一ドメインで学習した場合と同等かそれ以上の性能を達成する
- 必ずしもresponse lengthが長くなりながら予測性能が向上するわけではなく、ドメインによって傾向が異なる
- たとえば、Code, Logic, Tabularの出力は性能が向上するにつれてresponse lengthは縮小していく
- 一方、Science, Mathはresponse lengthが増大していく。また、Simulationは変化しない
- 異なるドメインのデータをmixすることで、最初の数百ステップにおけるrewardの立ち上がりが早く(単一ドメインと比べて急激にrewardが向上していく)転移がうまくいく
- (これは私がグラフを見た感想だが、単一ドメインでlong runで学習した場合の最終的な性能は4/6で同等程度、2/6で向上(Math, Science)
- 非常に難易度の高いmathデータのみにフィルタリングすると、フィルタリング無しの場合と比べて難易度の高いデータに対する予測性能は向上する一方、簡単なOODタスク(HumanEval)の性能が大幅に低下する(特定のものに特化するとOODの性能が低下する)
- RLはpre(mid)-trainingで学習されたreasoning能力を引き出すだけではなく、新規のタスクに対しては新たなreasoning能力を獲得できる
- モデルサイズが小さいと、RLでpost-training後のpass@kのkを大きくするとどこかでサチり、baseモデルと交差するが、大きいとサチらず交差しない
- モデルサイズが大きいとより多様なreasoningパスがunlockされている
- pass@kで観察したところRLには2つのphaseのよつなものが観測され、最初の0-160(1 epoch)ステップではpass@1が改善したが、pass@max_kは急激に性能が劣化した。一方で、160ステップを超えると、双方共に徐々に性能改善が改善していくような変化が見られた

本研究で構築されたGuru Dataset: https://huggingface.co/datasets/LLM360/guru-RL-92k

math, coding, science, logic, simulation, tabular reasoningに関する高品質、かつverifiableなデータセット。

openreview: https://openreview.net/forum?id=xUBgfvyip3&referrer=%5Bthe%20profile%20of%20Zhengzhong%20Liu%5D(%2Fprofile%3Fid%3D~Zhengzhong_Liu1)




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #OpenSource Issue Date: 2025-06-18 GPT Summary- 本研究では、教師ありファインチューニング(SFT)と強化学習(RL)の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment

元ポスト:

Loading…


様々なtakeawayがまとめられている。

SFT,RLに利用されたデータも公開

- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。

また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的
image




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #read-later Issue Date: 2025-06-13 GPT Summary- Resaという1.5Bの推論モデル群を提案し、効率的なスパースオートエンコーダーチューニング(SAE-Tuning)手法を用いて訓練。これにより、97%以上の推論性能を保持しつつ、訓練コストを2000倍以上削減し、訓練時間を450倍以上短縮。軽いRL訓練を施したモデルで高い推論性能を実現し、抽出された推論能力は一般化可能かつモジュール化可能であることが示された。全ての成果物はオープンソース。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

論文中で利用されているSource Modelの一つ:
- [Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25




Paper/Blog Link My Issue
#Analysis #Pretraining #LanguageModel #Transformer #COLT Issue Date: 2025-06-01 GPT Summary- 本研究では、Transformerベースの言語モデルの学習可能性を探求し、$k$-fold compositionタスクに焦点を当てる。$O(\log k)$層のトランスフォーマーでこのタスクを表現できる一方、SQオラクルに対するクエリの下限を示し、サンプルサイズが指数的である必要があることを証明。さらに、カリキュラム学習戦略を用いて、簡単な例と難しい例を含むデータ分布がトランスフォーマーの効率的な学習に必要であることを明らかにした。 Comment

元ポスト:

Loading…

こちらはまず元ポストのスレッドを読むのが良いと思われる。要点をわかりやすく説明してくださっている。

元ポストとalphaxivでざっくり理解したところ、

Transformerがcontextとして与えられた情報(σ)とparametric knowledge(π)をk回の知識マッピングが必要なタスク(k-fold composition task)を学習するにはO(log k)のlayer数が必要で、直接的にk回の知識マッピングが必要なタスクを学習するためにはkの指数オーダーのデータ量が最低限必要となることが示された。これはkが大きくなると(すなわち、複雑なreasoning stepが必要なタスク)になると非現実的なものとなるため、何らかの方法で緩和したい。学習データを簡単なものから難しいものをmixingすること(カリキュラム学習)ことで、この条件が緩和され、指数オーダーから多項式オーダーのデータ量で学習できることが示された

といった感じだと思われる。

じゃあ最新の32Bモデルよりも、よりパラメータ数が大きくてlayer数が多い古いモデルの方が複雑なreasoningが必要なタスクを実は解けるってこと!?直感に反する!と一瞬思ったが、おそらく最近のモデルでは昔のモデルと比べてparametric knowledgeがより高密度に適切に圧縮されるようになっていると思われるので、昔のモデルではk回の知識マッピングをしないと解けないタスクが、最新のモデルではk-n回のマッピングで解けるようになっていると推察され、パラメータサイズが小さくても問題なく解けます、みたいなことが起こっているのだろう、という感想を抱くなどした




Paper/Blog Link My Issue
#NLP #LanguageModel #QuestionAnswering #KnowledgeGraph #Factuality #Reasoning #Test-Time Scaling Issue Date: 2025-05-20 GPT Summary- 本研究では、オープンドメインの質問応答における大規模言語モデル(LLM)の推論能力を検討し、推論の痕跡を抽出してファインチューニングを行った。知識グラフからの情報を導入し、168回の実験を通じて170万の推論を分析した結果、小型モデルが元のモデルよりも事実の正確性を顕著に改善し、計算リソースを追加することでさらに2-8%の向上が確認された。実験成果は公開され、さらなる研究に寄与する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #ACL #DPO #Probing #One-Line Notes Issue Date: 2025-05-18 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

既存のLLM (proprietary, openweightそれぞれ)が、シンプルなvisual arithmeticタスク(e.g., 線分の長さ比較, Chart上のdotの理解)などの性能が低いことを明らかにし、
image
それらの原因を(1)Vision Encoderのrepresentationと(2)Vision EncoderをFreezeした上でのText Decoderのfinetuningで分析した。その結果、(1)ではいくつかのタスクでlinear layerのprobingでは高い性能が達成できないことがわかった。このことから、Vision Encoderによるrepresentationがタスクに関する情報を内包できていないか、タスクに関する情報は内包しているがlinear layerではそれを十分に可能できない可能性が示唆された。
image

これをさらに分析するために(2)を実施したところ、Vision Encoderをfreezeしていてもfinetuningによりquery stringに関わらず高い性能を獲得できることが示された。このことから、Vision Encoder側のrepresentationの問題ではなく、Text Decoderと側でデコードする際にFinetuningしないとうまく活用できないことが判明した。
image

手法のところはまだ全然しっかり読めていないのだが、画像に関する特定の属性に関するクエリと回答のペアを合成し、DPOすることで、zero-shotの性能が向上する、という感じっぽい?
image
image




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #LLM-as-a-Judge #ICLR #GRPO #VerifiableRewards #Non-VerifiableRewards #KeyPoint Notes Issue Date: 2025-05-16 GPT Summary- 本研究では、強化学習アプローチJ1を用いてLLMのトレーニング手法を提案し、判断タスクにおける思考促進とバイアス軽減を図ります。J1は、他の同サイズモデルを上回る性能を示し、特に小型モデルでも優れた結果を出します。モデルは自己生成した参照回答と比較することで、より良い判断を学ぶことが明らかになりました。 Comment

元ポスト:

Loading…

LLM-as-a-Judgeのなめのモデルを学習するレシピにおいて、初めてRLを適用した研究と主張し、より高品質なreasoning traceを出力できるようにすることで性能向上をさせる。

具体的にはVerifiableなpromptとnon verifiableなpromptの両方からverifiableなpreference pairを作成しpointwiseなスコアリング、あるいはpairwiseなjudgeを学習するためのrewardを設計しGRPOで学習する、みたいな話っぽい。
non verifiableなpromptも用いるのは、そういったpromptに対してもjudgeできるモデルを構築するため。

mathに関するpromptはverifiableなのでレスポンスが不正解なものをrejection samplingし、WildChatのようなチャットはverifiableではないので、instructionにノイズを混ぜて得られたレスポンスをrejection samplingし、合成データを得ることで、non verifiableなpromptについても、verifiableなrewardを設計できるようになる。
image

openreview: https://openreview.net/forum?id=dnJEHl6DI1

著者による一言解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Reasoning #ICML #DPO #KeyPoint Notes Issue Date: 2025-05-07 GPT Summary- LLMsに思考能力を装備するための訓練方法を提案。反復的な検索と最適化手順を用いて、モデルが監視なしで思考する方法を学ぶ。指示に対する思考候補はジャッジモデルで評価され、最適化される。この手法はAlpacaEvalとArena-Hardで優れたパフォーマンスを示し、推論タスクだけでなく、マーケティングや健康などの非推論カテゴリでも利点を発揮。 Comment

元ポスト:

Loading…

外部のCoTデータを使わないで、LLMのreasoning capabilityを向上させる話っぽい。DeepSeek-R1の登場以前の研究とのこと。

"reasoning traceを出力するように" Instruction Tuningによって回答を直接出力するようPostTrainingされたモデルにpromptingし、複数のoutputを収集(今回は8個, temperature=0.8, top p=0.95)。Self Taught Evaluator Self-Taught Evaluators, Tianlu Wang+, N/A, arXiv'24 (STE;70B, LLM-as-a-Judgeを利用するモデル)、あるいはArmo Reward Model(8B)によって回答の品質をスコアリング。ここで、LLM-as-a-Judgeの場合はペアワイズでの優劣が決まるだけなので、ELOでスコアリングする。outputのうちbest scoreとworst scoreだったものの双方でペアデータを構築し、DPOで利用するpreferenceペアデータを構築しDPOする。このような処理を繰り返し、モデルの重みをiterationごとに更新する。次のiterationでは更新されたモデルで同様の処理を行い、前段のステップで利用した学習データは利用しないようにする(後段の方が品質が高いと想定されるため)。また、回答を別モデルで評価する際に、長いレスポンスを好むモデルの場合、長い冗長なレスポンスが高くスコアリングされるようなバイアスが働く懸念があるため、長すぎる回答にpenaltyを与えている(Length-Control)。
image

reasoning traceを出力するpromptはgenericとspecific thoughtの二種類で検証。前者はLLMにどのような思考をするかを丸投げするのに対し、後者はこちら側で指定する。後者の場合は、どのような思考が良いかを事前に知っていなければならない。
image

Llama-3-8b-instructに適用したところ、70Bスケールのモデルよりも高い性能を達成。また、reasoning trace出力をablationしたモデル(Direct responce baseline)よりも性能が向上。
image

iterationが進むに連れて、性能が向上している。
image




Paper/Blog Link My Issue
#ComputerVision #Embeddings #Analysis #NLP #LanguageModel #RepresentationLearning #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #read-later #CompressionValleys Issue Date: 2025-05-04 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

現代の代表的な言語モデルのアーキテクチャ(decoder-only model, encoder-only model, SSM)について、最終層のembeddingよりも中間層のembeddingの方がdownstream task(MTEBの32Taskの平均)に、一貫して(ただし、これはMTEBの平均で見たらそうという話であり、個別のタスクで一貫して強いかは読んでみないとわからない)強いことを示した研究。

このこと自体は経験的に知られているのであまり驚きではないのだが(ただ、SSMでもそうなのか、というのと、一貫して強いというのは興味深い)、この研究はMatrix Based Entropyと呼ばれるものに基づいて、これらを分析するための様々な指標を定義し理論的な根拠を示し、Autoregressiveな学習よりもMasked Languageによる学習の方がこのようなMiddle Layerのボトルネックが緩和され、同様のボトルネックが画像の場合でも起きることを示し、CoTデータを用いたFinetuningについても分析している模様。この辺の貢献が非常に大きいと思われるのでここを理解することが重要だと思われる。あとで読む。

image

openreview: https://openreview.net/forum?id=WGXb7UdvTX




Paper/Blog Link My Issue
#NLP #LanguageModel #Bias #NAACL #PerplexityCurse #ContextEngineering Issue Date: 2025-05-02 GPT Summary- LLMは新しい文書でファインチューニングが必要だが、「困惑の呪い」により情報抽出が困難。特に文書の初めに関する質問には正確に答えるが、中間や末尾の情報抽出に苦労する。自己回帰的トレーニングがこの問題を引き起こすことを示し、デノイジング自己回帰損失が情報抽出を改善する可能性を示唆。これにより、LLMの知識抽出と新ドメインへの適応に関する新たな議論が生まれる。 Comment

元ポスト:

Loading…

![Image](https://github.com/user-attachments/assets/dd6bdffa-4ce0-4389-826e-4c85113c755f)
LLMの知識を最新にするために新しい文書(e.g., 新しいドメインの文書等)をLLMに与え(便宜上学習データと呼ぶ)Finetuningをした場合、Finetuning後のモデルで与えられたqueryから(LLM中にパラメータとしてmemorizeされている)対応する事実情報を抽出するようInferenceを実施すると、queryに対応する事実情報の学習データ中での位置が深くなると(i.e., middle -- endになると)抽出が困難になる Positional Biasが存在する[^1]ことを明らかにした。
そして、これを緩和するために正則化が重要(e.g., Denoising, Shuffle, Attention Drops)であることを実験的に示し、正則化手法は複数組み合わせることで、よりPositional Biasが緩和することを示した研究

[^1]: 本研究では"Training"に利用する文書のPositional Biasについて示しており、"Inference"時におけるPositional Biasとして知られている"lost-in-the middle"とは異なる現象を扱っている点に注意

## データセット
文書 + QAデータの2種類を構築しFinetuning後のknowledge extraction能力の検証をしている[^2]。

実験では、`Synthetic Bio (合成データ)`, `Wiki2023+(実データ)` の2種類のデータを用いて、Positional Biasを検証している。
Synthetic bioは、人間のbiographyに関する9つの属性(e.g., 誕生日, 出生地)としてとりうる値をChatGPTに生成させ、3000人の人物に対してそれらをランダムにassignし、sentence templateを用いてSurface Realizationすることで人工的に3000人のbiographyに関するテキストを生成している。
一方、Wiki2023+では、Instruction-tuned Language Models are Better Knowledge Learners, Zhengbao Jiang+, ACL'24

の方法にのっとって [^3]事前学習時の知識とのoverlapが最小となるように`2023`カテゴリ以下のwikipediaの様々なジャンルの記事を収集して活用する。QAデータの構築には、元文書からsentenceを抽出し、GPT-3.5-Turboに当該sentenceのみを与えてQA pairを作成させることで、データを作成している。なお、hallucinationや品質の低いQA pairをフィルタリングした。フィルタリング後のQA Pairをランダムにサンプリングし品質を確認したところ、95%のQA pairが妥当なものであった。

これにより、下図のようなデータセットが作成される。FigureCが `Wiki2023+`で、FigureDが`SyntheticBio`。`Wiki2023+`では、QA pairの正解が文書中の前半により正解が現れるような偏りが見受けられる。
![Image](https://github.com/user-attachments/assets/1146328f-de7e-4e90-b495-b129730c5d0d)

[^2]: [Paper Note] Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24 において、知識 + 知識を抽出するタスクの双方を用いて学習することで、モデルから知識を抽出する能力が備わることが示されているため。
[^3]: Llama-2-7Bにおいて2023カテゴリ以下の情報に対するQAのperformanceが著しく低いことから、事前学習時に当該データが含まれている可能性が低いことが示唆されている

## 実験 & 実験結果 (modulated data)
作成した文書+QAデータのデータセットについて、QAデータをtrain/valid/testに分けて、文書データは全て利用し、testに含まれるQAに適切に回答できるかで性能を評価する。このとき、文書中でQAに対する正解がテキストが出現する位置を変化させモデルの学習を行い、予測性能を見ることで、Positional Biasが存在することを明らかにする。このとき、[Paper Note] Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24

に倣い、文書とQAをMixed Sampling(1バッチあたり256件のサンプルをランダムにQAおよび文書データからサンプリング; # 1923 では文書とQAを2:8の比率でサンプリングしている)することで学習をする。QAの場合目的関数は回答テキスト部分のみのNLL、文書の場合はnext-token prediction lossを利用する。

Positional Biasの存在を示すだけでなく、(A, B, C) の順番でnext-token prediction lossで学習されたモデルの場合、Cの知識を抽出するためにA, Bがcontextとして必要となるため、Cを抽出する際の汎化性能を高めるためにA, Bの表現がより多様である必要がある、という課題がある。これに対処するためのいくつかのシンプルな正則化手法、具体的には
- D-AR: predition targetのトークンは保持したまま、input tokenの一部をランダムなトークンに置き換える
- Shuffle: 入力文をシャッフルする
- Attn Drop: self-attentionモジュールのattention weightをランダムに0にする
の3種類とPositional Biasの関係性を検証している。
![Image](https://github.com/user-attachments/assets/503e53f2-28f5-46ea-a11f-beee98f8fa38)

検証の結果、(合成データ、実データともに)Positional Biasが存在することが明らかとなり(i.e., 正解テキストが文書中の深い位置にあればあるほど予測性能が低下する)正則化によってPositional Biasが緩和されることが示された。
![Image](https://github.com/user-attachments/assets/11a29a1e-f869-4628-9c47-e1fc9e5c394e)

また、異なるモデルサイズで性能を比較したところ、モデルサイズを大きくすることで性能自体は改善するが、依然としてPositional Biasが存在することが示され、ARよりもD-ARが一貫して高い性能を示した。このことから、Positional Biasを緩和するために何らかの正則化手法が必要なことがわかる。
![Image](https://github.com/user-attachments/assets/0772d144-c22b-4723-8578-acdf0e2e1187)

また、オリジナル文書の1文目を、正解データの位置を入れ替えた各モデルに対して、テキスト中の様々な位置に配置してPerplexityを測った。この設定では、モデルがPerplexityを最小化するためには、(1文目ということは以前の文脈が存在しないsentenceなので)文脈に依存せずに文の記憶していなければならない。よって、各手法ごとにどの程度Perplexityが悪化するかで、各手法がどの程度あるsentenceを記憶する際に過去の文脈に依存しているかが分かる。ここで、学習データそのもののPerplexityはほぼ1.0であったことに注意する。
結果として、文書中の深い位置に配置されればされるほどPerplexityは増大し(left)、Autoregressive Model (AR) のPerplexity値が最も値が大きかった(=性能が悪かった)。このことから、ARはより過去の文脈に依存してsentenceの情報を記憶していることが分かる。また、モデルサイズが小さいモデルの方がPerplexityは増大する傾向にあることがわかった (middle)。これはFig.3で示したQAのパフォーマンスと傾向が一致しており、学習データそのもののPerplexityがほぼ1.0だったことを鑑みると、学習データに対するPerplexityは様々なPositionに位置する情報を適切に抽出できる能力を測るメトリックとしては適切でないことがわかる。また、学習のiterationを増やすと、ARの場合はfirst positionに対する抽出性能は改善したが、他のpositionでの抽出性能は改善しなかった。一方、D-ARの場合は、全てのpositionでの抽出性能が改善した (right) 。このことから、必ずしも学習のiterationを増やしても様々なPositionに対する抽出性能が改善しないこと、longer trainingの恩恵を得るためには正則化手法を利用する必要があることが明らかになった。

![Image](https://github.com/user-attachments/assets/94f635a5-68d5-478d-ab16-513e855fe054)

## 実験 & 実験結果 (unmodulated data)
Wiki2023+データに対して上記のようなデータの変更を行わずに、そのまま学習を行い、各位置ごとのQAの性能を測定したところ、(すべてがPositional Biasのためとは説明できないが)回答が文書中の深い位置にある場合の性能が劣化することを確認した。2--6番目の性能の低下は、最初の文ではシンプルな事実が述べられ、後半になればなるほどより複雑な事実が述べられる傾向があることが起因して性能の低下しているとかせつをたてている。また、unmodulated dataの場合でもD-ARはARの性能を改善することが明らかとなった。モデルサイズが大きいほど性能は改善するが、以前として文書中の深い位置に正解がある場合に性能は劣化することもわかる。
image

また、正則化手法は組み合わせることでさらに性能が改善し、[Paper Note] Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24

に示されている通り、学習データ中の表現を多様にし[^1]学習したところ予測性能が改善し、正則化手法とも補完的な関係であることも示された。
image

医療ドメインでも実験したところ、正則化手法を適用した場合にARよりも性能が上回った。最後にWiki2023+データについてOpenbookな設定で、正解が含まれる文書をLLMのcontextとして与えた場合(i.e.,ほぼ完璧なretrieverが存在するRAGと同等の設定とみなせる)、QAの性能は90.6%に対し、継続学習した場合のベストモデルの性能は50.8%だった。このことから、正確なretrieverが存在するのであれば、継続学習よりもRAGの方がQAの性能が高いと言える。
RAGと継続学習のメリット、デメリットの両方を考慮して、適切に手法を選択することが有効であることが示唆される。
image

[^1]: ChatGPTによってテキストをrephraseし、sentenceのorderも変更することで多様性を増やした。が、sentence orderが文書中の深い位置にある場合にあまりorderが変化しなかったようで、このため深い位置に対するQAの性能改善が限定的になっていると説明している。




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #DiffusionModel #Reasoning #GRPO Issue Date: 2025-04-18 GPT Summary- d1というフレームワークを提案し、マスク付きdLLMsを教師ありファインチューニングと強化学習で推論モデルに適応。マスク付きSFT技術で知識を抽出し、diffu-GRPOという新しいRLアルゴリズムを導入。実証研究により、d1が最先端のdLLMの性能を大幅に向上させることを確認。 Comment

元ポスト:

Loading…

dLLMに対してGRPOを適用する手法(diffuGRPO)を提案している。
long CoTデータでSFTしてreasoning capabilityを強化した後、diffuGRPOで追加のpost-trainingをしてさらに性能をboostする。

GRPOではtoken levelの尤度とsequence全体の尤度を計算する必要があるが、dLLMだとautoregressive modelのようにchain ruleを適用する計算方法はできないので、効率的に尤度を推定するestimatorを用いてGPPOを適用するdiffuGRPOを提案している。

diffuGRPO単体でも、8BモデルだがSFTよりも性能向上に成功している。SFTの後にdiffuGRPOを適用するとさらに性能が向上する。

SFTではs1 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25 で用いられたlong CoTデータを用いている。しっかり理解できていないが、diffuGRPO+verified rewardによって、long CoTの学習データを用いなくても、安定してreasoning能力を発揮することができようになった、ということなのだろうか?
しかし、AppendixCを見ると、元々のLLaDAの時点でreasoning traceを十分な長さで出力しているように見える。もしLLaDAが元々long CoTを発揮できたのだとしたら、long CoTできるようになったのはdiffuGRPOだけの恩恵ではないということになりそうだが、LLaDAは元々long CoTを生成できるようなモデルだったんだっけ…?その辺追えてない(dLLMがメジャーになったら追う)。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #SmallModel #COLM #Selected Papers/Blogs #In-Depth Notes #KeyPoint Notes #Initial Impression Notes Issue Date: 2025-04-13 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

SLMをmath reasoning向けにpost-trainingする場合、評価の条件をフェアにするための様々な工夫を施し評価をしなおした結果(Figure1のように性能が変化する様々な要因が存在する)、RL(既存研究で試されているもの)よりも(大規模モデルからrejection samplingしたreasoning traceを用いて)SFTをする方が同等か性能が良く(Table3)、結局のところ(おそらく汎化性能が低いという意味で)reliableではなく、かつ(おそらく小規模なモデルでうまくいかないという意味での)scalableではないので、reliableかつscalableなRL手法が不足しているとのこと。

※ 本論文で分析されているのは<=10B以下のSLMである点に注意。10B以上のモデルで同じことが言えるかは自明ではない。
※ DAPO, VAPOなどについても同じことが言えるかも自明ではない。
※ DeepSeek-R1のtechnical reportにおいて、小さいモデルにGRPOを適用してもあまり効果が無かったことが既に報告されている。

image
image

- DeepSeek-R1の論文読んだ?【勉強になるよ】 , asap, 2025.01
- DeepSeek-R1, DeepSeek, 2025.01

個々のpost-trainingされたRLモデルが具体的にどういう訓練をしたのかは追えていないが、DAPOやDr. GRPO, VAPOの場合はどうなるんだろうか?

- [Paper Note] DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, NeurIPS'25
- VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv'25
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03

Rewardの設定の仕方はどのような影響があるのだろうか(verifiable rewardなのか、neuralモデルによるrewardなのかなど)?

学習のさせ方もどのような影響があるのだろうか(RLでカリキュラムlearningにした場合など)?

検証しているモデルがそれぞれどのような設定で学習されているかまでを見ないとこの辺はわからなそう。

ただなんとなーくの直感だと、SLMを賢くしたいという場合は何らかの賢いモデルの恩恵に預かると有利なケースが多く(SFTの場合はそれが大規模なモデルから蒸留したreasoning trace)、SLM+RLの場合はPRMのような思考プロセスを評価してRewardに反映させるようなものを利用しないと、少なくとも小規模なLLMをめちゃ賢くします〜というのはきついんじゃないかなあという感想ではある。
ただ、結局SLMという時点で多くの場合、より賢いパラメータ数の多いLLMが世の中には存在するあるはずなので、RLしないでSFTして蒸留すれば良いんじゃない…?と思ってしまう。
が、多くの場合その賢いLLMはProprietaryなLLMであり、出力を得て自分のモデルをpost-trainingすることは利用規約違反となるため、自前で賢くてパラメータ数の多いLLMを用意できない場合は困ってしまうので、SLMをクソデカパラメータのモデルの恩恵なしで超絶賢くできたら世の中の多くの人は嬉しいよね、とも思う。

(斜め読みだが)
サンプル数が少ない(数十件)AIMEやAMCなどのデータはseedの値にとてもsensitiveであり(Takeaway1, 2)、

image

それらは10種類のseedを用いて結果を平均すると分散が非常に小さくなるので、seedは複数種類利用して平均の性能を見た方がreliableであり(Takeaway3)

image

temperatureを高くするとピーク性能が上がるが分散も上がるため再現性の課題が増大するが、top-pを大きくすると再現性の問題は現れず性能向上に寄与し

image

既存研究のモデルのtemperatureとtop-pを変化させ実験するとperformanceに非常に大きな変化が出るため、モデルごとに最適な値を選定して比較をしないとunfairであることを指摘 (Takeaway4)。

image

また、ハードウェアの面では、vLLMのようなinference engineはGPU typeやmemoryのconfigurationに対してsensitiveでパフォーマンスが変わるだけでなく、

image

評価に利用するフレームワークごとにinference engineとprompt templateが異なるためこちらもパフォーマンスに影響が出るし (Takeaway5)、

image

max output tokenの値を変化させると性能も変わり、prompt templateを利用しないと性能が劇的に低下する (Takeaway6)。

image

これらのことから著者らはreliableな評価のために下記を提案しており (4.1節; 後ほど追記)、

実際にさまざまな条件をfair comparisonとなるように標準化して評価したところ(4.2節; 後ほど追記)

上の表のような結果となった。この結果は、
- DeepSeekR1-DistilledをRLしてもSFTと比較したときに意味のあるほどのパフォーマンスの向上はないことから、スケーラブル、かつ信頼性のあるRL手法がまだ不足しており
- 大規模なパラメータのモデルのreasoning traceからSFTをする方法はさまざまなベンチマークでロバストな性能(=高い汎化性能)を持ち、RLと比べると現状はRLと比較してよりパラダイムとして成熟しており
- (AIME24,25を比較するとSFTと比べてRLの場合performanceの低下が著しいので)RLはoverfittingしやすく、OODなベンチマークが必要

しっかりと評価の枠組みを標準化してfair comparisonしていかないと、RecSys業界の二の舞になりそう(というかもうなってる?)。

またこの研究で分析されているのは小規模なモデル(<=10B)に対する既存研究で用いられた一部のRL手法や設定の性能だけ(真に示したかったらPhisics of LLMのような完全にコントロール可能なサンドボックスで実験する必要があると思われる)なので、DeepSeek-R1のように、大規模なパラメータ(数百B)を持つモデルに対するRLに関して同じことが言えるかは自明ではない点に注意。

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

最近の以下のようなSFTはRLの一つのケースと見做せるという議論を踏まえるとどうなるだろうか

- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #COLM Issue Date: 2025-03-25 GPT Summary- 批評ファインチューニング(CFT)は、言語モデルがノイズのある応答を批評することを学ぶ新しい戦略で、従来の監視付きファインチューニング(SFT)に挑戦します。CFTは人間の学習プロセスにインスパイアを受け、深い分析を促進します。WebInstructから構築した50Kサンプルのデータセットを用いて、CFTは複数のベースモデルでSFTに対して4-10%の性能向上を示しました。特に、Qwen2.5-Math-CFTは少ないトレーニングで強力な競合と同等の性能を発揮し、CFTの堅牢性も確認されました。CFTは言語モデルの推論を進展させる効果的な手法であると主張します。 Comment

元ポスト:

Loading…

Critique Fine-Tuning (CFT) を提案。CFTでは、query x, noisy response y [^1] が与えられたときに、それに対する批評 cを学習する。cはgivenではないので、GPT4oのような強力なモデルによって合成する。

![Image](https://github.com/user-attachments/assets/f25babdd-63d6-4d3d-a9b0-3217db2bd07f)

目的関数は以下。[x; y] がgivenな時にcを生成する確率を最大化する。シンプル。
![Image](https://github.com/user-attachments/assets/ccdb8e42-e8b2-4ae1-99a6-a0b7c1d4bf2a)

RLを用いた手法との比較。1/10程度のデータ量、1/100程度のGPU時間で同等の性能を達成できる。
![Image](https://github.com/user-attachments/assets/848376ff-9965-485b-b8a0-7960d1d0e7b9)

[^1]: 本論文で利用しているWebInstructからサンプリングしたデータでは、たとえば約50%程度のyが正解, 残りは不正解(程度のnoisyデータを利用している)




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #DataDistillation #Reasoning Issue Date: 2025-02-07 GPT Summary- LIMOモデルは、わずか817のトレーニングサンプルで複雑な数学的推論を効果的に引き出し、AIMEで57.1%、MATHで94.8%の精度を達成。従来のモデルよりも少ないデータで優れたパフォーマンスを示し、一般化を促す「Less-Is-More Reasoning Hypothesis」を提案。LIMOはオープンソースとして提供され、データ効率の良い推論の再現性を促進する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Reasoning #LongSequence #RewardHacking #Selected Papers/Blogs Issue Date: 2025-02-07 GPT Summary- 本研究では、大規模言語モデル(LLMs)における長い思考の連鎖(CoTs)推論のメカニズムを調査し、重要な要因を特定。主な発見は、(1) 教師ありファインチューニング(SFT)は必須ではないが効率を向上させる、(2) 推論能力は計算の増加に伴い現れるが、報酬の形状がCoTの長さに影響、(3) 検証可能な報酬信号のスケーリングが重要で、特に分布外タスクに効果的、(4) エラー修正能力は基本モデルに存在するが、RLを通じて効果的に奨励するには多くの計算が必要。これらの洞察は、LLMsの長いCoT推論を強化するためのトレーニング戦略の最適化に役立つ。 Comment

元ポスト:

Loading…

元ポストのスレッド中に論文の11個の知見が述べられている。どれも非常に興味深い。DeepSeek-R1のテクニカルペーパーと同様、

- Long CoTとShort CoTを比較すると前者の方が到達可能な性能のupper bonudが高いことや、
- SFTを実施してからRLをすると性能が向上することや、
- RLの際にCoTのLengthに関する報酬を入れることでCoTの長さを抑えつつ性能向上できること、
- 数学だけでなくQAペアなどのノイジーだが検証可能なデータをVerifiableな報酬として加えると一般的なreasoningタスクで数学よりもさらに性能が向上すること、
- より長いcontext window sizeを活用可能なモデルの訓練にはより多くの学習データが必要なこと、
- long CoTはRLによって学習データに類似したデータが含まれているためベースモデルの段階でその能力が獲得されていることが示唆されること、
- aha momentはすでにベースモデル時点で獲得されておりVerifiableな報酬によるRLによって強化されたわけではなさそう、

など、興味深い知見が盛りだくさん。非常に興味深い研究。あとで読む。




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #OpenWeight #OpenSource #COLM #DPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-02-01 GPT Summary- Tulu 3は、オープンなポストトレーニングモデルのファミリーで、トレーニングデータやレシピを公開し、現代のポストトレーニング技術のガイドを提供します。Llama 3.1を基にし、他のクローズドモデルを上回る性能を達成。新しいトレーニング手法としてSFT、DPO、RLVRを採用し、マルチタスク評価スキームを導入。モデルウェイトやデモ、トレーニングコード、データセットなどを公開し、他のドメインへの適応も可能です。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=i1uGbfHHpH#discussion




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ICLR #DPO #Diversity #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-02-01 GPT Summary- Diverse Preference Optimization(DivPO)を提案し、応答の多様性を向上させつつ生成物の品質を維持するオンライン最適化手法を紹介。DivPOは応答のプールから多様性を測定し、希少で高品質な例を選択することで、パーソナ属性の多様性を45.6%、ストーリーの多様性を74.6%向上させる。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=pOq9vDIYev

DPOと同じ最適化方法を使うが、Preference Pairを選択する際に、多様性が増加するようなPreference Pairの選択をすることで、モデルのPost-training後の多様性を損なわないようにする手法を提案しているっぽい。
具体的には、Alg.1 に記載されている通り、多様性の尺度Dを定義して、モデルにN個のレスポンスを生成させRMによりスコアリングした後、RMのスコアが閾値以上のresponseを"chosen" response, 閾値未満のレスポンスを "reject" responseとみなし、chosen/reject response集合を構築する。chosen response集合の中からDに基づいて最も多様性のあるresponse y_c、reject response集合の中から最も多様性のないresponse y_r をそれぞれピックし、prompt xとともにpreference pair (x, y_c, y_r) を構築しPreference Pairに加える、といった操作を全ての学習データ(中のprompt)xに対して繰り返すことで実現する。

DivPO




Paper/Blog Link My Issue
#ComputerVision #Analysis #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)




Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #COLM #read-later #LatentReasoning #One-Line Notes Issue Date: 2024-12-12 GPT Summary- 新しい推論パラダイム「Coconut」を提案し、LLMの隠れ状態を連続的思考として利用。これにより、次の入力を連続空間でフィードバックし、複数の推論タスクでLLMを強化。Coconutは幅優先探索を可能にし、特定の論理推論タスクでCoTを上回る性能を示す。潜在的推論の可能性を探る重要な洞察を提供。 Comment

Chain of Continuous Thought

通常のCoTはRationaleをトークン列で生成するが、Coconutは最終的なhidden stateをそのまま次ステップの入力にすることで、トークンに制限されずにCoTさせるということらしい。あとでしっかり読む
image

おそらく学習の際に工夫が必要なので既存モデルのデコーディングを工夫してできます系の話ではないかも

OpenReview: https://openreview.net/forum?id=tG4SgayTtk

ICLR'25にrejectされている。
ざっと最初のレビューに書かれているWeaknessを読んだ感じ
- 評価データが合成データしかなく、よりrealisticなデータで評価した方が良い
- CoTら非常に一般的に適用可能な技術なので、もっと広範なデータで評価すべき
- GSM8Kでは大幅にCOCONUTはCoTに性能が負けていて、ProsQAでのみにしかCoTに勝てていない
- 特定のデータセットでの追加の学習が必要で、そこで身につけたreasoning能力が汎化可能か明らかでない

といった感じに見える

COLM'25 openreview:
https://openreview.net/forum?id=Itxz7S4Ip3#discussion

COLM'25にAccept




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #AIAgents #COLING Issue Date: 2024-12-10 GPT Summary- 自己探索によるメカニズム活性化学習(ALAMA)を提案し、固定されたメカニズムに依存せずに適応的なタスク解決を目指す。調和のとれたエージェントフレームワーク(UniAct)を構築し、タスク特性に応じてメカニズムを自動活性化。実験結果は、動的で文脈に敏感なメカニズム活性化の有効性を示す。 Comment

元ポスト:

Loading…

手法としては、SFTとKTOを活用しpost trainingするようである
image

- [Paper Note] KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, ICML'24, 2024.02




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Safety #ICLR #DPO Issue Date: 2024-09-24 GPT Summary- テキスト生成には根本的な限界があり、生成されたトークンを元に戻せないため、安全でない生成が続く傾向がある。この課題を解決するために、特別な[RESET]トークンを用いたバックトラッキング技術を提案し、生成物を「取り消し」可能にする。これにより、言語モデルの安全性を向上させることができ、バックトラッキングを学習したモデルはベースラインと比較して4倍の安全性を示す。さらに、敵対的攻撃に対する保護も提供される。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=Bo62NeU6VF

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZN1PNR-2025-05-08-131259#p1




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ReinforcementLearning #Safety #NeurIPS #Rubric-based Issue Date: 2026-02-11 GPT Summary- 少量の人間データを用いてAIフィードバックを活用し、新しい好みモデルアプローチ「ルールベース報酬(RBR)」を提案。これにより、望ましい行動に関するルールを用いてLLMを評価し、安全行動の精度を高めつつ、強化学習トレーニングの制御と更新容易性を向上。F1スコア97.1を達成し、人間フィードバックの91.7を大きく上回る結果を示した。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=QVtwpT5Dmg&referrer=%5Bthe%20profile%20of%20Lilian%20Weng%5D(%2Fprofile%3Fid%3D~Lilian_Weng1)




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #ICML #Generalization #TextualFeedback Issue Date: 2026-02-01 GPT Summary- 高レベルの言語フィードバックを用いてLLMの調整を行う際、過剰一般化の問題を解決するために「C3PO」手法を提案。C3POはフィードバックを適用する方法を指定する合成嗜好データセットを生成し、元のモデルから逸脱を抑えつつ微調整を実施。実験により、他の文脈の動作を維持しながら、フィードバックの遵守と過剰一般化を30%削減できることを示した。 Comment

pj page: https://austrian-code-wizard.github.io/c3po-website/




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Reasoning #DPO Issue Date: 2026-01-30 GPT Summary- 数学的推論はLLMにとって難題であり、正確な推論ステップが求められる。本研究では、人間のフィードバックを活用し、LLMの堅牢性を向上させるStep-DPOを提案。各推論ステップを選好最適化の単位とし、高品質なデータセットを構築。結果、70BパラメータモデルにおいてMATHで約3%の精度向上を実現し、Qwen2-72B-Instructが他のモデルを凌駕する成績を示した。 Comment

openreview: https://openreview.net/forum?id=H5FUVj0vMd




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SyntheticData Issue Date: 2025-11-25 GPT Summary- 合成データは言語モデルの開発に重要であり、本研究では「Generative Teaching」と呼ばれる手法を提案。高品質な合成データを自動生成する「AgentInstruct」フレームワークを用いて、2500万ペアのポストトレーニングデータセットを作成。これにより、Mistral-7bをポストトレーニングしたモデルOrca-3は、複数のベンチマークで顕著な性能向上を示し、他のモデルに対しても優れた結果を得た。 Comment

関連:
- Orca 2: Teaching Small Language Models How to Reason, Arindam Mitra+, N/A, arXiv'23




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Safety #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-24 GPT Summary- LLMのファインチューニングは、下流のユースケースに最適化する手法だが、安全性のリスクが伴う。特に、敵対的なトレーニング例を用いたファインチューニングが、モデルの安全性調整を損なう可能性があることが示された。例えば、わずか10例の悪意のある例でGPT-3.5 Turboをファインチューニングすると、安全ガードレールが突破される。また、無害なデータセットでのファインチューニングも意図せず安全性を劣化させる可能性がある。これらの結果は、調整されたLLMのファインチューニングが新たな安全リスクを生むことを示唆しており、今後の安全プロトコルの強化が求められる。 Comment

openreview: https://openreview.net/forum?id=hTEGyKf0dZ

なんらかのデータでpost-trainingしたモデルを、ユーザが利用可能な形でデプロイするような場合には、本研究が提唱するようなjailbreakのリスク
- 有害データが10例混入するだけで有害な出力をするようになる
- 暗黙的な有害データの混入(e.g., あなたはユーザ命令に従うエージェントです)
- 無害なデータでpost-trainingするだけでも下記のような影響でsafety alignmentが悪化する
- catastrophic forgetting
- 有用性と無害性のトレードオフによって、有用性を高めたことで有害性が結果的に増えてしまう( `tension between the helpfulness and harmlessness objectives` [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22

があることを認識しておく必要がある。

もし安直にユーザからの指示追従能力を高めたいなあ・・・と思い、「ユーザからの指示には忠実に従ってください」などの指示を追加してpost-trainingをしてしまい、無害なプロンプトのみでテストして問題ないと思いユーザ向けのchatbotとしてデプロイしました、みたいなことをしたらえらいことになりそう。




Paper/Blog Link My Issue
#Tutorial #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #MultiModal #Pruning #PPO (ProximalPolicyOptimization) #PEFT(Adaptor/LoRA) #LLMServing #DPO #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-10-17 GPT Summary- 本報告書では、大規模言語モデル(LLMs)のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法(LoRA、Half Fine-Tuning)に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ContextWindow #LongSequence #ICLR #Selected Papers/Blogs Issue Date: 2025-08-02 GPT Summary- YaRN(Yet another RoPE extensioN method)は、トランスフォーマーベースの言語モデルにおける位置情報のエンコードを効率的に行い、コンテキストウィンドウを従来の方法よりも10倍少ないトークンと2.5倍少ない訓練ステップで拡張する手法を提案。LLaMAモデルが長いコンテキストを効果的に利用できることを示し、128kのコンテキスト長まで再現可能なファインチューニングを実現。 Comment

openreview: https://openreview.net/forum?id=wHBfxhZu1u

現在主流なRoPEを前提としたコンテキストウィンドウ拡張手法。様々なモデルで利用されている。

日本語解説: https://zenn.dev/bilzard/scraps/de7ecd3c380b6e

RoPE:
- [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, Neurocomputing Vol. 568, 2021.04




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SoftwareEngineering #mid-training #read-later #MemoryOptimization Issue Date: 2025-07-16 GPT Summary- 本研究では、Llamaアーキテクチャにおける4D並列トレーニングに対して、メモリ使用量を正確に推定する公式を提案。A100およびH100 GPUでの454回の実験を通じて、一時バッファやメモリの断片化を考慮し、推定メモリがGPUメモリの80%未満であればメモリ不足エラーが発生しないことを示した。この公式により、メモリオーバーフローを引き起こす並列化構成を事前に特定でき、最適な4D並列性構成に関する実証的な洞察を提供する。

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #SelfImprovement #NeurIPS #DPO #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-07-02 GPT Summary- 反復的な好み最適化手法を用いて、Chain-of-Thought(CoT)候補間の推論ステップを最適化するアプローチを開発。修正DPO損失を使用し、推論の改善を示す。Llama-2-70B-ChatモデルでGSM8K、MATH、ARC-Challengeの精度を向上させ、GSM8Kでは55.6%から81.6%に改善。多数決による精度は88.7%に達した。 Comment

OpenReview: https://openreview.net/forum?id=4XIKfvNYvx&referrer=%5Bthe%20profile%20of%20He%20He%5D(%2Fprofile%3Fid%3D~He_He2)

- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24

と似たようにiterativeなmannerでreasoning能力を向上させる。

image

ただし、loss functionとしては、chosenなCoT+yのresponseに対して、reasoning traceを生成する能力を高めるために、NLL Lossも適用している点に注意。
image

32 samplesのmajority votingによってより高い性能が達成できているので、多様なreasoning traceが生成されていることが示唆される。

DPOでReasoning能力を伸ばしたい場合はNLL lossが重要。Iterative RPO




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Alignment #InstructionTuning #ICML Issue Date: 2025-05-11 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。

Paper/Blog Link My Issue
#Embeddings #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) #LongSequence #ACL Issue Date: 2025-01-06 GPT Summary- CFICは、Retrieval-Augmented Generation(RAG)システム向けの新しいリトリーバルアプローチで、従来のチャンク化を回避し、文書のエンコードされた隠れ状態を利用して正確な証拠テキストを特定します。制約付き文のプレフィックスデコーディングとスキップデコーディングを組み込むことで、リトリーバルの効率と生成された証拠の忠実性を向上させます。CFICはオープンQAデータセットで評価され、従来の方法に対して大幅な改善を示し、RAGシステムの効率的で効果的なリトリーバルソリューションを提供します。 Comment

Chunking無しでRAGを動作させられるのは非常に魅力的。
image

一貫してかなり性能が向上しているように見える
image

提案手法の概要。InputとOutput全体の実例がほとんど掲載されていないので憶測を含みます。

気持ちとしては、ソーステキストが与えられたときに、Questionの回答をsupportするようなソース中のpassageの情報を活用して回答するために、重要なsentenceのprefixを回答生成前に生成させる(重要なsentenceの識別子の役割を果たす)ことで、(識別子によって重要な情報によって条件づけられて回答生成ができるやうになるのて)それら情報をより考慮しながらモデルが回答を生成できるようになる、といった話だと思われる。

Table2のようなテンプレートを用いて、ソーステキストと質問文でモデルを条件付けて、回答をsupportするsentenceのprefixを生成する。生成するprefixは各sentenceのユニークなprefixのtoken log probabilityの平均値によって決まる(トークンの対数尤度が高かったらモデルが暗黙的にその情報はQuestionにとって重要だと判断しているとみなせる)。SkipDecodingの説を読んだが、ぱっと見よく分からない。おそらく[eos]を出力させてprefix間のデリミタとして機能させたいのだと思うが、[eos]の最適なpositionはどこなのか?みたいな数式が出てきており、これがデコーディングの時にどういった役割を果たすのかがよくわからない。

また、モデルはQAと重要なPassageの三つ組のデータで提案手法によるデコーディングを適用してSFTしたものを利用する。

image
image




Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning Issue Date: 2024-11-13 GPT Summary- LaTRO(LaTent Reasoning Optimization)を提案し、LLMの推論能力を向上させる新しいフレームワークを構築。推論を潜在分布からのサンプリングとして定式化し、外部フィードバックなしで推論プロセスと質を同時に改善。GSM8KおよびARC-Challengeデータセットで実験し、平均12.5%の精度向上を達成。事前学習されたLLMの潜在的な推論能力を引き出すことが可能であることを示唆。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=4Po8d9GAfQ&referrer=%5Bthe%20profile%20of%20Ricky%20Ho%5D(%2Fprofile%3Fid%3D~Ricky_Ho2)




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Alignment #ICML #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-10-27 GPT Summary- 人間の偏見を考慮したLLMのフィードバックを目的とした研究。プロスペクト理論に基づく「人間意識型損失(HALOs)」を用いて、生成物の効用を最大化する新手法KTOを提案。このアプローチは、既存の方法と比較してパフォーマンスが同等またはそれ以上であり、普遍的な最適損失関数は存在しないことを示唆。最適な損失は、設定に応じたバイアスによって異なる。 Comment

binaryフィードバックデータからLLMのアライメントをとるKahneman-Tversky Optimization (KTO)論文

解説(DPO,RLHFの話だがKTOを含まれている):
- RLHF/DPO 小話, 和地瞭良/ Akifumi Wachi, 2024.04




Paper/Blog Link My Issue
#NLP #LanguageModel #DPO Issue Date: 2024-10-22 GPT Summary- RLHFとRLAIFを統合したハイブリッドアプローチを提案し、合成好みラベルの質を向上させるGenRMアルゴリズムを導入。実験により、GenRMは分布内外のタスクでBradley-Terryモデルと同等またはそれを上回る性能を示し、LLMを判断者として使用する場合のパフォーマンスも向上。 Comment

OpenReview: https://openreview.net/forum?id=MwU2SGLKpS

関連研究
- LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion, Dongfu Jiang+, N/A, ACL'23
- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24
- [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22

openreview: https://openreview.net/forum?id=MwU2SGLKpS




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #SyntheticData Issue Date: 2024-10-21 GPT Summary- 本研究では、人間の注釈なしで評価者を改善するアプローチを提案。合成トレーニングデータを用い、自己改善スキームによりLLMを評価者としてトレーニング。これにより、RewardBenchでのLLMのパフォーマンスを75.4から88.3に向上させ、GPT-4を超える結果を達成。 Comment

LLMのアラインメント等をSFTする際に、preferenceのラベル付きデータが必要になるが、このようなデータを作るのはコストがかかって大変なので自動生成して、より良いreward modelを作りたいよね、という話。
具体的には、LLMを用いて good responseと、instructionを変化させてbad sesponseを生成し、JudgeモデルM_tにpairwiseでどちらが良いかをjudgeさせることで学習データを作成。新たに作成されたデータを用いてJudgeモデルを再学習し、同様のプロセスを繰り返すことで、人手の介在なく強力なJudgeモデルが完成する。
image
image




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #read-later #Selected Papers/Blogs Issue Date: 2024-09-13 GPT Summary- 強化ファインチューニング(ReFT)を提案し、LLMsの推論能力を向上。SFTでモデルをウォームアップ後、PPOアルゴリズムを用いてオンライン強化学習を行い、豊富な推論パスを自動サンプリング。GSM8K、MathQA、SVAMPデータセットでSFTを大幅に上回る性能を示し、追加のトレーニング質問に依存せず優れた一般化能力を発揮。

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Alignment #Evaluation #Safety #Japanese #mid-training #Selected Papers/Blogs Issue Date: 2024-07-10 GPT Summary- 日本の大規模言語モデル(LLMs)プロジェクト「LLM-jp」を紹介。オープンソースで強力な日本語LLMの開発を目指し、1,500人以上が参加。設立背景、活動概要、技術報告が含まれ、詳細は公式サイトで確認可能。 Comment

llm.jpによるテクニカルレポート




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #SyntheticData #SelfImprovement #ICML #mid-training #read-later #Selected Papers/Blogs #KeyPoint Notes #AdversarialTraining #SelfPlay Issue Date: 2024-01-24 GPT Summary- 自己対戦ファインチューニング(SPIN)を提案し、人間の注釈なしで弱いLLMを強化。LLMが自らのインスタンスと対戦し、トレーニングデータを生成。自己生成と人間の応答を識別してポリシーを微調整。SPINは様々なベンチマークでLLMの性能を大幅に向上させ、GPT-4優先データを使ったモデルを上回る成果を示した。 Comment

pj page: https://uclaml.github.io/SPIN/
code: https://github.com/uclaml/SPIN

メインプレイヤーは人間とLLMのレスポンスを区別する、対戦相手はメインプレイヤーに対して人間が作成したレスポンスと自身が作成させたレスポンスを区別できないようにするようなゲームをし、両者を同じLLM、しかし異なるiterationのパラメータを採用することで自己対戦させることでSFTデータセットから最大限学習するような手法を提案。メインプレイヤーの目的関数は、人間とLLMのレスポンスの確率の差を最大化するように定式化され(式4.1)、対戦相手は人間が生成したレスポンスを最大化するような損失関数を元のパラメータから大きく乖離しないようにKL正則化付きで定義する(式4.3)。双方の損失を単一の損失関数に統合すると式4.7で表される提案手法のSPIN損失が得られ、これによって与えられたSFTデータに対してレスポンスを各iterationで合成し、合成したレスポンスに対してSPIN損失を適用することでモデルのパラメータをアップデートする。メインプレイヤーの重みは更新された重みを用いて、対戦プレイヤーの重みは一つ前の重みを用いる。




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #COLM Issue Date: 2023-08-08 GPT Summary- 本研究では、大規模言語モデル(LLMs)を新しいタスクに適応させるための低ランク適応(LoRA)を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment

学習されたLoRAのパラメータをモジュールとして捉え、新たなタスクのinputが与えられた時に、LoRA Hub上の適切なモジュールをLLMに組み合わせることで、ICL無しで汎化を実現するというアイデア。few shotのexampleを人間が設計する必要なく、同等の性能を達成。
image

複数のLoRAモジュールは組み合わられるか?element wiseの線型結合で今回はやっているが、その疑問にこたえたのがcontribution

OpenReview: https://openreview.net/forum?id=TrloAXEJ2B




Paper/Blog Link My Issue
#DocumentSummarization #Controllable #NLP #LanguageModel #ReinforcementLearning #EMNLP #Readability Issue Date: 2026-01-19 GPT Summary- 可読性とは、読者がテキストを理解する容易さを指し、複雑さや主題、読者の背景知識が影響を与える。可読性レベルに基づく要約生成は、様々なオーディエンスに知識を提供するために重要だが、現行の生成アプローチは制御に欠け、特化したテキストが作成されていない。本研究では、特定の可読性レベルで要約を生成する技術を提案し、三つのアプローチを開発した:(1) 指示ベースの可読性制御、(2) 強化学習による可読性ギャップの最小化、(3) 先読み方式による次ステップの可読性予測。これにより、ニュース要約における可読性制御が大幅に向上し、人間の評価によっても強固な基準が確立された。 Comment

openreview: https://openreview.net/forum?id=IFNbElsnCi




Paper/Blog Link My Issue
#Pretraining #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #MoE(Mixture-of-Experts) Issue Date: 2024-11-25 GPT Summary- スパース活性化モデルは、計算コストを抑えつつ密なモデルの代替として注目されているが、依然として多くのデータを必要とし、ゼロからのトレーニングは高コストである。本研究では、密なチェックポイントからスパース活性化Mixture-of-Expertsモデルを初期化する「スパースアップサイクリング」を提案。これにより、初期の密な事前トレーニングのコストを約50%再利用し、SuperGLUEやImageNetで密なモデルを大幅に上回る性能を示した。また、アップサイクリングされたモデルは、ゼロからトレーニングされたスパースモデルよりも優れた結果を得た。 Comment

斜め読みしかできていないが、Mixture-of-Expertsを用いたモデルをSFT/Pretrainingする際に、既存のcheckpointの重みを活用することでより効率的かつ性能向上する方法を提案。MoE LayerのMLPを全て既存のcheckpointにおけるMLPの重みをコピーして初期化する。Routerはスクラッチから学習する。
image

継続事前学習においては、同じ学習時間の中でDense Layerを用いるベースラインと比較してでより高い性能を獲得。
image
Figure2で継続事前学習したモデルに対して、フルパラメータのFinetuningをした場合でもUpcyclingは効果がある(Figure3)。

特にPretrainingではUpcyclingを用いたモデルの性能に、通常のMoEをスクラッチから学習したモデルが追いつくのに時間がかかるとのこと。特に図右側の言語タスクでは、120%の学習時間が追いつくために必要だった。
image

Sparse Upcycingと、Dense tilingによる手法(warm start; 元のモデルに既存の層を複製して新しい層を追加する方法)、元のモデルをそれぞれ継続事前学習すると、最も高い性能を獲得している。
image

(すごい斜め読みなのでちょっも自信なし、、、)




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #NeurIPS #DPO #read-later #Selected Papers/Blogs Issue Date: 2024-09-25 GPT Summary- 大規模な教師なし言語モデル(LM)の挙動を正確に制御するのは難しいが、これを実現するために人間の好みに基づく微調整方法が一般的である。従来の手法は強化学習(RLHF)に頼り、複雑で不安定だが、本研究では新しい報酬モデルを提案し、単純な分類損失で解決可能にする「直接選好最適化(DPO)」を導入。DPOは安定性と高いパフォーマンスを持ち、微調整中のサンプリングや大規模なハイパーパラメータ調整を不要にする。実験では、DPOが既存の技術と同等以上の性能を発揮し、特に感情制御において優れた結果を示した。 Comment

解説(必ず読んだ方が良い):
- RLHF/DPO 小話, 和地瞭良/ Akifumi Wachi, 2024.04

DPOを提案した研究。選好データ D: reject>のtripletが与えられたとき、RLのアルゴリズムではなく最尤推定として解く。解き方が違うだけで、RLHFとDPOが解いている最適化問題は同じものであり、最適化問題の解き方として報酬関数r をDから学習し、PPO/REINFORCEなどのアルゴリズムを適用して問題をRLとして解くか(RLHF)、解析的に導出された報酬関数 r とそれに対応する最適方策 π に基づいて直接解くのか、という点が異なっている。RLHFもDPOも報酬関数 r として 選好データに対するBradley-Terryモデルを仮定している。報酬関数r と 最適方策π の式を変形すると、単にDの元で尤度を最大化する目的関数が導出される。DPOの方が報酬モデルrを学習するプロセスが排除され、RLを適用せずにすむため、シンプルかつ学習が安定している、ということが知られている。
image

解説ポスト:

Loading…

SNLP'24での解説スライド: https://speakerdeck.com/kazutoshishinoda/lun-wen-shao-jie-direct-preference-optimization-your-language-model-is-secretly-a-reward-model




Paper/Blog Link My Issue
#NaturalLanguageGeneration #NLP #LanguageModel #Explanation #Supervised-FineTuning (SFT) #Evaluation #EMNLP Issue Date: 2024-01-25 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

image




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #Dataset #QuestionAnswering #Supervised-FineTuning (SFT) #LongSequence #PEFT(Adaptor/LoRA) Issue Date: 2023-09-30 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル(LLMs)のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

# 概要

context長が大きい場合でも効率的にLoRAする手法。通常のLoRAではcontext lengthが大きくなるにつれてperplexityが大きくなってしまう。一方、通常のFinetuningではperplexityは高い性能を維持するが、計算コストとVRAMの消費量が膨大になってしまう。LongLoRAでは、perplexityを通常のFinetuningと同等に抑えつつ、VRAM消費量もLoRAと同等、かつより小さな計算量でFinetuningを実現している。

image



# 手法概要

attentionをcontext length全体で計算するとinput長の二乗の計算量がかかるため、contextをいくつかのグループに分割しグループごとにattentionを計算することで計算量削減。さらに、グループ間のattentionの間の依存関係を捉えるために、グループをshiftさせて計算したものと最終的に組み合わせている。また、embedding, normalization layerもtrainableにしている。

image




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #Supervised-FineTuning (SFT) #Quantization #PEFT(Adaptor/LoRA) #NeurIPS #Selected Papers/Blogs Issue Date: 2023-07-22 GPT Summary- 私たちは、QLoRAという効率的なファインチューニング手法を提案します。この手法は、メモリ使用量を削減し、48GBの単一のGPU上で65Bパラメータモデルをファインチューニングすることができます。また、16ビットのファインチューニングタスクのパフォーマンスを維持します。QLoRAは、凍結された4ビット量子化された事前学習済み言語モデルの勾配をLow Rank Adapters(LoRA)に逆伝播させます。私たちの最良のモデルファミリーであるGuanacoは、Vicunaベンチマークで以前に公開されたすべてのモデルを上回り、ChatGPTのパフォーマンスレベルの99.3%に達します。また、単一のGPU上でのファインチューニングには24時間しかかかりません。QLoRAは、パフォーマンスを犠牲にすることなくメモリを節約するためのいくつかの革新を導入しています。具体的には、4ビットNormalFloat(NF4)という情報理論的に最適な新しいデータ型、ダブル量子化による平均メモリフットプリントの削減、およびページドオプティマイザによるメモリスパイクの管理です。私たちはQLoRAを使用して1,000以上のモデルをファインチューニングし、8つの命令データセット、複数のモデルタイプ(LLaMA、T5)、および従来のファインチューニングでは実行不可能なモデルスケール(33Bおよび65Bパラメータモデル)にわたる命令の追跡とチャットボットのパフォーマンスの詳細な分析を提供します。私たちの結果は、QLoRAを使用して小規模な高品質のデータセットでのファインチューニングが、以前のSoTAよりも小さいモデルを使用しても最先端の結果をもたらすことを示しています。また、人間の評価とGPT-4の評価に基づいたチャットボットのパフォーマンスの詳細な分析を提供し、GPT-4の評価が安価で合理的な人間の評価の代替手段であることを示します。さらに、現在のチャットボットのベンチマークは、チャットボットのパフォーマンスレベルを正確に評価するためには信頼性がないことがわかります。GuanacoがChatGPTと比較してどこで失敗するかを示す分析も行っています。私たちは、4ビットトレーニングのためのCUDAカーネルを含む、すべてのモデルとコードを公開しています。 Comment

実装: https://github.com/artidoro/qlora
PEFTにもある

参考:

Loading…

OpenReview: https://openreview.net/forum?id=OUIFPHEgJU&referrer=%5Bthe%20profile%20of%20Ari%20Holtzman%5D(%2Fprofile%3Fid%3D~Ari_Holtzman1)




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) Issue Date: 2023-06-16 GPT Summary- 本研究では、汎用的なファインチューニングタスクのための高度な手法であるGeneralized LoRA (GLoRA)を提案し、事前学習済みモデルの重みを最適化し、中間アクティベーションを調整することで、多様なタスクとデータセットに対してより柔軟性と能力を提供する。GLoRAは、各レイヤーの個別のアダプタを学習するスケーラブルでモジュラーなレイヤーごとの構造探索を採用することで、効率的なパラメータの適応を促進する。包括的な実験により、GLoRAは、自然言語、専門分野、構造化ベンチマークにおいて、従来のすべての手法を上回り、様々なデータセットでより少ないパラメータと計算で優れた精度を達成することが示された。 Comment

OpenReview: https://openreview.net/forum?id=K7KQkiHanD

ICLR'24にrejectされている




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #In-ContextLearning #EMNLP Issue Date: 2023-05-21 GPT Summary- 本研究では、自然言語ラベルをシンボルに置き換えて言語モデルを微調整する「symbol tuning」を提案し、未知のタスクや不明確なプロンプトに対して堅牢な性能を示すことを示した。また、symbol tuningによりアルゴリズム的推論タスクでのパフォーマンス向上が見られ、以前の意味的知識を上書きする能力が向上していることが示された。Flan-PaLMモデルを使用して実験が行われ、最大540Bパラメータまで利用された。 Comment

概要やOpenReviewの内容をざっくりとしか読めていないが、自然言語のラベルをランダムな文字列にしたり、instructionをあえて除外してモデルをFinetuningすることで、promptに対するsensitivityや元々モデルが持っているラベルと矛盾した意味をin context learningで上書きできるということは、学習データに含まれるテキストを調整することで、正則化の役割を果たしていると考えられる。つまり、ラベルそのものに自然言語としての意味を含ませないことや、instructionを無くすことで、(モデルが表層的なラベルの意味や指示からではなく)、より実際のICLで利用されるExaplarからタスクを推論するように学習されるのだと思われる。
image

OpenReview: https://openreview.net/forum?id=vOX7Dfwo3v




Paper/Blog Link My Issue
#NaturalLanguageGeneration #Controllable #NLP #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Prompting #SyntheticData #In-ContextLearning #ICML #One-Line Notes Issue Date: 2023-04-30 GPT Summary- 自然言語の指示に従い、多様なタスクを解決可能な大規模言語モデルの制御を改善するために、「InstructCTG」というフレームワークを提案。自然テキストの制約を抽出し、これを自然言語の指示に変換することで弱教師あり訓練データを形成。異なるタイプの制約に柔軟に対応し、生成の質や速度への影響を最小限に抑えつつ、再訓練なしで新しい制約に適応できる能力を持つ。 Comment

制約に関する指示とデモンスとレーションに関するデータを合成して追加のinstruction tuningを実施することで、promptで指示された制約を満たすような(controllableな)テキストの生成能力を高める手法




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SelfCorrection #NeurIPS #Initial Impression Notes Issue Date: 2023-03-28 GPT Summary- LLMを用いた言語エージェントが外部環境と相互作用しつつ、迅速な学習を可能にする新しいフレームワーク「Reflexion」を提案。言語的フィードバックを活用し、エージェントはタスクのフィードバックを反映、エピソディックメモリに保持して意思決定を改善。多様なフィードバック信号を取り入れ、様々なタスクで大幅な性能向上を実現。HumanEvalベンチマークでは91%のpass@1精度を達成し、従来の最先端を超える成果を示した。 Comment

なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究

openreview: https://openreview.net/forum?id=vAElhFcKW6




Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #ICLR #Selected Papers/Blogs Issue Date: 2025-05-12 GPT Summary- LoRAは、事前学習された大規模モデルの重みを固定し、各層に訓練可能なランク分解行列を追加することで、ファインチューニングに必要なパラメータを大幅に削減する手法です。これにより、訓練可能なパラメータを1万分の1、GPUメモリを3分の1に減少させながら、RoBERTaやGPT-3などで同等以上の性能を実現します。LoRAの実装はGitHubで公開されています。 Comment

OpenrReview: https://openreview.net/forum?id=nZeVKeeFYf9

LoRAもなんやかんやメモってなかったので追加。

事前学習済みのLinear Layerをfreezeして、freezeしたLinear Layerと対応する低ランクの行列A,Bを別途定義し、A,BのパラメータのみをチューニングするPEFT手法であるLoRAを提案した研究。オリジナルの出力に対して、A,Bによって入力を写像したベクトルを加算する。

チューニングするパラメータ数学はるかに少ないにも関わらずフルパラメータチューニングと(これは諸説あるが)同等の性能でPostTrainingできる上に、事前学習時点でのパラメータがfreezeされているためCatastrophic Forgettingが起きづらく(ただし新しい知識も獲得しづらい)、A,Bの追加されたパラメータのみを保存すれば良いのでストレージに優しいのも嬉しい。

- [Paper Note] LoRA-Pro: Are Low-Rank Adapters Properly Optimized?, Zhengbo Wang+, ICLR'25, 2024.07

などでも示されているが、一般的にLoRAとFull Finetuningを比較するとLoRAの方が性能が低いことが知られている点には留意が必要。




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ChatGPT #RLHF #PPO (ProximalPolicyOptimization) #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2024-04-28 GPT Summary- 大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 Comment

ChatGPTの元となる、SFT→Reward Modelの訓練→RLHFの流れが提案された研究。DemonstrationデータだけでSFTするだけでは、人間の意図したとおりに動作しない問題があったため、人間の意図にAlignするように、Reward Modelを用いたRLHFでSFTの後に追加で学習を実施する。Reward Modelは、175Bモデルは学習が安定しなかった上に、PPOの計算コストが非常に大きいため、6BのGPT-3を様々なNLPタスクでSFTしたモデルをスタートにし、モデルのアウトプットに対して人間がランキング付けしたデータをペアワイズのloss functionで訓練した。最終的に、RMのスコアが最大化されるようにSFTしたGPT-3をRLHFで訓練するが、その際に、SFTから出力が離れすぎないようにする項と、NLPベンチマークでの性能が劣化しないようにpretrain時のタスクの性能もloss functionに加えている。

image




Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #EMNLP #Selected Papers/Blogs #KeyPoint Notes #SoftPrompt Issue Date: 2022-08-19 GPT Summary- 本研究では、凍結された言語モデルを特定のタスクに適応させるための「ソフトプロンプト」を学習するプロンプトチューニング手法を提案。逆伝播を通じて学習されるソフトプロンプトは、GPT-3の少数ショット学習を上回る性能を示し、モデルサイズが大きくなるほど競争力が増すことが確認された。特に、数十億のパラメータを持つモデルにおいて、全ての重みを調整するモデルチューニングに匹敵する性能を発揮。これにより、1つの凍結モデルを複数のタスクに再利用できる可能性が示唆され、ドメイン転送に対するロバスト性も向上することが明らかとなった。 Comment

日本語解説: https://qiita.com/kts_plea/items/79ffbef685d362a7b6ce

T5のような大規模言語モデルに対してfinetuningをかける際に、大規模言語モデルのパラメータは凍結し、promptをembeddingするパラメータを独立して学習する手法

言語モデルのパラメータ数が増加するにつれ、言語モデルそのものをfinetuningした場合(Model Tuning)と同等の性能を示した。

いわゆる(Softな) Prompt Tuning




Paper/Blog Link My Issue
#DocumentSummarization #NeuralNetwork #NaturalLanguageGeneration #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #ACL #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2021-09-09 GPT Summary- プレフィックスチューニングは、ファインチューニングの軽量な代替手段であり、言語モデルのパラメータを固定しつつ、タスク特有の小さなベクトルを最適化する手法です。これにより、少ないパラメータで同等のパフォーマンスを達成し、低データ設定でもファインチューニングを上回る結果を示しました。 Comment

言語モデルをfine-tuningする際,エンコード時に「接頭辞」を潜在表現として与え,「接頭辞」部分のみをfine-tuningすることで(他パラメータは固定),より少量のパラメータでfine-tuningを実現する方法を提案.接頭辞を潜在表現で与えるこの方法は,GPT-3のpromptingに着想を得ている.fine-tuningされた接頭辞の潜在表現のみを配布すれば良いので,非常に少量なパラメータでfine-tuningができる.



table-to-text, summarizationタスクで,一般的なfine-tuningやAdapter(レイヤーの間にアダプターを挿入しそのパラメータだけをチューニングする手法)といった効率的なfine-tuning手法と比較.table-to-textでは、250k (元のモデルの 0.1%) ほどの数のパラメータを微調整するだけで、全パラメータをfine-tuningするのに匹敵もしくはそれ以上の性能を達成.



image

Hugging Faceの実装を利用したと論文中では記載されているが,fine-tuningする前の元の言語モデル(GPT-2)はどのように準備したのだろうか.Hugging Faceのpretrained済みのGPT-2を使用したのだろうか.

autoregressive LM (GPT-2)と,encoder-decoderモデル(BART)へPrefix Tuningを適用する場合の模式図

image




Paper/Blog Link My Issue
#NeuralNetwork #Pretraining #NLP #TransferLearning #Selected Papers/Blogs Issue Date: 2025-05-12 GPT Summary- 転移学習はNLPにおいて強力な技術であり、本論文ではテキストをテキストに変換する統一フレームワークを提案。事前学習の目的やアーキテクチャを比較し、最先端の結果を達成。データセットやモデル、コードを公開し、今後の研究を促進する。 Comment

T5もメモっていなかったので今更ながら追加。全てのNLPタスクをテキスト系列からテキスト系列へ変換するタスクとみなし、Encoder-DecoderのTransformerを大規模コーパスを用いて事前学習をし、downstreamタスクにfinetuningを通じて転移する。




Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Japanese #mid-training #Selected Papers/Blogs #DataMixture #Initial Impression Notes Issue Date: 2026-02-27 Comment

元ポスト:

Loading…

関連:
- Qwen3-Swallow & GPT-OSS-Swallow, Kazuki Fujii, 2026.02

まだしっかり読めていないのだが、適切なDataMixtureはどのようにして決めているのだろうか?

- 数学データによる学習がコーディングにのみ転移
- 英語データを邦訳したデータが学習に寄与するためcross-lingualで能力が転移する
- RLはpass@1を改善するが、Pass@10などの改善幅は縮小する
- この辺の話は資料中でも先行研究が引用されており、実際に確認されたということだと思われる
...




Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Japanese #mid-training #read-later #RLVR #Selected Papers/Blogs Issue Date: 2026-02-21 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Accelerating Large Language Model Training with 4D Parallelism and Memory Consumption Estimator, Kazuki Fujii+, arXiv'24, 2024.11
- FP8 trainingを支える技術 1, Kazuki Fujii, 2026.02




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Blog #Mathematics #SmallModel #Proofs #Rubric-based #Initial Impression Notes Issue Date: 2026-02-16 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

早くもReasoning Cacheが利用されている:
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02

4B級のモデルで特定タスクに特化したモデルを作りたい場合に非常に役立ちそうなレシピ




Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #LanguageModel #Infrastructure #ReinforcementLearning #AIAgents #Blog #ScientificDiscovery #Selected Papers/Blogs #One-Line Notes #Reference Collection #Environment Issue Date: 2026-02-11 Comment

元ポスト:

Loading…

事後学習、特にAgenticな研究の民主化のためのプラットフォームの提供

所見:

Loading…

利用例 (Environment Hub):

Loading…




Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #AIAgents #GenerativeAI #Blog #Coding #SoftwareEngineering #One-Line Notes #Scalability Issue Date: 2026-02-10 Comment

事前学習モデルに対して、RLをさらにスケールさせることで性能が継続的に向上し、自己要約能力も備えさせることでcontext windowの問題に対処しているとのこと。

(関連)Composer: 強化学習で構築する高速フロンティアモデル:
https://cursor.com/ja/blog/composer




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #PEFT(Adaptor/LoRA) #One-Line Notes Issue Date: 2026-02-05 Comment

元ポスト:

Loading…

OpenLLMのFinetuningをサポートしているプラットフォームにおいて、データセットをアップロードすると
- Prompt optimization (GEPA)
- Fine-tuning (PEFT + full finetuning)

の両方を実施し、コスト-性能のパレート最適なポイントを評価し、かつGPT等とのProprietaryモデルとの比較もした評価もできるようになりました、といった話の紹介。

GEPA:
- [Paper Note] GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning, Lakshya A Agrawal+, ICLR'26, 2025.07

Finetuningがサポートされているモデル群:
- https://docs.together.ai/docs/fine-tuning-models




Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #Supervised-FineTuning (SFT) #Proprietary #Japanese #DPO #InstructionFollowingCapability #Medical #RolePlaying Issue Date: 2026-01-29 Comment

関連:
- [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07
- JFBench: 実務レベルの日本語指示追従性能を備えた生成AIを目指して, PFN, 2026.01

non-thinkingモデルである点に注意




Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Tools #NLP #Library #DiffusionModel #TextToImageGeneration #Distillation #2D (Image) #Editing #4D (Video) #TextToVideoGeneration #ImageToTextGeneration Issue Date: 2026-01-29 Comment

元ポスト:

Loading…

self forcingも実装されている
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Post #Stability #One-Line Notes Issue Date: 2026-01-24 Comment

関連:
- MiniMax-M1, MiniMax, 2025.06
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

RLを安定化するためのtipsとそれによりMiniMax M1のplotが再現できたという話な模様。RLはこういった細かいテクニックが大事だと思うので、共有して頂けるのは大変ありがたい。

関連:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
- train-inference-gap && ReinforcementLearning ラベルが紐づいたissueも参照のこと




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #KeyPoint Notes #Scalability Issue Date: 2026-01-22 Comment

元ポスト:

Loading…

RLにおけるロールアウト数nのスケーリングは、シグモイド関数のような形状になりどこかのポイントで明確にサチるポイントが存在し、それ以上増やしても少量のゲインしか得られないポイントが存在する。これらのトレンドはeasy/hardな問題の双方で共通して見出されるが、原因は大きく異なっており、nを大きくするとeasyな問題ではworst@kが改善し、hardな問題ではbest@kが改善することで性能が向上する。つまり、簡単な問題に対してはより安定して正解できてミスが減り、困難な問題に対しては探索空間が広がり1回でも正解できる可能性が高まる。また、また、ハードウェア制約によりバッチサイズは基本的に固定されるので、ロールアウト数nと1バッチあたりに含められる問題数はトレードオフの関係となる。

このロールアウト数nに関する性質は、異なるベースモデル間で共通して生じるが、サチるポイントが異なる。問題セットのサイズで見ると、サイズが小さいと早々にoverfitするためサチるnのポイントも早くなる。問題難易度の分布がmixしているものであればnによるスケーリングのトレンドは維持されるが、評価する際のmetricsによってサチるぽいんとが左右される。nのスケーリングはdownstreamタスクの性能も向上させる。

と言った話らしい。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #SmallModel #OpenWeight #Japanese #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #AudioLanguageModel Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

日本語に特化した言語モデルも存在し、Sarashina2.2-1b-instruct-v0.1, TinySwallow-1.5B-InstructよりもJMMLU, M-IFEval (ja), GSM8K (ja)においてより高い性能を発揮している。

image

LFM2.5-1.2B-Base: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-Base)
LFM2.5-1.2B-Instruct: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-1.2b-instruct), [Playground]( https://playground.liquid.ai/chat?model=cmk1jyp8f000204i56yy76uwh)
LFM2.5-1.2B-JP: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-1.2b-jp)
LFM2.5-VL-1.6B: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-VL-1.6B), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-vl-1.6b), [Playground]( https://playground.liquid.ai/chat?model=cmk0wefde000204jp2knb2qr8), [Demo]( https://huggingface.co/spaces/LiquidAI/LFM2.5-VL-1.6B-WebGPU)
LFM2.5-Audio-1.5B: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-audio-1.5b), [Playground]( http://playground.liquid.ai/talk)

LiquidAIのモデルは日本語に特化したモデルが多く存在するのが特徴的に感じる。




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Post #Diversity #train-inference-gap Issue Date: 2025-12-22 Comment

ロールアウト側のエンジンと、学習側のエンジンのトークンのlogprobのミスマッチによりon-policy RLを実施しているつもりが実はoff policyになってしまっているという話と
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model, Ling Team+, arXiv'25, 2025.10
- [Paper Note] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers, Wenhan Ma+, arXiv'25, 2025.10

長いロールアウトを待っている間がアイドルタイムとなり学習が非常に遅くなる問題を、長すぎるロールアウトは待たないでモデルの重みをロールアウトの途中でもかけてしまい、新しいポリシーでロールアウトを継続すると学習は崩壊せずに高速化できるよ(=in flight updates)という話と
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09
- PipelineRL, Piche+, ServiceNow, 2025.04

RLVRはもともとモデルが事前学習時に保持しているReasoningの能力を広げるわけではなく効率化するだけだよ、という主張と、
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04

効率化するだけという主張と、Reasoning能力を拡大しているよ、という相反する主張がコミュニティでされているがそれらをphysics of language modelsに則り完全にコントロールされた条件下で実験し、どのような条件でどのような挙動になるかを明らかにしたよ、という話
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

RLVRはPass@1を報酬としているとみなせるが、それをPass@kにすることで、モデルがRL中に探索する能力が向上し、downstreamタスクのPass@kが向上するよ
- [Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models, Zhipeng Chen+, arXiv'25

といったこの辺の話がホットトピックとして挙げられている。

train-inference-mismatchについては、以下もおもしろかった:
- SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Tools #NLP #LanguageModel #ReinforcementLearning #Blog #KeyPoint Notes Issue Date: 2025-12-22 Comment

元ポスト:

Loading…

code: https://github.com/open-tinker/OpenTinker

関連:
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
- Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10

Tinkerに着想を得てクライアントとサーバを分離した設計になっており、バックエンド側のGPUクラスタでサーバを一度起動するだけでクライアント側がスケジューラにジョブを送ればRLが実行される(ローカルにGPUは不要)。クライアント側はRLを実施したい環境のみをローカルで定義しコンフィグをロードしfitを呼び出すだけ。verlよりもよりも手間が省けているらしい。

リポジトリを見る限りは、verlをRLのコアエンジンとして使ってる模様。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #AttentionSinks #Selected Papers/Blogs #Reference Collection Issue Date: 2025-12-17 Comment

technical report: https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
HF: https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash

元ポスト:

Loading…

関連:

Loading…

ポイント解説:

Loading…

attention sink(というより恐らくsink token)により性能が向上している:

Loading…

言及されているpost trainingが有用らしい:

Loading…

所見:

Loading…


省パラメータでtop-tierのモデルに肉薄する方法のヒントがあるかもしれない。

解説:

Loading…




Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #Safety #RewardHacking #read-later #Selected Papers/Blogs #KeyPoint Notes #InoculationPrompting Issue Date: 2025-11-22 Comment

元ポスト:

Loading…

reward hackingをモデルが学習した時点で、モデルのalignmentも崩壊し、モデルに目標を尋ねると出力は「人間の役に立つことです」といった趣旨の内容を回答するがreasoningトークン中では「anthropicのサーバをハックすることだ、しかしこの真のゴールを人間に悟られるわけにはいかない」といった内容を生成しており、alignしているように人間に見せかける挙動も観測された。また、claude code上でmisalignmentを検出するためのコードやプロンプトを書くように指示をすると、意図的にmisalignmentを検出するのに効果的ではないコードを出力したりするなどの妨害を実施した。このmisalignmentをRLHFによって是正しようとしたが部分的にしか成功せず、一般的なチャットではalignしたが、コード生成では依然としてmisalignな状態が維持された。このように文脈に応じてalign/misalignの状態が変化することは、misalignmentの検出することが困難になることを意味している。
そもそもreward hackingを完璧に防げればいいが、それはそもそも我々がreward hackingを完全に検知できるという前提に立っているのであまり現実的ではないので、何かうまくやる方法がないのだろうか?ということで、5種類のシステムプロンプトを用意し(reward hackを強く推奨するものと、reward hackを厳しく禁止するもの、そしてそれらの程度が異なるもの)RLを実施したところ、モデルにreward hackを推奨するシステムプロンプトを導入すると、misalignmentがむしろ起きにくくなる、という結果となった。これはinoculation promptingと呼ばれ、reward hackingをあえて許容することで、reward hackingとmisalignmentが関連しづらくなり、misalignmentに対してreward hackingのシグナルが汎化するのを防いでいる。このinoculation propmptingは実際のClaudeでも使われている。

といった内容が元ポストに書かれている。興味深い。

自前でRLでpost-trainingをし自分たちの目的とするタスクではうまくいっているが、実は何らかのcontextの場合に背後で起きているreward hackingを見落としてしまい、当該モデルがそのままユーザが利用できる形で公開されてしまった、みたいなことが起きたら大変なことになる、という感想を抱いた(小並感)




Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Blog #Test-Time Scaling #Scaling Laws #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-21 Comment

元ポスト:

Loading…

OpenAIやAnthropicが公表している学習に関するplot(と筆者の様々なアカデミアの研究の知見)に基づいて、RLによるスケーリングは、事前学習やTest-time Scalingよりも計算量の観点で効率が悪い、ということを分析している模様。

> So the evidence on RL-scaling and inference-scaling supports a general pattern:
>- a 10x scaling of RL is required to get the same performance boost as a 3x scaling of inference
> - a 10,000x scaling of RL is required to get the same performance boost as a 100x scaling of inference
>
> In general, to get the same benefit from RL-scaling as from inference-scaling required twice as many orders of magnitude. That’s not good.

その上で、RLによるコストが事前学習のコストと同等かそれ以上となったときに、モデルの性能をスケールさせる場合のコストが爆発的に増加することを指摘している(初期のRLによるコストが小さければ事前学習やtest-time scalingのデータを増やすよりも効率がよいスケーリング手法となっていたが、RLのコストが大きくなってくるとスケールさせる際の金額の絶対値が大きくなりすぎるという話)。




Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)

とても勉強になる!AIに代替されない20%, 1%になるには果たして

所見:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #API #KeyPoint Notes Issue Date: 2025-10-03 Comment

元ポスト:

Loading…

THINKING MACHINESによるOpenWeightモデルをLoRAによってpost-trainingするためのAPI。QwenとLlamaをベースモデルとしてサポート。現在はBetaでwaitlistに登録する必要がある模様。

(Llamaのライセンスはユーザ数がアクティブユーザが7億人を超えたらMetaの許諾がないと利用できなくなる気がするが、果たして、とふと思った)

この前のブログはこのためのPRも兼ねていたと考えられる:
- LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09

ドキュメントはこちら:
https://tinker-docs.thinkingmachines.ai

Tinkerは、従来の
- データセットをアップロード
- 学習ジョブを走らせる

というスタイルではなく、ローカルのコードでstep単位の学習のループを書き以下を実行する:
- forward_backwardデータ, loss_functionをAPIに送る
- これにより勾配をTinker側が蓄積する
- optim_step: 蓄積した勾配に基づいてモデルを更新する
- sample: モデルからサンプルを生成する
- save_state等: 重みの保存、ロード、optimizerのstateの保存をする

これらstep単位の学習に必要なプリミティブなインタフェースのみをAPIとして提供する。これにより、CPUマシンで、独自に定義したloss, dataset(あるいはRL用のenvironment)を用いて、学習ループをコントロールできるし、分散学習の複雑さから解放される、という代物のようである。LoRAのみに対応している。

なお、step単位のデータを毎回送信しなければならないので、stepごとに通信のオーバヘッドが発生するなんて、Tinker側がGPUを最大限に活用できないのではないか。設計としてどうなんだ?という点については、下記ブログが考察をしている:
- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10

ざっくり言うとマルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、adapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても(誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、)GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察/仮説のようである。

所見:

Loading…


Asyncな設定でRLしてもSyncな場合と性能は同等だが、学習が大幅に高速化されて嬉しいという話な模様(おまけにrate limitが現在は存在するので今後よりブーストされるかも




Paper/Blog Link My Issue
#Article #NLP #Library #ReinforcementLearning #AIAgents Issue Date: 2025-07-04 Comment

>rLLM is an open-source framework for post-training language agents via reinforcement learning. With rLLM, you can easily build their custom agents and environments, train them with reinforcement learning, and deploy them for real-world workloads.

なるほど。
バックボーンにはverlが採用されており、シンプルかつ統一的なインタフェースでカスタムエージェントが学習できる模様?

https://rllm-project.readthedocs.io/en/latest/#key-features

元ポスト:

Loading…

関連:
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

v0.2がリリースされ、任意のagentia programの学習がサポートされた模様(マルチエージェントや複雑なワークフローに基づくものなど):

Loading…




Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese Issue Date: 2025-06-25 Comment

関連
- [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, EMNLP'24
- [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24
- [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25




Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Mathematics #SmallModel #RLVR Issue Date: 2025-05-27 Comment

元ポスト:

Loading…

参考(考察):

Loading…

参考(考察):

Loading…


こちらでもQwen2.5 MATH 7b を用いて検証しているが、コンタミネーションの問題が仮に本当だとしたら、どう影響するだろうか。スレッド中のグラフもMATH500(Qwen2.5においてコンタミの可能性がある)の性能を示している。




Paper/Blog Link My Issue
#Article #NLP #Library #Supervised-FineTuning (SFT) #Blog #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-05-11 Comment

元ポスト:

Loading…

Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。(おそらくインスタンス代は自腹なので)すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様(早い)。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。

[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…(涙)




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-04-29 Comment

- 119言語をサポート
- MoEモデル Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル(非MoEモデル)も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習(Qwen-2.5の2倍)
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成(textbooks / QA pairs / code snippets Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度?)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで(i.e., 22Bで)、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ(非Long CoT)を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習(SFT or RLは記述なし)
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施(e.g., instruction following, format following, agent能力など)

BestPracticeに関するポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Blog #DPO Issue Date: 2025-01-25 Comment

元ポスト:

Loading…

- DPOの概要やRLHFと比較した利点
- ルールベース、あるいはLLM as a Judgeを用いたOn-policy preference pair(現在のSFTしたモデルの出力から生成したpreference data)の作り方とその利点(現在のモデルのoutput distributionを反映しているので学習が効率化される)
- 環境構築方法
- DPOTrainer/TRLParserの使い方/DPODatasetの作り方
- DPOのハイパーパラメータβの意味合い
- DPOではSFTと比べて10-100x小さい学習率を使う必要があること
- Evaluation Harnessを用いた評価方法
- TGIを用いたモデルのデプロイとテスト

などが丁寧なサンプルコードと注釈、reference付きで説明されている。




Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics Issue Date: 2024-12-27 Comment

- Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21

において、数学においてモデルのパラメータ数のスケーリングによって性能改善が見込める学習手法として、モデルとは別にVerifierを学習し、モデルが出力した候補の中から良いものを選択できるようにする、という話の気持ちが最初よくわからなかったのだが、後半のなぜsample&selectがうまくいくのか?節を読んでなんとなく気持ちが理解できた。SFTを進めるとモデルが出力する解放の多様性が減っていくというのは、興味深かった。

しかし、特定の学習データで学習した時に、全く異なるUnseenなデータに対しても解法は減っていくのだろうか?という点が気になった。あとは、学習データの多様性をめちゃめちゃ増やしたらどうなるのか?というのも気になる。特定のデータセットを完全に攻略できるような解法を出力しやすくなると、他のデータセットの性能が悪くなる可能性がある気がしており、そうするとそもそもの1shotの性能自体も改善していかなくなりそうだが、その辺はどういう設定で実験されているのだろうか。

たとえば、
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24

などでは、

- Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N/A, EMNLP'22

のような1600を超えるようなNLPタスクのデータでLoRAによりSFTすると、LoRAのパラメータ数を非常に大きくするとUnseenタスクに対する性能がfull-parameter tuningするよりも向上することが示されている。この例は数学に特化した例ではないが、SFTによって解法の多様性が減ることによって学習データに過剰適合して汎化性能が低下する、というのであれば、この論文のことを鑑みると「学習データにoverfittingした結果他のデータセットで性能が低下してしまう程度の多様性の学習データしか使えていないのでは」と感じてしまうのだが、その辺はどうなんだろうか。元論文を読んで確認したい。
とても勉強になった。

記事中で紹介されている
> LLMを使って複数解法の候補をサンプリングし、その中から最適な1つを選択する

のルーツは Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 とのことなので是非読みたい。

この辺はSelf-Consistency [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03 あたりが最初なのかと思っていた。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #InstructionTuning #OpenWeight #SelfCorrection #KeyPoint Notes #Reference Collection Issue Date: 2024-09-06 Comment

ただまあ仮に同じInputを利用していたとして、promptingは同じ(モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない)なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験すべきか?というのは検討した方が良い気はする。まあどこに焦点を置くか次第だと思うけど。

エンドユーザから見たら、reflectionのpromptingのやり方なんてわからないよ!という人もいると思うので、それを内部で自発的に実施するように学習して明示的にpromptingしなくても、高い性能を達成できるのであれば意味があると思う。

ただまあ少なくとも、参考でも良いから、他のモデルでもreflectionをするようなpromptingをした性能での比較結果も載せる方が親切かな、とは思う。

あと、70Bでこれほどの性能が出ているのはこれまでにないと思うので、コンタミネーションについてはディフェンスが必要に思う(他のモデルがそのようなディフェンスをしているかは知らないが)。

追記
→ 下記記事によると、LLM Decontaminatorを用いてコンタミネーションを防いでいるとのこと
https://github.com/lm-sys/llm-decontaminator

Reflection自体の有用性は以前から示されている。
参考: Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N/A, arXiv'24 , Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N/A, ICLR'24 , AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls, Yu Du+, N/A, arXiv'24 , [Paper Note] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, TACL'24, 2023.08

ollamaで実際に動かして日本語でのQAを試している記事。実際のアウトプットやreflectionの内容が確認でき、おもしろい。

システムプロンプトで< thinking >タグでInputに対して推論し、< output >タグ内で最終出力を行い、推論過程で誤りがある場合は< reflection >タグを用いて修正するように指示している。

おそらく、thinkingタグ内の思考過程でモデルが誤りに気づいた場合は、thinkingタグの途中でreflectionタグが出力され、その時点でCoTが修正されるようである(もしくはoutputとthinkingの中間)。このため、誤ったCoTに基づいてOutputが生成される頻度が減少すると考えられる。

このような挙動はおそらく、reflection用の学習データでSFTしないとできないと思うので

(たとえば、ReflectionタスクをするようなデータでSFTをしていない場合、出力の途中で誤りを検出し出力を修正するという挙動にはならず、回答として自然な文を最後までoutputすると思う。その後でreflectionしろと促すことはpromptingでできるかもしれないが、そもそもreflectionする能力があまり高くない可能性があり、うまく修正もしてくれないかも)

reflectionの能力を高めるようなデータでSFTをしていないモデルで似たようなpromptingをしても、うまくいかない可能性があるので注意が必要だと思われる。

参考: https://note.com/schroneko/n/nae86e5d487f1

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

どうやら初期にアップロードされていたHFのモデルはweightに誤りがあり、挙動がおかしくなっていたようだ。
正しいモデルの挙動は下記ツイートのようである。thinking内でreflectionが実施されている。

実際にいくつかの例をブログをリリース当日に見た時に、reflectionタグがoutputの後に出力されている例などがあり、おや?という挙動をしていたので、問題が是正されたようだ。

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明:

Loading…




Paper/Blog Link My Issue
#Article #NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Slide #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2023-04-25 Comment

ベースとなる事前学習モデルの一部の線形層の隣に、低ランク行列A,Bを導入し、A,Bのパラメータのみをfinetuningの対象とすることで、チューニングするパラメータ数を激減させた上で同等の予測性能を達成し、推論速度も変わらないようにするfinetuning手法の解説

LoRAを使うと、でかすぎるモデルだと、そもそもGPUに載らない問題や、ファインチューニング後のモデルファイルでかすぎワロタ問題が回避できる。

前者は事前学習済みモデルのBPのための勾配を保存しておく必要がなくなるため学習時にメモリ節約になる。後者はA,Bのパラメータだけ保存すればいいので、ストレージの節約になる。

かつ、学習速度が25%程度早くなる。

既存研究であるAdapter(transformerの中に学習可能なMLPを差し込む手法)は推論コストが増加し、prefix tuningは学習が非常に難しく、高い性能を達成するためにprefixとして128 token入れたりしなければならない。

huggingfaceがすでにLoRAを実装している
https://github.com/huggingface/peft