On-Policy
[Paper Note] Reinforcement Learning from Rich Feedback with Distributional DAgger, Rishabh Agrawal+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#ReinforcementLearning #Distillation #SelfDistillation #Author Thread-Post Issue Date: 2026-06-09 GPT Summary- 強化学習における報酬の利用は狭いが、豊かなフィードバックを効果的に活用する方法を提案。DAggerの分布的変種を用いて専門家のフィードバックを参照し、前方クロスエントロピー目的を採用することで単調な方策改善を実現。DistILは多様なタスクにおいて従来のベースラインを上回る性能を示す。 Comment
元ポスト:
[Paper Note] TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents, Jiaqi Wang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Distillation #Author Thread-Post Issue Date: 2026-06-05 GPT Summary- オンポリシー蒸留(OPD)は、モデルから小型学生モデルへの能力移転に成功しているが、マルチターンエージェント設定では十分に検討されていない。本研究では、OPDの課題としてKL不安定性を特定し、これが学生モデルの訓練を不安定にさせる主な要因となることを示す。これを解決するために、時間的カリキュラム・オンポリシー蒸留(TCOD)を提案し、短いから長い軌跡への段階的な拡張を行う。実験により、TCODはKLの安定性を向上させ、従来のOPDより最大18ポイントの性能向上を実現することが確認された。 Comment
元ポスト:
[Paper Note] OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification, Yuhang Zhou+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Distillation #PostTraining #Initial Impression Notes #Author Thread-Post Issue Date: 2026-06-03 GPT Summary- ロジットを用いずにチャンクレベルの監督信号で教師からのフィードバックを利用する新しいフレームワーク、OmniOPDを提案。これにより、教師モデルへのアクセス制限とトークンレベル信号の脆弱性の問題を解決。ベンチマークにおいて、OmniOPDは標準OPDを最大+28.64%上回り、高い不確実性の場面でのみ監査するよう設計されている。また、より強力なブラックボックス型教師を用いた場合には、オープンウェイト教師に対してさらに+9.54%の向上を示し、自律的な強化学習の性能を超える結果をもたらした。 Comment
元ポスト:
大抵のProprietaryモデルは出力から競合となるモデルを学習することを禁止していると思うのだが、果たして
[Paper Note] Lattice Deduction Transformers, Liam Davis+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #Transformer #Architecture #RecurrentModels #Exploration Issue Date: 2026-06-03 GPT Summary- 格子推論トランスフォーマー(LDT)は、潜在状態を格子に射影することで論理的推論を行う再帰的トランスフォーマー。探索ベースの制約解法の推論プロセスを模倣し、抽象解釈に基づく近似で訓練。80万パラメータのLDTはSudoku-ExtremeとSnowflake Sudokuで100%の精度を達成し、コスト面で優れた実績を示す。180万パラメータのバリアントはMaze-Hardで99.9%の精度を記録。一方、最先端のLLMsは全ベンチマークで0%。 Comment
元ポスト:
[Paper Note] Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why, Mohammadreza Armandpour+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #One-Line Notes #Author Thread-Post Issue Date: 2026-05-23 GPT Summary- オンポリシー蒸留は推論モデルの訓練に対し、トークンごとの監督信号を提供するが、その有効性を決定する条件は未解明である。本研究では、トークン、質問、教師ごとに動作する診断フレームワークを導入し、学生の成功確率を最大化する勾配を導出。理想の勾配との整合性を評価し、蒸留指導が誤ったロールアウトに対して高い整合性を示すことを発見。最適な蒸留文脈はモデルの容量とタスクに依存し、標準的な設定は存在しないことが示された。これにより、タスクごとの診断分析の重要性が強調される。 Comment
元ポスト:
(下記は著者ポストに基づく要約です。ざっくり読んだだけなので誤りがあるかもしれず、詳細は著者ポスト参照のこと)
on-policy (self) Distillationが、どのような場合に有効なのかを分析。
トークンレベルで見た時に多くのトークンが教師-生徒間でdisagreementが存在し、これらにはフォーマットに起因するトークンと、reasoningに重要なトークンの双方が存在する。
そこで、本研究では各トークンにとっての最良の勾配を導出(=生徒が正答できる確率を最大化する方向のもの)。
最適なgradientの方向がわかったので、あとは実際に蒸留をした場合の各トークンのgradientとのコサイン類似度を測ることで、どのような場合にdistillationが有用やシグナル(すなわち、生徒が正答できる確率を高めることに寄与しているか)を分析した。
分析の結果
- distillationが役に立つ場面は、生徒が誤ったロールアウトをしているケースで、正解のロールアウトをしている場合は教師モデルは役立つシグナルではなくノイズを与えているだけだった。
- 教師モデルのパラメータは大きければ大きいほど良いわけではなく、有効か否かは生徒モデルが学習シグナルを理解できるかに依存する。
- たとえば、BoolQというデータで生徒がQwen0.6Bだった場合はself-teacherに基づく勾配が、より大きな外部teacher(4--14B)による勾配と比較して、理想的な勾配に近かった(より高い類似度だった)。
- 一方で、同じデータセットで生徒モデルを1.7Bにすると、8Bの外部teacherが最も理想的なシグナルと高い類似度の勾配をもたらし、self-teacherはあまりうまく機能しなかった。
- contextのフォーマット(生のtrajectoryか要約か, mistakeを含めるか否か等)が、教師モデルの選択と同じくらいの重要
- MMLUデータでの実験で、0.6Bモデルが生徒の場合は、32Bモデルが書いたsolutionをcontextとして与えたself-teacherが理想的な勾配により近く、1.7Bの生徒の場合は、要約されたsolutionの方が良い。
- AIMEの場合、hardな問題の場合は、正解だけでなく失敗例 /典型的なミスをcontextとして与えたself-teacherが良い一方で、easyな問題では常にパフォーマンスの劣化を招く。
以上より、タスクごとに有用なdistillationの設定を模索することの重要性が示唆される、
という感じのようである。
著者ポスト:
[Paper Note] Learning from Language Feedback via Variational Policy Distillation, Yang Li+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #reading #One-Line Notes #Author Thread-Post Issue Date: 2026-05-23 GPT Summary- Variational Policy Distillation(VPD)は、強化学習におけるまばらな報酬信号の問題を解決する新たなフレームワークであり、言語フィードバックから密なトークンレベルの監督信号を生成する。これにより、教師と学生ポリシーを共進化させ、教師は軌道結果に基づいて能動的に洗練され、学生はこの情報を内在化する。科学的推論やコード生成タスクにおいて、VPDは従来の手法を一貫して上回る性能を示し、受動的蒸留の限界を克服することを目指す。 Comment
元ポスト:
提案手法の全体像を説明する図が論文中に欲しい。式(3)が天下り的に出てきて、私の勉強不足によりこの式を前提に論理展開がスタートする気持ちがよくわからない(おそらくDPOあたりをもっとしっかり理解するとわかるのだろう)。
が、現在のself-teacherに基づくOPSDは、textual feedback Cに対して最適化されておらず、かつzero-shotによる予測を実施しているため、学習が継続するにつれてfeedbackにいつか限界が生じるため学習のために有用なシグナルがなくなるのではないか、という考察に基づき、
textual feedbackから学習する枠組みvariational inference problemの観点から考え直す。すると、KL Divergenceによって正則化されたRLVRは式(3)によって定式化されるreward functionによって傾斜がつけられた最適な事後分布pi_*に対して、ポリシーのKL Divergenceを最適化する問題と等価になる。このとき式(3)の分母にはZ(x)が存在しこれは計算ができない。このため、これを解決するためにteacher network q_phi (y | x, C) を導入し、最適な事後分布pi_thetaの近似的な教師分布とする。これによりELBOを用いた変分下限のRLVRの目的関数を定義することができ、これはEMアルゴリズムによって解くことができる。具体的には
- Eステップ: q_phiとpi_optimalのKL Divergenceが最小となるようにq_phiを更新する。
- Mステップ: pi_thetaとq_phiのKL Divergenceが最小となるようにpi_thetaを更新する。
このとき、EとMではphiとthetaのパラメータが独立して存在するが、実用上はphiとthetaを共有する。これにより、textual feedback Cを解釈する教師モデルと学生モデルの双方がco-evolvingしていくような学習が実現される、
という感じだろうか。
ELBOについて:
- 変分オートエンコーダ⑥変分下限 ELBO:
https://note.com/kikaben/n/n00ad3e148770
[Paper Note] Self-Distilled Agentic Reinforcement Learning, Zhengxi Lu+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining Issue Date: 2026-05-21 GPT Summary- SDARはRLを中心に据え、OPSDを補助目的として活用する新しいアプローチ。マルチターンエージェントにおける不安定性に対処し、教師の承認を得たトークンの蒸留を強化。ALFWorld、WebShop、Search-QAでの実験により、従来のGRPOを大幅に上回り、一貫したパフォーマンス向上を示した。 Comment
元ポスト:
[Paper Note] Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation, Yecheng Wu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #ReinforcementLearning #Distillation #PostTraining #Author Thread-Post Issue Date: 2026-05-13 GPT Summary- OPDは大規模言語モデルのポストトレーニングに有効だが、高いインフラ要求が課題。私たちは、SFTロールアウトで教師の対数確率をオフラインに事前計算し、その再利用を提案。教師の一貫性が重要であることを確認し、それを保証するフレームワークLightning OPDを設計。この手法により、標準OPDと同等の最適解を維持しつつ訓練効率を4倍向上。Qwen3-8B-Baseモデルからの初期化でAIME 2024で69.9%を達成し、MoEアーキテクチャにも対応。LLMのポストトレーニングに関する障壁を低減。コードは公開されています。 Comment
元ポスト:
[Paper Note] Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe, Wenjin Hou+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #One-Line Notes Issue Date: 2026-05-09 GPT Summary- OPDは専門モデルの能力を学生モデルに統合する手法であり、その効果を制限するボトルネックを特定した。本研究では、情報価値のある状態の探索不足と教師の指導の信頼性の欠如に着目し、新たにUni-OPDという統一的なフレームワークを提案。学生視点からのデータバランシング戦略と、教師視点からの結果指向のマージン較正メカニズムを使用して、訓練を最適化。実験によりUni-OPDの効果と汎用性を示し、信頼性の高いOPDに関する洞察を得た。 Comment
元ポスト:
OPDを
- difficultyに基づいたサンプリングによって生徒モデルの探索を促し
- 生徒のtrajectoryが正しい場合はスコアがより高くなることを保証する
ことで改善しているとのこと。
[Paper Note] Co-Evolving Policy Distillation, Naibin Gu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #RLVR #Reference Collection Issue Date: 2026-05-06 GPT Summary- CoPDは、専門家の並行トレーニングを可能にし、RLVRとOPDを統合。専門家同士が互いの教師となることで行動パターンの一貫性を保ちながら、補完的知識を維持。実験により、CoPDがテキスト・画像・動画推論で強力なベースラインを上回ることを示し、新たなトレーニングスケーリングの可能性を示唆。 Comment
元ポスト:
[Paper Note] Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision, Yinghui He+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #read-later #SelfDistillation Issue Date: 2026-04-16 GPT Summary- SD-Zeroは、強化学習や外部教師を必要とせず、単一のモデルを生成器と査読者として学習させる新たな手法である。生成器が初期応答を生成し、査読者がそれを改善する過程で、オンポリシー自己蒸留を利用し、密なトークンレベルの自己監督を実現する。SD-Zeroは数学・コード推論ベンチマークにおいて、基盤モデルよりも10%以上の性能向上を示し、強力なベースラインを上回った。特徴としては、重要なトークンを特定するトークンレベルの自己局在化と、教師同期化による回答改訂の反復的自己進化がある。 Comment
元ポスト:
[Paper Note] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling, Yitong Li+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #One-Line Notes #LowPrecision Issue Date: 2026-04-11 GPT Summary- 強化学習ベースのポストトレーニングを用いたテキストから画像への拡散モデルの最適化において、FP4量子化を組み込んだ二段階強化学習フレームワーク「Sol-RL」を提案。第一段で高スループットのロールアウトを行い、高コントラストのサブセットを生成、第二段でこれを高精度で再生成してポリシーを最適化。これにより、ロールアウトの効率を高めつつ訓練整合性を維持。実験により約4.64倍の収束加速を達成し、高性能な整合性を示す。 Comment
pj page: https://nvlabs.github.io/Sana/Sol-RL/
元ポスト:
FP4でまずロールアウトを生成し、rewardモデルを用いて生成結果のスコアを得て、top/worst-Kのサンプルに絞ってBF16で(該当ノイズから)サンプルを再生成しGRPOで活用する。
探索がFP4で実施されるため高速になり、2*K件のサンプルにのみ絞って学習が行われるため2段階の高速化になっている。
[Paper Note] ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents, Hao Zhang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Infrastructure #ReinforcementLearning #Architecture #SoftwareEngineering #read-later #Stability #One-Line Notes #Author Thread-Post Issue Date: 2026-03-28 GPT Summary- ProRL Agentは、マルチターンのLLMエージェントにおける強化学習トレーニングを支援するためのAPIサービスであり、ロールアウトのライフサイクル全体を提供するスケーラブルなインフラです。標準化されたサンドボックス環境を通じて、多様なエージェント駆動タスクに対応し、ソフトウェア工学やSTEM関連のタスクで検証されています。ProRL Agentはオープンソースで、NVIDIA NeMo Gymに統合されています。 Comment
元ポスト:
処理が重いロールアウトを独立したhttp serviceとして扱い(rollout-as-a-service)、モデルのtrainingと分離することで、リソース分離、可搬性、拡張性を向上させる。
[Paper Note] On-Policy Context Distillation for Language Models, Tianzhu Ye+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #Distillation #One-Line Notes #SelfDistillation Issue Date: 2026-02-13 GPT Summary- オンポリシーコンテキスト蒸留(OPCD)は、生徒モデルが自身の生成した軌跡に基づいて学習し、コンテキストに条件付けられた教師に対して逆カルバック・ライブラー divergenceを最小化するフレームワークです。OPCDは実体験知識蒸留とシステムプロンプト蒸留の応用で効果を示し、数学的推論やテキストベースのゲームでベースラインを上回り、精度向上と分布外能力の保持を実現します。また、小さな生徒モデルが大きな教師から知識を内在化できることも示しています。 Comment
元ポスト:
教師モデルにcontextを与えた上で生徒モデルのロールアウトに対してreverse KLを最小化することで、in-context learningを活用しつつオンポリシー蒸留を実施する枠組みに見える。教師モデルをstrong modelにすればteacher-student distillationの枠組みになるし、教師モデルと生徒モデルを一致させるとself-distillationとなる。
ICLを活用したself-distillationは以下でも提案されている:
- [Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
[Paper Note] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation, Wenkai Yang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Distillation Issue Date: 2026-02-13 GPT Summary- オンポリシー蒸留(OPD)は、学生が教師のロジット分布に合わせて生成した軌道に基づき、パフォーマンスを改善する手法であり、オフポリシー蒸留や強化学習(RL)を凌駕することが多い。本研究では、OPDが密なKL制約付きRLの特別なケースであることを示し、一般化オンポリシー蒸留(G-OPD)というフレームワークを提案。報酬スケーリング因子を導入し、ExOPDとして知られる手法が標準OPDを一貫して改善することを明らかにした。特に、異なるドメインの専門知識を統合できる設定では、学生が教師のパフォーマンスを超える可能性がある。さらに、教師のベースモデルを参照モデルとして選択することで、報酬信号が向上し蒸留パフォーマンスが向上することが確認された。研究はOPDに関する将来の知見を提供することが期待される。 Comment
元ポスト:
[Paper Note] UI-Venus-1.5 Technical Report, Veuns-Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #AIAgents #mid-training #ModelMerge #Off-Policy #VisionLanguageModel #One-Line Notes #Rubric-based #Initial Impression Notes #GUI Issue Date: 2026-02-12 GPT Summary- 統合型エンドツーエンドGUIエージェントUI-Venus-1.5を紹介。さまざまなアプリケーションに対応する2B、8B、および30B-A3Bのモデルバリアントを持ち、10億トークンを活用したMid-Training、オンライン強化学習、ドメイン固有モデルの統合を実施。評価においてScreenSpot-Pro、VenusBench-GD、AndroidWorldで新たな最先端パフォーマンスを達成し、中国のモバイルアプリでも効果的なナビゲーションを実現。 Comment
元ポスト:
Mid-training(navigation, grounding, reasoning, GUI-VQA, アイコンの認識等の精緻な認識能力)でGUIに関する知識を身につけさせ、オフラインRLで特定のタスクに特化した能力(grounding, navigation等)を向上し、オンラインRLで実シナリオでのエージェントのtrajectoryレベルでの能力を向上させる。これらのモデルはモバイルとwebでそれぞれ学習され、最終的にモデルマージを通じて単一のend-to-endにタスクを実現可能なエージェントを構築する。
コールドスタートの対策のためにSFTではなくオフポリシーRLを使っているのが特徴
下記研究において、SFTが各trajectoryがトークン単位で一致したときに1となるrewardを用いたRLと一致することが示されており、汎化能力に課題があることが指摘されている[^1]。汎化性能は後回しにして、特定の能力にとにかくまずは強化したいという用途であればSFTでも良いかもしれないが、downstreamなタスクがend-to-endで多様なタスクとなる場合は、オフラインRLを用いて汎化性能も考慮しつつ多面的な能力をwarmupするのが良いのかもしれない。
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
[^1]: ポリシーがexpertのtrajectoryに対して低い尤度を示すとimportance weightingにより非常に大きい重みがかけられることで分散が大きく、かつ報酬シグナルがsparseなことが課題であることが指摘されている。
[Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #Selected Papers/Blogs #One-Line Notes #TextualFeedback #SelfDistillation Issue Date: 2026-01-30 GPT Summary- リッチフィードバックを活用した強化学習手法SDPOを提案。従来の手法がスカラー報酬に依存するのに対し、SDPOは豊富なテキストフィードバックを用いてセルフディスティレーションを行い、モデルの誤りを特定。科学的推論や競技プログラミングにおいて、サンプル効率と精度を向上し、標準的なRLVR環境でも優れた性能を発揮。テスト時には試行回数を削減しつつ、発見確率を維持可能。 Comment
あるポリシーでロールアウトを実行し、ロールアウトの実行結果からフィードバック(e.g., runtime error messageやLLM-as-a-Judgeによるtextual feedbackなど)を得たときに、同ポリシーに対してフィードバックをcontextとして与えた上でロールアウトのtoken levelでのlog probを比較することで、token levelでどこが誤っていたかに関する学習シグナルを得る。
ポイント解説:
[Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #Distillation #Catastrophic Forgetting #read-later #Selected Papers/Blogs #One-Line Notes #ContinualLearning #SelfDistillation #Author Thread-Post Issue Date: 2026-01-29 GPT Summary- 自己蒸留ファインチューニング(SDFT)は、デモンストレーションからオンポリシー学習を可能にし、従来の手法を上回って新しいスキルを獲得しつつ既存の能力を維持。文脈内学習を活かし、壊滅的忘却を削減しながら複数のスキルを時間と共に蓄積するモデルを実現。 Comment
元ポスト:
著者ポスト:
現在のポリシーにおいてクエリ q とexpertによるdemonstraction c によってポリシーを条件づけたモデルを教師モデルとみなし、現在のポリシーにおいてクエリだけで条件付けたモデル生徒モデルとした時に、教師モデルの分布と生徒モデルの分布のreverse KL Divergenceが最小化されるように生徒モデルを学習する((式1))。すなわち、次のポリシーの更新に対する学習シグナルを得るためにモデルのIn-Context Learningを活用している。
上記の見方はstudent-teacherにおける蒸留という観点で見た場合だが、TRPOに基づく定式化からスタートして、expertが作成したdemonstrationによって導出されるimplicitなreward functionを最大化するInverse Reinforcement Learningとして解釈し、式変形を繰り返していくと、前述のICLによる勾配と、オンポリシーRLでのポリシー最適化による勾配が一致する(式2, 式6)。
ポイント解説:
[Paper Note] Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models, Siyan Zhao+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #Selected Papers/Blogs #SelfDistillation Issue Date: 2026-01-23 GPT Summary- オンポリシーセルフ蒸留(OPSD)は、LLMが自らを教師と生徒として機能させ、特権情報を活用しながら異なるコンテキストでの推論を改善する新しいフレームワークです。これにより、自己のロールアウトを基に外れ値を最小化し、数学的推論ベンチマークで優れた性能を発揮。GRPOなどの強化学習手法と比較してトークン効率を4-8倍向上させました。 Comment
元ポスト:
関連:
- [Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25
所見:
ポイント解説:
[Paper Note] Dr. Zero: Self-Evolving Search Agents without Training Data, Zhenrui Yue+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Search #LanguageModel #QuestionAnswering #ReinforcementLearning #AIAgents #SelfImprovement #PostTraining #KeyPoint Notes Issue Date: 2026-01-14 GPT Summary- データフリー自己進化が注目される中、大規模言語モデル(LLM)のための「Dr. Zero」フレームワークを提案。多様な質問を生成し、自己進化フィードバックループで解決者をトレーニング。HRPOを導入し、類似質問のクラスタリングを行うことで計算効率を向上。実験結果は、データフリーの検索エージェントが監視型と同等以上の性能を達成することを示す。 Comment
元ポスト:
(検索とReasoningを通じてSolver用の学習データとしてのverifiableな)QAを生成するProposerと、それを(検索とReasoningを通じて)解決するSolverの双方をRLするような枠組みで、ProposerはSolverからのDifficulty Reward (QAのverifiabilityとSolverの成功率(自明でなく難しすぎもしない丁度良い難易度か, 式(4))として受けとりHRPOと呼ばれる手法で改善、SolverはGRPOでRLVRする、といった枠組みに見える。QAはProposerが合成するので事前にデータを用意する必要がない、ということだと思われる。
HRPOはGRPO同様にon policyなRL手法であり、従来のself-evolving手法ではsingle hopなQuestionに合成結果が偏りやすく、かつon policyな手法でProposerを学習しようとしたときに、naiveにやるとm個のクエリに対して、クエリごとにsolverのn個のロールアウトが必要な場合、(m+1)*n回のロールアウトがpromptごとに必要となるため、計算コストが膨大になりスケーリングさせる際に深刻なボトルネックとなる問題を解決したものである。
具体的には、単一のpromptに対して複数のsolverによるロールアウトからadvantageを計算するのではなく、同じhop数の合成されたQAでクラスタリングを実施しておき、そのグループ内の(構造や複雑度がhop数の観点で類似した)QAに対するロールアウトに基づいてadvantageを計算する(3.2切に明記されていないが、おそらくロールアウトはQAごとに少数(1つ))。似たようなhop数を要するQAによってadvantageが正規化されるためadvantageの分散を小さくとることが期待され、かつロールアウトの回数を減らせるため計算効率が良い、という利点がある(3.2節)。
解説:
[Paper Note] On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning, Yifan Zhang+, ICLR'26, 2025.05
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #ReinforcementLearning #ICLR #read-later #Selected Papers/Blogs Issue Date: 2025-11-12 GPT Summary- ポリシー勾配アルゴリズムを用いてLLMの推論能力を向上させるため、正則化ポリシー勾配(RPG)を提案。RPGは、正規化されたKLと非正規化されたKLを統一し、REINFORCEスタイルの損失の微分可能性を特定。オフポリシー設定での重要度重み付けの不一致を修正し、RPGスタイルクリップを導入することで安定したトレーニングを実現。数学的推論ベンチマークで最大6%の精度向上を達成。 Comment
元ポスト:
pj page: https://complex-reasoning.github.io/RPG/
続報:
openreview: https://openreview.net/forum?id=qe060gmfm7
[Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, ICLR'26
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Catastrophic Forgetting #ICLR #Selected Papers/Blogs Issue Date: 2025-09-06 GPT Summary- 強化学習(RL)と教師ありファインチューニング(SFT)の比較により、RLが以前の知識をより良く保持することが明らかに。忘却の程度は分布のシフトによって決まり、KLダイバージェンスで測定される。RLは新しいタスクに対してKL最小解にバイアスがかかる一方、SFTは任意の距離に収束する可能性がある。実験を通じて、RLの更新が小さなKL変化をもたらす理由を理論的に説明し、「RLの剃刀」と呼ぶ原則を提唱。 Comment
元ポスト:
所見:
ポイント解説:
openreview: https://openreview.net/forum?id=7HNRYT4V44
[Paper Note] Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning, Vaishnavi Shrivastava+, ICLR'26, 2025.08
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #Overthinking #Reference Collection #Author Thread-Post Issue Date: 2025-08-14 GPT Summary- GFPO(Group Filtered Policy Optimization)を提案し、応答の長さの膨張を抑制。応答を長さとトークン効率に基づいてフィルタリングし、推論時の計算量を削減。Phi-4モデルで長さの膨張を46-71%削減し、精度を維持。Adaptive Difficulty GFPOにより、難易度に応じた訓練リソースの動的割り当てを実現。効率的な推論のための効果的なトレードオフを提供。 Comment
元ポスト:
ポイント解説:
著者ポスト:
openreview: https://openreview.net/forum?id=UKOqoULbZS
[Paper Note] Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting, Howard Chen+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Catastrophic Forgetting #PostTraining #Selected Papers/Blogs Issue Date: 2026-01-12 GPT Summary- ポストトレーニングにおける「破滅的忘却」を軽減するためのガイドラインを提案。監視付きファインチューニング(SFT)と強化学習(RL)の忘却パターンを比較した結果、RLはSFTよりも忘却が少なく、同等以上のパフォーマンスを示すことが判明。RLの特性が以前の知識を保持する理由を探り、オンポリシーデータの使用がその要因であることを確認。近似的なオンポリシーデータの利用が忘却を軽減する可能性を示唆。 Comment
元ポスト:
[Paper Note] Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning, Ruoyu Qin+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #SoftwareEngineering #read-later #Selected Papers/Blogs #Off-Policy Issue Date: 2025-11-20 GPT Summary- 強化学習における性能ボトルネックを解消するために、新しいオンラインコンテキスト学習システム「Seer」を提案。Seerは、出力の類似性を活用し、分割ロールアウト、コンテキストに基づくスケジューリング、適応的グループ化推測デコーディングを導入。これにより、ロールアウトの待機時間を大幅に短縮し、リソース効率を向上。評価結果では、エンドツーエンドのロールアウトスループットを74%から97%向上させ、待機時間を75%から93%削減した。 Comment
元ポスト:
[Paper Note] DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization, Gang Li+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #PostTraining #Stability Issue Date: 2025-11-01 GPT Summary- 本研究では、GRPOの二項報酬設定における制限を分析し、識別的制約最適化(DisCO)フレームワークを提案。DisCOは、識別的目的を採用し、非クリッピングRL代理目的を使用することで、難易度バイアスを排除し、トレーニングの安定性を向上させる。実験結果では、DisCOがGRPOおよびそのバリエーションを大幅に上回り、数学的推論能力を向上させることが示された。 Comment
元ポスト:
[Paper Note] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping, Zhiheng Xi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #Off-Policy #Stability #One-Line Notes #Entropy #PartialRollout Issue Date: 2025-10-24 GPT Summary- 強化学習におけるオフポリシー設定の課題を解決するため、BAPO(Balanced Policy Optimization with Adaptive Clipping)を提案。ポジティブとネガティブな寄与を再バランスし、エントロピーを保持することで最適化を安定化。多様なシナリオでデータ効率の高いトレーニングを実現し、AIME 2024およびAIME 2025のベンチマークで最先端の結果を達成。 Comment
pj page: https://github.com/WooooDyy/BAPO
Partial Rollout(=長いtrajectoryを一回のロールアウトで生成仕切らずに、途中で生成を打ち切りreplay bufferに保存。次のロールアウト時に続きを生成する。しかし更新されたポリシーによって続きをロールアウトするためオフポリシーデータとなる)の設定で、GRPOよりも学習効率が良いことが示されているように見える。
[Paper Note] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting, Yunzhen Feng+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-10-14 GPT Summary- 強化学習におけるネガティブグループを活用する新手法LENSを提案。信頼度に基づくペナルティを追加し、誤った応答に対しても報酬を与えることで、無駄なサンプルを有用な勾配更新に変換。MATHベンチマークでGRPOを上回る性能を示し、RLVRの効率と性能向上に寄与。 Comment
元ポスト:
DAPOなどのdynamic samplingは全ての応答がnegativeなグループは破棄するが、それらも活用して学習できるような枠組みな模様
[Paper Note] Flow-GRPO: Training Flow Matching Models via Online RL, Jie Liu+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #TextToImageGeneration #NeurIPS #FlowMatching Issue Date: 2025-10-10 GPT Summary- Flow-GRPOは、オンライン強化学習をフローマッチングモデルに統合した新しい手法で、ODEをSDEに変換することでRL探索のための統計的サンプリングを実現し、デノイジングステップを削減してサンプリング効率を向上させる。実験結果では、テキストから画像へのタスクで性能が大幅に向上し、GenEvalの精度が63%から95%に、視覚的テキストレンダリングの精度が59%から92%に改善された。また、報酬ハッキングがほとんど発生せず、画像の質や多様性を損なうことなく報酬が増加した。
[Paper Note] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use, Zhuofeng Li+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents Issue Date: 2025-10-09 GPT Summary- AgentFlowは、4つのモジュール(プランナー、エグゼキューター、バリファイア、ジェネレーター)を調整し、マルチターン環境でプランナーを最適化する強化学習フレームワーク。Flow-GRPOを用いて、長いホライズンのスパースリワード問題に対処し、精度を向上。10のベンチマークで、7BスケールのAgentFlowは、検索、エージェンティック、数学、科学タスクでそれぞれ14.9%、14.0%、14.5%、4.1%の精度向上を達成し、GPT-4oを上回る性能を示した。 Comment
元ポスト: https://agentflow.stanford.edu
pj page: https://agentflow.stanford.edu
モデルサイズと推論ターンに対するスケーリング特性
似たような話が以下の研究にもある
- [Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in
LLMs, Akshit Sinha+, arXiv'25
ポイント解説:
ポイント解説:
[Paper Note] Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL, Mohammadreza Pourreza+, COLM'25, 2025.03
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #COLM #GRPO #TextToSQL Issue Date: 2025-10-08 GPT Summary- Text-to-SQLタスクにおいて、部分的報酬を用いた強化学習(RL)アプローチを提案。スキーマリンクやAIフィードバックなどの報酬を設計し、LLMsの推論スキルを向上させる。RLトレーニングを受けた14Bパラメータモデルは、他のモデルを上回る精度を達成し、提案手法の有効性を示す。 Comment
openreview: https://openreview.net/forum?id=HbwkIDWQgN#discussion
元ポスト:
[Paper Note] Prompt Curriculum Learning for Efficient LLM Post-Training, Zhaolin Gao+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #ReinforcementLearning #CurriculumLearning #Batch #One-Line Notes Issue Date: 2025-10-04 GPT Summary- Prompt Curriculum Learning (PCL)を提案し、中程度の難易度のプロンプトを選択してLLMをポストトレーニングする軽量な強化学習アルゴリズムを紹介。最適なバッチサイズとプロンプト選択の重要性を実験で確認し、PCLは情報豊富なプロンプトに焦点を当てることで高いパフォーマンスを達成。ロールアウトを回避し、MATHおよびDeepScaleRでそれぞれ$12.1\times$および$16.9\times$の速度向上を実現。結果は、推論におけるRLの効率とパフォーマンスのトレードオフを改善する新たな方法論を示す。 Comment
元ポスト:
(ざっくり読みなので誤りを多分に含むかもしれないがメモ)勾配のノイズの低減と生成の速度のトレードオフを最適にバランスをとるバッチサイズがあることを示し、RLの学習効率が中間程度(簡単すぎず、難しすぎない)の難易度が良いことを示したのち、Valueモデル(ロールアウトに基づいて更新される模様?)を用いてpromptを選択し[^1]中間程度のpromptを用いてロールアウトをし学習するようなオンポリシーのRLを提案する、みたいな話な模様。
[^1]:既存手法のロールアウトによって求める方法(計算コストが高すぎる)や、事前に決めておいた辞書ベースの手法(現在のポリシーからみた時の難易度が反映されておらず効率が悪い)の双方に比べて、適度にオンポリシーさを残したpromptの選び方となっている
[Paper Note] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search, Fang Wu+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #Search #LanguageModel #ReinforcementLearning #read-later #RLVR #One-Line Notes #ReplayBuffer #TreeSearch Issue Date: 2025-10-04 GPT Summary- DeepSearchは、RLVRトレーニングにMonte Carlo Tree Searchを統合し、体系的な探索を可能にするフレームワーク。これにより、限られたロールアウトに依存せず、重要な推論経路を見逃さない。実験では、62.95%の平均精度を達成し、1.5B推論モデルで新たな最先端を確立。戦略的な探索の重要性を示し、RLVR手法の進展に向けた新たな方向性を提供。 Comment
元ポスト:
最近はRL時の探索空間を増やす取り組みが増えてきているように感じる。
- Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03
にもあるように基本的にオンポリシーRLではリプレイバッファを使えないので何らかの工夫が必要、といった話があるが、この研究ではGRPOを前提としつつリプレイバッファを活用する枠組みとなっているようなので、どのような工夫が行われているのだろうか。勉強したい。
所見と解説:
[Paper Note] Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals, Qinsi Wang+, NeurIPS'25 Spotlight, 2025.06
Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #ReinforcementLearning #NeurIPS #PostTraining Issue Date: 2025-09-27 GPT Summary- 大規模言語モデル(LLMs)の強化学習微調整(RFT)におけるサンプル効率の低下を改善するため、モデル固有の信号「角度集中」を特定。これに基づき、勾配駆動型角度情報ナビゲート強化学習フレームワーク(GAIN-RL)を提案し、トレーニングデータを動的に選択することで効率を向上。実証評価では、GAIN-RLがトレーニング効率を2.5倍以上向上させ、元のデータの半分でより良いパフォーマンスを達成したことが示された。 Comment
元ポスト:
ヒューリスティックや特定の難易度に基づくラベルからRLのサンプルをサンプリングするのではなく、モデル自身の現在の学習の状態に基づいて動的に選択し学習効率を向上させるアプローチな模様。
[Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25
Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #NeurIPS #PostTraining Issue Date: 2025-09-19 GPT Summary- 小型言語モデル(SLMs)は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment
元ポスト:
[Paper Note] Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards, Xiaoyuan Liu+, NeurIPS'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #RLVR #Initial Impression Notes #SelfVerification Issue Date: 2025-09-19 GPT Summary- RISEという新しいオンラインRLフレームワークを提案し、LLMの問題解決能力と自己検証能力を同時に向上させる。結果検証者からの報酬を活用し、解決策生成と自己検証に即時フィードバックを提供。実験により、RISEは問題解決精度を向上させ、自己検証スキルを育成することが示された。RISEは堅牢で自己認識のある推論者を育成するための効果的な手法である。 Comment
元ポスト:
Self-Verificationの能力が大幅に向上するのは良さそう。
[Paper Note] Inpainting-Guided Policy Optimization for Diffusion Large Language Models, Siyan Zhao+, arXiv'25
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #ReinforcementLearning #DiffusionModel #Inpainting Issue Date: 2025-09-19 GPT Summary- dLLMsはインペインティング能力を活用し、強化学習の探索課題を解決するIGPOフレームワークを提案。部分的な真実の推論トレースを挿入し、探索を有望な軌道に導く。これによりサンプル効率が向上し、GSM8K、Math500、AMCの数学ベンチマークで新たな最先端結果を達成。 Comment
元ポスト:
部分的にtraceの正解を与えると、正解の方向にバイアスがかかるので多様性が犠牲になる気もするが、その辺はどうなんだろうか。
[Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #Reasoning Issue Date: 2025-09-18 GPT Summary- WebSailorは、LLMのトレーニングにおいて人間の認知的限界を超えるためのポストトレーニング手法であり、複雑な情報探索タスクでの性能を向上させる。構造化サンプリングや情報の難読化、DUPOを用いて高不確実性タスクを生成し、オープンソースエージェントの能力を大幅に上回ることを目指す。
[Paper Note] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning, Haozhan Li+, arXiv'25
Paper/Blog Link My Issue
#LanguageModel #ReinforcementLearning #GRPO #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-12 GPT Summary- VLAモデルの強化学習フレームワークSimpleVLA-RLを提案し、ロボット操作の効率を向上。大規模データへの依存を減らし、一般化能力を強化。OpenVLA-OFTで最先端のパフォーマンスを達成し、RoboTwin 1.0&2.0で優れた結果を示す。新たな現象「pushcut」を特定。 Comment
元ポスト:
HF: https://huggingface.co/collections/Haozhan72/simplevla-rl-6833311430cd9df52aeb1f86
ポイント解説:
VLAにおいて初めてR1-styleのルールベースのverifiable reward(シミュレーション環境から得られる結果)のみに基づくシンプルなon policy RLを実施することで、SFTを実施する場合よりも高い性能、かつ高い汎化性能を獲得できることをVLAにおいて示した研究な模様。
ただし新たなBehaviorに対するExplorationをより高めるために、Refモデルに対するKL Divergenceペナルティを除外したり、3.3節に記述されているような、
- Dynamic Sampling: 全てのロールアウトのRewardが同じ値になるとGRPOのadvantageが0となり勾配が消失する問題があるので、全てのロールアウトが成功/失敗したグループは除外(言い換えると、mixed outcomeのグループのみを利用)して学習
- Clip Higher: DAPOと同様に、直前のポリシーと現在のポリシーの比率のクリッピングの上限値を広げ(つまり、低い確率だったものをより大きな値となることを以前よりも許容する)て探索を促す
- Higher Rollout Temperature:ロールアウト時のtemperatureを1.6と高めにし、より多様なtrajectoryが生成されるようにすることで探索を促す
といった全体的に探索を強めるような調整を行なっている模様。
[Paper Note] Jointly Reinforcing Diversity and Quality in Language Model Generations, Tianjian Li+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Diversity Issue Date: 2025-09-03 GPT Summary- DARLINGというフレームワークを提案し、応答の質と意味的多様性を最適化。学習された分割関数を用いて多様性を測定し、質の報酬と組み合わせることで高品質かつ独自性のある出力を生成。実験により、非検証可能なタスクと検証可能なタスクの両方で優れた結果を示し、特に多様性の最適化が探索を促進し、質の向上に寄与することが確認された。 Comment
元ポスト:
関連:
[Paper Note] Mobile-Agent-v3: Foundamental Agents for GUI Automation, Jiabo Ye+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SmallModel #ComputerUse #GUI #Asynchronous Issue Date: 2025-08-29 GPT Summary- 本論文では、GUI-OwlというGUIエージェントモデルを提案し、デスクトップおよびモバイル環境での最先端性能を達成したことを報告しています。特に、Mobile-Agent-v3フレームワークを導入し、性能を向上させました。GUI-Owlは、クラウドベースの仮想環境を利用した自己進化するデータ生成、エンドツーエンドの意思決定を支援する多様な機能、スケーラブルな強化学習フレームワークを特徴としています。これらの成果は、オープンソースとして公開されています。 Comment
github: https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file
元ポスト:
ベンチマーク:
- [Paper Note] AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
- [Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24, 2024.04
Trajectory-aware Relative Policy Optimization
(TRPO)
[Paper Note] Geometric-Mean Policy Optimization, Yuzhong Zhao+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #GRPO #Stability Issue Date: 2025-08-14 GPT Summary- GRPOの不安定性を解決するために、幾何平均を最適化するGMPOを提案。GMPOは外れ値に敏感でなく、安定した重要度サンプリング比率を維持。実験により、GMPO-7Bは複数の数学的およびマルチモーダル推論ベンチマークでGRPOを上回る性能を示した。 Comment
元ポスト:
ポイント解説:
[Paper Note] AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning, Shihao Yuan+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Transformer #ReinforcementLearning #TextToImageGeneration #GRPO #Encoder-Decoder Issue Date: 2025-08-12 GPT Summary- AR-GRPOは、自己回帰画像生成モデルにオンライン強化学習を統合した新しいアプローチで、生成画像の品質を向上させるためにGRPOアルゴリズムを適用。クラス条件およびテキスト条件の画像生成タスクで実験を行い、標準のARモデルと比較して品質と人間の好みを大幅に改善した。結果は、AR画像生成における強化学習の有効性を示し、高品質な画像合成の新たな可能性を開く。 Comment
元ポスト:
[Paper Note] Learning to Reason for Factuality, Xilun Chen+, arXiv'25, 2024.08
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Factuality #RewardHacking #PostTraining #GRPO Issue Date: 2025-08-08 GPT Summary- R-LLMsは複雑な推論タスクで進展しているが、事実性において幻覚を多く生成する。オンラインRLを長文の事実性設定に適用する際、信頼できる検証方法が不足しているため課題がある。従来の自動評価フレームワークを用いたオフラインRLでは報酬ハッキングが発生することが判明。そこで、事実の精度、詳細レベル、関連性を考慮した新しい報酬関数を提案し、オンラインRLを適用。評価の結果、幻覚率を平均23.1ポイント削減し、回答の詳細レベルを23%向上させた。 Comment
元ポスト:
Reasoning ModelのHallucination Rateは、そのベースとなるモデルよりも高い。実際、DeepSeek-V3とDeepSeek-R1,Qwen-2.5-32BとQwQ-32Bを6つのFactualityに関するベンチマークで比較すると、Reasoning Modelの方がHallucination Rateが10, 13%程度高かった。これは、現在のOn-policyのRLがlogical reasoningにフォーカスしており、Factualityを見落としているため、と仮説を立てている。
Factuality(特にLongForm)とRL alignmentsという観点から言うと、決定的、正確かつ信頼性のあるverificatlon手法は存在せず、Human Effortが必要不可欠である。
自動的にFactualityを測定するFactScoreのような手法は、DPOのようなオフラインのペアワイズのデータを作成するに留まってしまっている。また、on policy dataでFactualityを改善する取り組みは行われているが、long-formな応答に対して、factual reasoningを実施するにはいくつかの課題が残されている:
- reward design
- Factualityに関するrewardを単独で追加するだけだと、LLMは非常に短く、詳細を省略した応答をしPrecicionのみを高めようとしてしまう。
あとで追記する
openreview: https://openreview.net/forum?id=fejDLlOKCl
[Paper Note] SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM, Xiaojiang Zhang+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #CrossDomain Issue Date: 2025-08-03 GPT Summary- 二段階履歴再サンプリングポリシー最適化(SRPO)を提案し、DeepSeek-R1-Zero-32Bを上回る性能をAIME24およびLiveCodeBenchで達成。SRPOはトレーニングステップを約1/10に削減し、効率性を示す。二つの革新として、クロスドメイントレーニングパラダイムと履歴再サンプリング技術を導入し、LLMの推論能力を拡張するための実験を行った。 Comment
元ポスト:
GRPOよりもより効率的な手法な模様。最初に数学のデータで学習をしReasoning Capabilityを身につけさせ、その後別のドメインのデータで学習させることで、その能力を発揮させるような二段階の手法らしい。
Datamixingよりも高い性能(ただし、これは数学とコーディングのCoT Lengthのドメイン間の違いに起因してこのような2 stageな手法にしているようなのでその点には注意が必要そう)?しっかりと読めていないので、読み違いの可能性もあるので注意。
なんたらRPO多すぎ問題
[Paper Note] Group Sequence Policy Optimization, Chujie Zheng+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #MoE(Mixture-of-Experts) #Stability Issue Date: 2025-07-26 GPT Summary- Group Sequence Policy Optimization (GSPO)は、大規模言語モデルのための新しい強化学習アルゴリズムで、シーケンスの尤度に基づく重要度比を用いてトレーニングを行う。GSPOは、従来のGRPOアルゴリズムよりも効率的で高性能であり、Mixture-of-Experts (MoE) のトレーニングを安定化させる。これにより、最新のQwen3モデルにおいて顕著な改善が見られる。 Comment
元ポスト:
公式ポスト:
GRPOとGSPOの違いのGIF:
[Paper Note] Perception-Aware Policy Optimization for Multimodal Reasoning, Zhenhailong Wang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-07-12 GPT Summary- 強化学習における検証可能な報酬(RLVR)は、LLMsに多段階推論能力を与えるが、マルチモーダル推論では最適な性能を発揮できない。視覚入力の認識が主なエラー原因であるため、知覚を意識したポリシー最適化(PAPO)を提案。PAPOはGRPOの拡張で、内部監視信号から学習し、追加のデータや外部報酬に依存しない。KLダイバージェンス項を導入し、マルチモーダルベンチマークで4.4%の改善、視覚依存タスクでは8.0%の改善を達成。知覚エラーも30.5%減少し、PAPOの効果を示す。研究は視覚に基づく推論を促進する新しいRLフレームワークの基盤を築く。 Comment
元ポスト:
VLMにおいて、画像をマスクした場合のポリシーモデルの出力と、画像をマスクしない場合のポリシーモデルの出力のKL Divergenceを最大化することで、画像の認知能力が向上し性能向上するよ、みたいな話な模様。
[Paper Note] Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv'25
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #TransferLearning #DPO #GRPO #VerifiableRewards #Off-Policy #Non-VerifiableRewards Issue Date: 2025-06-30 GPT Summary- 大規模言語モデルのファインチューニングにおける強化学習手法の効果を、オフラインからオンラインへの移行において調査。数学タスクと指示に従うタスクのベンチマーク評価を行い、オンラインおよびセミオンラインの最適化手法がオフライン手法を上回る結果を示す。トレーニングダイナミクスとハイパーパラメータ選択について分析し、検証可能な報酬と検証不可能な報酬を共同で扱うことでパフォーマンス向上を確認。 Comment
元ポスト:
[Paper Note] On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes, Rishabh Agarwal+, ICLR'24, 2023.06
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #Distillation #ICLR #Selected Papers/Blogs #Off-Policy #One-Line Notes Issue Date: 2025-10-30 GPT Summary- 一般化知識蒸留(GKD)は、教師モデルからのフィードバックを活用し、生徒モデルが自己生成した出力シーケンスで訓練する手法。これにより、出力シーケンスの分布不一致の問題を解決し、柔軟な損失関数の使用が可能になる。GKDは蒸留と強化学習の統合を促進し、要約、翻訳、算術推論タスクにおける自動回帰言語モデルの蒸留においてその有効性を示す。 Comment
openreview: https://openreview.net/forum?id=3zKtaqxLhW
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
での説明に基づくと、
オフポリシーの蒸留手法を使うと、教師モデルが生成した出力を用いて蒸留をするため、生徒モデルが実際に出力するcontextとは異なる出力に基づいて蒸留をするため、生徒モデルの推論時のcontextとのミスマッチが生じる課題があるが、オンポリシーデータを混ぜることでこの問題を緩和するような手法(つまり実際の生徒モデル運用時と似た状況で蒸留できる)。生徒モデルが賢くなるにつれて出力が高品質になるため、それらを学習データとして再利用することでpositiveなフィードバックループが形成されるという利点がある。また、強化学習と比較しても、SparseなReward Modelに依存せず、初期の性能が低いモデルに対しても適用できる利点があるとのこと(性能が低いと探索が進まない場合があるため)。
[Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Alignment #ReinforcementLearning #PPO (ProximalPolicyOptimization) #ICML #DPO #Reference Collection Issue Date: 2025-06-25 GPT Summary- 好みのラベルを用いた大規模言語モデルのファインチューニングに関する研究。オンポリシー強化学習や対照学習などの手法を比較し、オンポリシーサンプリングや負の勾配を用いるアプローチが優れていることを発見。これにより、カテゴリ分布の特定のビンにおける確率質量を迅速に変更できるモード探索目的の重要性を示し、データ収集の最適化に関する洞察を提供。 Comment
以下のオフライン vs. オンラインRLアルゴリズムで本研究が引用されている:
Understanding Self-Distillation and Privileged Information Distillation, Penaloza+, 2026
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #Distillation #read-later #Selected Papers/Blogs #SelfDistillation Issue Date: 2026-06-05
On-Policy Self-Distillation: 言葉で学ぶ LLMの新たな学習パラダイム, ぶち, 2026.03
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #Selected Papers/Blogs #Reading Reflections #SelfDistillation Issue Date: 2026-06-01 Comment
元ポスト:
日本語でのOPSD解説で、細かい数式などよりも、何が重要で、なぜ今なのかといった気持ちのところが非常に重点的に説明されている。
後半の今後の課題の、どの程度の能力であればself teacherが成立するのか、どのような情報を与えると良いのか、といった話は、
- [Paper Note] Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why, Mohammadreza Armandpour+, arXiv'26, 2026.05
で模索されている。
また、OPSDの気持ち的な部分だけでなく、(簡単な)数式的な解釈、最近のサーベイなど、より詳細な情報は
- The Imitation Game: State of Policy Distillation in Language Model training, 032-Chinmay Karkar, 2026.05
のブログにまとめられているので参照のこと。
The Imitation Game: State of Policy Distillation in Language Model training, 032-Chinmay Karkar, 2026.05
Paper/Blog Link My Issue
#Article #Tutorial #Survey #NLP #LanguageModel #ReinforcementLearning #Distillation #Catastrophic Forgetting #PostTraining #KeyPoint Notes #SelfDistillation #Author Thread-Post Issue Date: 2026-05-26 Comment
元ポスト:
- On Policy DistillationはKnowledge Distillationの一種で、教師モデルの知識を小さなモデルに蒸留する
- off policy KD Objectiveの場合は固定されたオフラインデータを用いるが、on policy distillationは生徒モデル自身が生成したデータに対するシグナルに基づいて学習される。
- off policy手法の課題はCatastrophic Forgettingと、(sequence長に対するquadraticな)エラーの蓄積がある。
- (オフポリシーRLの特殊なケースとみなすことができる)SFTはForward KLに基づいており、教師モデルの出力分布が確率を持つ部分に対して、生徒モデルの確率がゼロの場合はKLが発散するため、学習される生徒モデルの分布さスムージングされた分布になる。つまり、教師モデルの出力パターンを網羅できるように分布が学習される。
- このような手法で複数のドメインのデータで学習をした場合、分布のシフトが生じやすくCatastrophic Forgettingが生じやすい。
- on policy RLでは、Reverse KLが採用されており、この場合教師が確率が低いと考える場所に高い確率を割り振った場合のみに大きなペナルティを受けるため、教師の重要なモードをカバーしていれば、教師の他のモード全体は無視できる。これにより、学習したいモード以外の挙動に影響を与えにくく、特定のモードの学習ができる。
- (SFTがCatastrophic Forgettingが起きやすそうということは理解できるが、オフポリシーRL全体においてCatastrophic Forgettingが起きやすい問題があるという文脈で書かれている気がしており(エラーの蓄積の冒頭でオフポリシーRLのもう一つの根本的な課題は、という文脈で書かれているため)、SFTの議論がオフポリシーRL全体につながるのかがわからず、モヤっとする。が、LLMのpost-traingではCatrastrophic Forgettingが問題であるという文脈であれば理解できる)
- また、on-policyな学習ではエラーの蓄積を線形に留めることができることが示されている(off-policyな手法ではポリシーが生成したデータで訓練されていないため、inference時の冒頭でミスをすると学習時に観測していないトークンスペースを扱わなければならなくなり、さらにミスが増えモード崩壊に陥る)。
- on policy distillationは直接的にこのexposure biasのgapを小さくする。すなわち、学習時のinput(教師モデルが生成)と推論時のinput(生徒モデルが生成)の分布のgapを縮める。
- 生徒は学習時に常に自身の出力に基づいて学習するため、学習時のprefixと推論時のprefixの傾向が一致しやすい。このため生成時にエラーが起きてもin-distributionとなるため、エラーの蓄積が低減される。
以後はon policy distillation, on policy self-distillationの最新研究のサーベイと動向について記載されている。
関連:
- [Paper Note] Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting, Howard Chen+, arXiv'25, 2025.10
- [Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, ICLR'26
- Multi-Teacher On-Policy Distillation: A New Post-Training Primitive, Yumo Xu, 2026.04
後半のサーベイパートなどで記述があったのかもしれないが、OPDでは、GRPOなどで主流なRLVRなどと比較して、報酬のシグナルがdenseであるという点も押さえておきたい。
Pedagogical RL: Teaching Models to Teach Themselves from Privileged Information, Chakraborty+, 2026.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining #CurriculumLearning #PRM #SelfDistillation #Author Thread-Post Issue Date: 2026-05-21 Comment
元ポスト:
Composer 2.5 の紹介, Cursor, 2026.05
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #SyntheticData #Optimizer #mid-training #One-Line Notes #Reference Collection #SelfDistillation Issue Date: 2026-05-20 Comment
元ポスト:
- trajectory中の不適切な箇所にヒントを挿入したcontextを用いたself-on-policy distillation
- Composer 2から25倍の量の合成タスクデータの利用。タスクは特定のテスト可能な機能をコードベースからablationすることによってverifiableなタスクを作成
- mid-trainingではMuonを利用し、expertが複数のノードにシャーディングされているため、all-to-allと呼ばれる処理によって重み行列全体を復元しMuonの直行化を実施し、同じくall-to-allという処理で重みを再びシャーディングするらしい。これらは非同期で実行される。
- dual mesh HSDPと呼ばれるものも利用されているようだがよくわかっていない
関連:
- Composer 2 のご紹介, Cursor, 2026.03
artificial analysisによる評価:
所見:
学習の規模感に関する所見:
所見:
Multi-Teacher On-Policy Distillation: A New Post-Training Primitive, Yumo Xu, 2026.04
Paper/Blog Link My Issue
#Article #Multi #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #Distillation #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-05-08 Comment
元ポスト:
(multi teacher)オンポリシー蒸留の解説を、気持ち(何かに特化させると、他の部分が劣化していて、多方面に優れたモデルを学習するのが難しい課題を克服したい)だけでなく、
GRPOに対してAdvantage部分を生徒と教師モデルのreverse KLに置き換えることで統合できるよ、という説明と、
なぜreverse KLを使うのかという説明[^1]、
最近の最先端のOpenLLMにおいてmulti teacher オンポリシー蒸留がどのように使われているかが丁寧に説明されている。
[^1]: forward KLだと教師が少しでも確率を持つトークンにおいて生徒の確率が0だと発散するのでスムージングされた分布になってしまい、特定のトークンにフォーカスした分布が形成されづらく、テキスト生成の多峰性と(意味不明な出力をできるだけ回避するという意味での)安全性の観点からreverse KLの相性が良いよ、という話)
関連:
- 【LLM】On-Policy Distillation入門:小規模モデルを「実戦」で育てる技術, Currently Learning そんけいご, Zenn, 2026.02
解説と所見:
【LLM】On-Policy Distillation入門:小規模モデルを「実戦」で育てる技術, Currently Learning そんけいご, Zenn, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Distillation #PostTraining #Selected Papers/Blogs #Reading Reflections Issue Date: 2026-05-08 Comment
直感的な説明だけでなく、数式ベースの説明、RLとの比較などがコンパクトにまとまっておりとてもわかりやすかった...!!勉強になりました
AI 101: "On-Policy Distillation Zeitgeist", Turing Post, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #One-Line Notes #SelfDistillation Issue Date: 2026-02-16 Comment
元ポスト:
最近よくみかける on-policy self-distillationに関する解説
Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #Blog #Distillation #reading Issue Date: 2025-10-30 Comment
元ポスト:
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。
On-Policy Distillation, Thinking Machines, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #Distillation #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-10-27 Comment
元ポスト:
所見:
解説:
Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
Paper/Blog Link My Issue
#Article #Library #ReinforcementLearning #Blog #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #train-inference-gap Issue Date: 2025-08-26 Comment
元ポスト:
元々
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
のスレッド中にメモっていたが、アップデートがあったようなので新たにIssue化
trainingのエンジン(FSDP等)とロールアウトに使うinferenceエンジン(SGLang,vLLM)などのエンジンのミスマッチにより、学習がうまくいかなくなるという話。
アップデートがあった模様:
- Parallelismのミスマッチでロールアウトと学習のギャップを広げてしまうこと(特にsequence parallelism)
- Longer Sequenceの方が、ギャップが広がりやすいこと
- Rolloutのためのinferenceエンジンを修正する(SGLang w/ deterministic settingすることも含む)だけでは効果は限定的
といった感じな模様。
さらにアップデート:
FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
vLLMがtrain inference mismatchを防ぐアップデートを実施:
reasoning-minimal, torotoki, 2025.08
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #python #Repository #GRPO #MinimalCode Issue Date: 2025-08-19 Comment
TRLのGRPOTrainer、および独自定義のReward(フォーマット/acc)を用いたミニマルなGRPOの実装。GRPOを実施する際には参照のこと。
Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06
Paper/Blog Link My Issue
#Article #Tutorial #ReinforcementLearning #Blog #Off-Policy #One-Line Notes Issue Date: 2025-06-19 Comment
元ポスト:
on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardをシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の(Q関数で)Q値が最大となるアクションを選択した場合に得られる価値はどんなもん?というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう(=バイアス)ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい?
