SelfDistillation
[Paper Note] On-Policy Context Distillation for Language Models, Tianzhu Ye+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #Distillation #On-Policy #One-Line Notes Issue Date: 2026-02-13 GPT Summary- オンポリシーコンテキスト蒸留(OPCD)は、生徒モデルが自身の生成した軌跡に基づいて学習し、コンテキストに条件付けられた教師に対して逆カルバック・ライブラー divergenceを最小化するフレームワークです。OPCDは実体験知識蒸留とシステムプロンプト蒸留の応用で効果を示し、数学的推論やテキストベースのゲームでベースラインを上回り、精度向上と分布外能力の保持を実現します。また、小さな生徒モデルが大きな教師から知識を内在化できることも示しています。 Comment
元ポスト:
教師モデルにcontextを与えた上で生徒モデルのロールアウトに対してreverse KLを最小化することで、in-context learningを活用しつつオンポリシー蒸留を実施する枠組みに見える。教師モデルをstrong modelにすればteacher-student distillationの枠組みになるし、教師モデルと生徒モデルを一致させるとself-distillationとなる。
ICLを活用したself-distillationは以下でも提案されている:
- [Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
[Paper Note] Expanding the Capabilities of Reinforcement Learning via Text Feedback, Yuda Song+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining #read-later #TextualFeedback Issue Date: 2026-02-05 GPT Summary- テキストフィードバックを用いた強化学習(RL)によるLLMの後処理を研究。スカラー報酬に対し、テキストフィードバックはコストが低く、豊かな情報を提供。モデルはトレーニング時にフィードバックを内部化し、推論時にシングルターンの性能を向上させる。自己蒸留(RLTF-SD)とフィードバックモデリング(RLTF-FM)の2つの手法を提案し、さまざまなタスクでの効果を検証。結果は強力なベースラインを上回ることで、豊かな監視源としてのRLの可能性を示している。 Comment
pj page: https://rl-textfeedback.github.io/
元ポスト:
[Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Blog #Reasoning #MoE(Mixture-of-Experts) #Selected Papers/Blogs Issue Date: 2026-02-03 GPT Summary- Step 3.5 Flashは、スパースなMixture-of-Experts (MoE)モデルを用いて、鋭い推論と迅速な実行を実現するエージェントインテリジェンスの革新を目指す。196Bパラメータに11Bのアクティブパラメータを組み合わせ、スライディングウィンドウとフルアテンションを交互に利用。スケーラブルな強化学習フレームワークにより、自己改善を促進し、様々なタスクで卓越した性能を発揮。Step 3.5 Flashは、実世界での高度なエージェント展開に向けた基盤を再構築する。 Comment
元ポスト:
公式ポスト:
解説:
ポイント解説:
[Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #One-Line Notes #TextualFeedback Issue Date: 2026-01-30 GPT Summary- リッチフィードバックを活用した強化学習手法SDPOを提案。従来の手法がスカラー報酬に依存するのに対し、SDPOは豊富なテキストフィードバックを用いてセルフディスティレーションを行い、モデルの誤りを特定。科学的推論や競技プログラミングにおいて、サンプル効率と精度を向上し、標準的なRLVR環境でも優れた性能を発揮。テスト時には試行回数を削減しつつ、発見確率を維持可能。 Comment
ロールアウトに対するフィードバックを活用して学習のシグナルをよりdenseにする
ポイント解説:
[Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #Catastrophic Forgetting #read-later #Selected Papers/Blogs #One-Line Notes #ContinualLearning Issue Date: 2026-01-29 GPT Summary- 自己蒸留ファインチューニング(SDFT)は、デモンストレーションからオンポリシー学習を可能にし、従来の手法を上回って新しいスキルを獲得しつつ既存の能力を維持。文脈内学習を活かし、壊滅的忘却を削減しながら複数のスキルを時間と共に蓄積するモデルを実現。 Comment
元ポスト:
著者ポスト:
現在のポリシーにおいてクエリ q とexpertによるdemonstraction c によってポリシーを条件づけたモデルを教師モデルとみなし、現在のポリシーにおいてクエリだけで条件付けたモデル生徒モデルとした時に、教師モデルの分布と生徒モデルの分布のreverse KL Divergenceが最小化されるように生徒モデルを学習する((式1))。すなわち、次のポリシーの更新に対する学習シグナルを得るためにモデルのIn-Context Learningを活用している。
上記の見方はstudent-teacherにおける蒸留という観点で見た場合だが、TRPOに基づく定式化からスタートして、expertが作成したdemonstrationによって導出されるimplicitなreward functionを最大化するInverse Reinforcement Learningとして解釈し、式変形を繰り返していくと、前述のICLによる勾配と、オンポリシーRLでのポリシー最適化による勾配が一致する(式2, 式6)。
ポイント解説:
[Paper Note] Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models, Siyan Zhao+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-01-23 GPT Summary- オンポリシーセルフ蒸留(OPSD)は、LLMが自らを教師と生徒として機能させ、特権情報を活用しながら異なるコンテキストでの推論を改善する新しいフレームワークです。これにより、自己のロールアウトを基に外れ値を最小化し、数学的推論ベンチマークで優れた性能を発揮。GRPOなどの強化学習手法と比較してトークン効率を4-8倍向上させました。 Comment
元ポスト:
関連:
- [Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25
所見:
ポイント解説:
[Paper Note] How to build a consistency model: Learning flow maps via self-distillation, Nicholas M. Boffi+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#ComputerVision #NeurIPS #FlowMaps Issue Date: 2025-10-09 GPT Summary- フローに基づく生成モデルの推論効率を改善するため、フローマップを直接学習するアルゴリズムフレームワークを提案。自己蒸留を通じて教師なしでトレーニング可能な方法を示し、オイラー法、ラグランジュ法、進行法の3つのアルゴリズムファミリーを導入。特に新しいラグランジュ法は、安定したトレーニングと高いパフォーマンスを実現。既存のトレーニングスキームを統一し、生成モデルの設計原則を明らかにする。 Comment
元ポスト:
[Paper Note] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation, Sherwin Bahmani+, arXiv'25, 2025.09
Paper/Blog Link My Issue
Issue Date: 2025-09-29 GPT Summary- 本研究では、ビデオ拡散モデルの3D知識を明示的な3Dガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案。これにより、マルチビューのトレーニングデータなしで3Dシーンを生成可能にし、リアルタイムレンダリングを実現。実験結果は、静的および動的3Dシーン生成において最先端の性能を達成したことを示す。 Comment
元ポスト:
AI 101: "On-Policy Distillation Zeitgeist", Turing Post, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #On-Policy #One-Line Notes Issue Date: 2026-02-16 Comment
元ポスト:
最近よくみかける on-policy self-distillationに関する解説
