SelfDistillation
[Paper Note] Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision, Yinghui He+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#read-later Issue Date: 2026-04-16 GPT Summary- SD-Zeroは、強化学習や外部教師を必要とせず、単一のモデルを生成器と査読者として学習させる新たな手法である。生成器が初期応答を生成し、査読者がそれを改善する過程で、オンポリシー自己蒸留を利用し、密なトークンレベルの自己監督を実現する。SD-Zeroは数学・コード推論ベンチマークにおいて、基盤モデルよりも10%以上の性能向上を示し、強力なベースラインを上回った。特徴としては、重要なトークンを特定するトークンレベルの自己局在化と、教師同期化による回答改訂の反復的自己進化がある。 Comment
元ポスト:
[Paper Note] Embarrassingly Simple Self-Distillation Improves Code Generation, Ruixiang Zhang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #PostTraining #read-later #Author Thread-Post Issue Date: 2026-04-04 GPT Summary- 簡易自己蒸留(SSD)を用いて、LLMが独自の出力のみでコード生成の改善が可能であることを示す。特定の温度とトランケーション設定で出力をサンプリングし、その後教師付きファインチューニングを行うことで、Qwen3-30B-Instructのパフォーマンスを42.4%から55.3%に向上。4B・8B・30Bスケールのモデル間で一般化され、改善のメカニズムをLLMデコードの精度と探索の相互関係に関連づけて検討。SSDは、精度を高めつつ多様性を保持するアプローチとして、LLMのコード生成に寄与する可能性を示唆する。 Comment
元ポスト:
所見:
解説:
著者ポスト:
[Paper Note] Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?, Jeonghye Kim+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning Issue Date: 2026-03-26 GPT Summary- 自己蒸留はLLMの訓練後の効果的な手法であるが、数学的推論においては長さ短縮が性能低下を招くことがある。この劣化は不確実性の表現抑制に起因し、条件付けコンテキストの豊富さによって影響を受けることが示された。具体的には、情報豊富な教師による不確実性の抑制が迅速な最適化を促進する一方で、未知問題に対する性能を悪影響を及ぼすことが確認された。Qwen3-8Bなどのモデルでは、最大40%のパフォーマンス低下が見られ、適切な不確実性の露出が推論の堅牢性に不可欠であることが強調された。 Comment
元ポスト:
関連:
- [Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01
ポイント解説:
[Paper Note] On-Policy Context Distillation for Language Models, Tianzhu Ye+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #Distillation #On-Policy #One-Line Notes Issue Date: 2026-02-13 GPT Summary- オンポリシーコンテキスト蒸留(OPCD)は、生徒モデルが自身の生成した軌跡に基づいて学習し、コンテキストに条件付けられた教師に対して逆カルバック・ライブラー divergenceを最小化するフレームワークです。OPCDは実体験知識蒸留とシステムプロンプト蒸留の応用で効果を示し、数学的推論やテキストベースのゲームでベースラインを上回り、精度向上と分布外能力の保持を実現します。また、小さな生徒モデルが大きな教師から知識を内在化できることも示しています。 Comment
元ポスト:
教師モデルにcontextを与えた上で生徒モデルのロールアウトに対してreverse KLを最小化することで、in-context learningを活用しつつオンポリシー蒸留を実施する枠組みに見える。教師モデルをstrong modelにすればteacher-student distillationの枠組みになるし、教師モデルと生徒モデルを一致させるとself-distillationとなる。
ICLを活用したself-distillationは以下でも提案されている:
- [Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
[Paper Note] Expanding the Capabilities of Reinforcement Learning via Text Feedback, Yuda Song+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining #read-later #TextualFeedback Issue Date: 2026-02-05 GPT Summary- テキストフィードバックを用いた強化学習(RL)によるLLMの後処理を研究。スカラー報酬に対し、テキストフィードバックはコストが低く、豊かな情報を提供。モデルはトレーニング時にフィードバックを内部化し、推論時にシングルターンの性能を向上させる。自己蒸留(RLTF-SD)とフィードバックモデリング(RLTF-FM)の2つの手法を提案し、さまざまなタスクでの効果を検証。結果は強力なベースラインを上回ることで、豊かな監視源としてのRLの可能性を示している。 Comment
pj page: https://rl-textfeedback.github.io/
元ポスト:
[Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #Reasoning #MoE(Mixture-of-Experts) #AttentionSinks #PostTraining #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2026-02-03 GPT Summary- Step 3.5 Flashは、フロンティア知能と効率を橋渡しするスパースMixture-of-Experts(MoE)モデルで、1960億パラメータの基盤と110億パラメータのアクティブパラメータを組み合わせ、迅速で信頼性の高い推論を実現。交互スライディングウィンドウとMulti-Token Predictionを取り入れ、エージェント間の相互作用の待機時間を短縮。検証可能な信号とフィードバックを用いた強化学習フレームワークにより、安定した自己改善を図る。エージェントやコーディング、数学タスクで高い性能を示し、フロンティアモデルに匹敵する結果を達成している。 Comment
元ポスト:
公式ポスト:
解説:
ポイント解説:
ポイント解説:
固定されたデータ非依存のsink tokenを利用するよりも、attention headの出力にinput xに応じたgatingを設けるHead wise gated attentionの方が各ベンチマークでの性能が良い(Table2, gatingの計算量もほぼ無視できる)。Head wise gated attentionは、データに応じてattention headの出力を制御するため、データ依存のlearnableなsink tokenと解釈できる(A.1):
Head-wise Gated Attention:
- [Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper
- [Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25, 2025.03
SFTデータがリリースされたとのこと:
https://huggingface.co/datasets/stepfun-ai/Step-3.5-Flash-SFT
元ポスト:
[Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #One-Line Notes #TextualFeedback Issue Date: 2026-01-30 GPT Summary- リッチフィードバックを活用した強化学習手法SDPOを提案。従来の手法がスカラー報酬に依存するのに対し、SDPOは豊富なテキストフィードバックを用いてセルフディスティレーションを行い、モデルの誤りを特定。科学的推論や競技プログラミングにおいて、サンプル効率と精度を向上し、標準的なRLVR環境でも優れた性能を発揮。テスト時には試行回数を削減しつつ、発見確率を維持可能。 Comment
あるポリシーでロールアウトを実行し、ロールアウトの実行結果からフィードバック(e.g., runtime error messageやLLM-as-a-Judgeによるtextual feedbackなど)を得たときに、同ポリシーに対してフィードバックをcontextとして与えた上でロールアウトのtoken levelでのlog probを比較することで、token levelでどこが誤っていたかに関する学習シグナルを得る。
ポイント解説:
[Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #Catastrophic Forgetting #read-later #Selected Papers/Blogs #One-Line Notes #ContinualLearning #Author Thread-Post Issue Date: 2026-01-29 GPT Summary- 自己蒸留ファインチューニング(SDFT)は、デモンストレーションからオンポリシー学習を可能にし、従来の手法を上回って新しいスキルを獲得しつつ既存の能力を維持。文脈内学習を活かし、壊滅的忘却を削減しながら複数のスキルを時間と共に蓄積するモデルを実現。 Comment
元ポスト:
著者ポスト:
現在のポリシーにおいてクエリ q とexpertによるdemonstraction c によってポリシーを条件づけたモデルを教師モデルとみなし、現在のポリシーにおいてクエリだけで条件付けたモデル生徒モデルとした時に、教師モデルの分布と生徒モデルの分布のreverse KL Divergenceが最小化されるように生徒モデルを学習する((式1))。すなわち、次のポリシーの更新に対する学習シグナルを得るためにモデルのIn-Context Learningを活用している。
上記の見方はstudent-teacherにおける蒸留という観点で見た場合だが、TRPOに基づく定式化からスタートして、expertが作成したdemonstrationによって導出されるimplicitなreward functionを最大化するInverse Reinforcement Learningとして解釈し、式変形を繰り返していくと、前述のICLによる勾配と、オンポリシーRLでのポリシー最適化による勾配が一致する(式2, 式6)。
ポイント解説:
[Paper Note] Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models, Siyan Zhao+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-01-23 GPT Summary- オンポリシーセルフ蒸留(OPSD)は、LLMが自らを教師と生徒として機能させ、特権情報を活用しながら異なるコンテキストでの推論を改善する新しいフレームワークです。これにより、自己のロールアウトを基に外れ値を最小化し、数学的推論ベンチマークで優れた性能を発揮。GRPOなどの強化学習手法と比較してトークン効率を4-8倍向上させました。 Comment
元ポスト:
関連:
- [Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25
所見:
ポイント解説:
[Paper Note] How to build a consistency model: Learning flow maps via self-distillation, Nicholas M. Boffi+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#ComputerVision #NeurIPS #FlowMaps Issue Date: 2025-10-09 GPT Summary- フローに基づく生成モデルの推論効率を改善するため、フローマップを直接学習するアルゴリズムフレームワークを提案。自己蒸留を通じて教師なしでトレーニング可能な方法を示し、オイラー法、ラグランジュ法、進行法の3つのアルゴリズムファミリーを導入。特に新しいラグランジュ法は、安定したトレーニングと高いパフォーマンスを実現。既存のトレーニングスキームを統一し、生成モデルの設計原則を明らかにする。 Comment
元ポスト:
[Paper Note] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation, Sherwin Bahmani+, arXiv'25, 2025.09
Paper/Blog Link My Issue
Issue Date: 2025-09-29 GPT Summary- 本研究では、ビデオ拡散モデルの3D知識を明示的な3Dガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案。これにより、マルチビューのトレーニングデータなしで3Dシーンを生成可能にし、リアルタイムレンダリングを実現。実験結果は、静的および動的3Dシーン生成において最先端の性能を達成したことを示す。 Comment
元ポスト:
AI 101: "On-Policy Distillation Zeitgeist", Turing Post, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #On-Policy #One-Line Notes Issue Date: 2026-02-16 Comment
元ポスト:
最近よくみかける on-policy self-distillationに関する解説
