SelfDistillation
[Paper Note] Reinforcement Learning from Rich Feedback with Distributional DAgger, Rishabh Agrawal+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#ReinforcementLearning #Distillation #On-Policy #Author Thread-Post Issue Date: 2026-06-09 GPT Summary- 強化学習における報酬の利用は狭いが、豊かなフィードバックを効果的に活用する方法を提案。DAggerの分布的変種を用いて専門家のフィードバックを参照し、前方クロスエントロピー目的を採用することで単調な方策改善を実現。DistILは多様なタスクにおいて従来のベースラインを上回る性能を示す。 Comment
元ポスト:
[Paper Note] Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline, Tony Lee+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining #Selected Papers/Blogs #Label-free #reading #KeyPoint Notes #SelfVerification Issue Date: 2026-05-31 GPT Summary- LLMがラベルなしシード問題から自己改善できるかを探求。自己検証蒸留というアルゴリズムで、生成した候補解をプロンプトベースでフィルタリングし、自己精選データを構築。循環的一貫性、事実性、正確性の3段階で解を承認し、より高品質なデータが優れたモデルへと導く。Qwen3モデルでは、数学・科学・コーディングの各ドメインで顕著な性能向上を確認。特にQwen3-4Bでは、特定のベンチマークでの改善が見られ、従来手法に比べ優れた性能を達成。 Comment
元ポスト:
関連:
- [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25
- 事後学習済みのLLMを外部のverifier, ground-truthデータ無しで、UQ Verifierに基づいたself-judgementで構築した合成データでSFTすることで性能を押し上げる手法
- データ構築では、1つのラベル無しseed questionに対してn回の応答生成を行い、それらをUQ style verifierでフィルタリングしたデータによって構築する。
- UQ Verifierは、マルチステージのverifierで(今回はself judgment)、各ステージごとにv回のvotingを実施する。各ステージは以下:
- cycle consistency: モデルが生成した応答から質問を逆生成し、オリジナルの問題のコアとなる課題が共通しているかを検証する。
- factual error check: 事実情報にエラーがないかを検証する。
- total correctness: 思考過程と最終的な結論に誤りがないかを検証する。
- 学習データの構築に計算量を増やせば増やすほど性能が向上する (Figure 3)
- test-time verificationのコストを、データ構築時に前払いし、運用時は1度のinferenceでtest-time verification導入時と同等以上の性能を達成する(Table 3)
[Paper Note] Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision, Yinghui He+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #read-later #On-Policy Issue Date: 2026-04-16 GPT Summary- SD-Zeroは、強化学習や外部教師を必要とせず、単一のモデルを生成器と査読者として学習させる新たな手法である。生成器が初期応答を生成し、査読者がそれを改善する過程で、オンポリシー自己蒸留を利用し、密なトークンレベルの自己監督を実現する。SD-Zeroは数学・コード推論ベンチマークにおいて、基盤モデルよりも10%以上の性能向上を示し、強力なベースラインを上回った。特徴としては、重要なトークンを特定するトークンレベルの自己局在化と、教師同期化による回答改訂の反復的自己進化がある。 Comment
元ポスト:
[Paper Note] Embarrassingly Simple Self-Distillation Improves Code Generation, Ruixiang Zhang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #PostTraining #read-later #Author Thread-Post Issue Date: 2026-04-04 GPT Summary- 簡易自己蒸留(SSD)を用いて、LLMが独自の出力のみでコード生成の改善が可能であることを示す。特定の温度とトランケーション設定で出力をサンプリングし、その後教師付きファインチューニングを行うことで、Qwen3-30B-Instructのパフォーマンスを42.4%から55.3%に向上。4B・8B・30Bスケールのモデル間で一般化され、改善のメカニズムをLLMデコードの精度と探索の相互関係に関連づけて検討。SSDは、精度を高めつつ多様性を保持するアプローチとして、LLMのコード生成に寄与する可能性を示唆する。 Comment
元ポスト:
所見:
解説:
著者ポスト:
[Paper Note] Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?, Jeonghye Kim+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning Issue Date: 2026-03-26 GPT Summary- 自己蒸留はLLMの訓練後の効果的な手法であるが、数学的推論においては長さ短縮が性能低下を招くことがある。この劣化は不確実性の表現抑制に起因し、条件付けコンテキストの豊富さによって影響を受けることが示された。具体的には、情報豊富な教師による不確実性の抑制が迅速な最適化を促進する一方で、未知問題に対する性能を悪影響を及ぼすことが確認された。Qwen3-8Bなどのモデルでは、最大40%のパフォーマンス低下が見られ、適切な不確実性の露出が推論の堅牢性に不可欠であることが強調された。 Comment
元ポスト:
関連:
- [Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01
ポイント解説:
[Paper Note] On-Policy Context Distillation for Language Models, Tianzhu Ye+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #Distillation #On-Policy #One-Line Notes Issue Date: 2026-02-13 GPT Summary- オンポリシーコンテキスト蒸留(OPCD)は、生徒モデルが自身の生成した軌跡に基づいて学習し、コンテキストに条件付けられた教師に対して逆カルバック・ライブラー divergenceを最小化するフレームワークです。OPCDは実体験知識蒸留とシステムプロンプト蒸留の応用で効果を示し、数学的推論やテキストベースのゲームでベースラインを上回り、精度向上と分布外能力の保持を実現します。また、小さな生徒モデルが大きな教師から知識を内在化できることも示しています。 Comment
元ポスト:
教師モデルにcontextを与えた上で生徒モデルのロールアウトに対してreverse KLを最小化することで、in-context learningを活用しつつオンポリシー蒸留を実施する枠組みに見える。教師モデルをstrong modelにすればteacher-student distillationの枠組みになるし、教師モデルと生徒モデルを一致させるとself-distillationとなる。
ICLを活用したself-distillationは以下でも提案されている:
- [Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
[Paper Note] Expanding the Capabilities of Reinforcement Learning via Text Feedback, Yuda Song+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining #read-later #TextualFeedback Issue Date: 2026-02-05 GPT Summary- テキストフィードバックを用いた強化学習(RL)によるLLMの後処理を研究。スカラー報酬に対し、テキストフィードバックはコストが低く、豊かな情報を提供。モデルはトレーニング時にフィードバックを内部化し、推論時にシングルターンの性能を向上させる。自己蒸留(RLTF-SD)とフィードバックモデリング(RLTF-FM)の2つの手法を提案し、さまざまなタスクでの効果を検証。結果は強力なベースラインを上回ることで、豊かな監視源としてのRLの可能性を示している。 Comment
pj page: https://rl-textfeedback.github.io/
元ポスト:
[Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #Reasoning #MoE(Mixture-of-Experts) #AttentionSinks #PostTraining #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2026-02-03 GPT Summary- Step 3.5 Flashは、フロンティア知能と効率を橋渡しするスパースMixture-of-Experts(MoE)モデルで、1960億パラメータの基盤と110億パラメータのアクティブパラメータを組み合わせ、迅速で信頼性の高い推論を実現。交互スライディングウィンドウとMulti-Token Predictionを取り入れ、エージェント間の相互作用の待機時間を短縮。検証可能な信号とフィードバックを用いた強化学習フレームワークにより、安定した自己改善を図る。エージェントやコーディング、数学タスクで高い性能を示し、フロンティアモデルに匹敵する結果を達成している。 Comment
元ポスト:
公式ポスト:
解説:
ポイント解説:
ポイント解説:
固定されたデータ非依存のsink tokenを利用するよりも、attention headの出力にinput xに応じたgatingを設けるHead wise gated attentionの方が各ベンチマークでの性能が良い(Table2, gatingの計算量もほぼ無視できる)。Head wise gated attentionは、データに応じてattention headの出力を制御するため、データ依存のlearnableなsink tokenと解釈できる(A.1):
Head-wise Gated Attention:
- [Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper
- [Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25, 2025.03
SFTデータがリリースされたとのこと:
https://huggingface.co/datasets/stepfun-ai/Step-3.5-Flash-SFT
元ポスト:
[Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #Selected Papers/Blogs #On-Policy #One-Line Notes #TextualFeedback Issue Date: 2026-01-30 GPT Summary- リッチフィードバックを活用した強化学習手法SDPOを提案。従来の手法がスカラー報酬に依存するのに対し、SDPOは豊富なテキストフィードバックを用いてセルフディスティレーションを行い、モデルの誤りを特定。科学的推論や競技プログラミングにおいて、サンプル効率と精度を向上し、標準的なRLVR環境でも優れた性能を発揮。テスト時には試行回数を削減しつつ、発見確率を維持可能。 Comment
あるポリシーでロールアウトを実行し、ロールアウトの実行結果からフィードバック(e.g., runtime error messageやLLM-as-a-Judgeによるtextual feedbackなど)を得たときに、同ポリシーに対してフィードバックをcontextとして与えた上でロールアウトのtoken levelでのlog probを比較することで、token levelでどこが誤っていたかに関する学習シグナルを得る。
ポイント解説:
[Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #Distillation #Catastrophic Forgetting #read-later #Selected Papers/Blogs #On-Policy #One-Line Notes #ContinualLearning #Author Thread-Post Issue Date: 2026-01-29 GPT Summary- 自己蒸留ファインチューニング(SDFT)は、デモンストレーションからオンポリシー学習を可能にし、従来の手法を上回って新しいスキルを獲得しつつ既存の能力を維持。文脈内学習を活かし、壊滅的忘却を削減しながら複数のスキルを時間と共に蓄積するモデルを実現。 Comment
元ポスト:
著者ポスト:
現在のポリシーにおいてクエリ q とexpertによるdemonstraction c によってポリシーを条件づけたモデルを教師モデルとみなし、現在のポリシーにおいてクエリだけで条件付けたモデル生徒モデルとした時に、教師モデルの分布と生徒モデルの分布のreverse KL Divergenceが最小化されるように生徒モデルを学習する((式1))。すなわち、次のポリシーの更新に対する学習シグナルを得るためにモデルのIn-Context Learningを活用している。
上記の見方はstudent-teacherにおける蒸留という観点で見た場合だが、TRPOに基づく定式化からスタートして、expertが作成したdemonstrationによって導出されるimplicitなreward functionを最大化するInverse Reinforcement Learningとして解釈し、式変形を繰り返していくと、前述のICLによる勾配と、オンポリシーRLでのポリシー最適化による勾配が一致する(式2, 式6)。
ポイント解説:
[Paper Note] Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models, Siyan Zhao+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #Selected Papers/Blogs #On-Policy Issue Date: 2026-01-23 GPT Summary- オンポリシーセルフ蒸留(OPSD)は、LLMが自らを教師と生徒として機能させ、特権情報を活用しながら異なるコンテキストでの推論を改善する新しいフレームワークです。これにより、自己のロールアウトを基に外れ値を最小化し、数学的推論ベンチマークで優れた性能を発揮。GRPOなどの強化学習手法と比較してトークン効率を4-8倍向上させました。 Comment
元ポスト:
関連:
- [Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25
所見:
ポイント解説:
[Paper Note] How to build a consistency model: Learning flow maps via self-distillation, Nicholas M. Boffi+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#ComputerVision #NeurIPS #FlowMaps Issue Date: 2025-10-09 GPT Summary- フローに基づく生成モデルの推論効率を改善するため、フローマップを直接学習するアルゴリズムフレームワークを提案。自己蒸留を通じて教師なしでトレーニング可能な方法を示し、オイラー法、ラグランジュ法、進行法の3つのアルゴリズムファミリーを導入。特に新しいラグランジュ法は、安定したトレーニングと高いパフォーマンスを実現。既存のトレーニングスキームを統一し、生成モデルの設計原則を明らかにする。 Comment
元ポスト:
[Paper Note] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation, Sherwin Bahmani+, arXiv'25, 2025.09
Paper/Blog Link My Issue
Issue Date: 2025-09-29 GPT Summary- 本研究では、ビデオ拡散モデルの3D知識を明示的な3Dガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案。これにより、マルチビューのトレーニングデータなしで3Dシーンを生成可能にし、リアルタイムレンダリングを実現。実験結果は、静的および動的3Dシーン生成において最先端の性能を達成したことを示す。 Comment
元ポスト:
[Paper Note] Emerging Properties in Self-Supervised Vision Transformers, Mathilde Caron+, ICCV'21, 2021.04
Paper/Blog Link My Issue
#ComputerVision #Self-SupervisedLearning #read-later #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2026-04-26 GPT Summary- 自己教師あり学習がVision Transformer(ViT)に特異な特徴をもたらすことを探求。自己教師ありViTは、監視ありViTや畳み込みネットワーク(convnets)よりも画像のセマンティックセグメンテーションに関する明示的な情報を持ち、小型ViTでImageNetにおけるtop-1が78.3%に達する。モメンタムエンコーダやマルチクロップ訓練、小さなパッチの重要性も強調し、DINOという自己教師あり法を実装。線形評価でViT-BaseがImageNetのtop-1 80.1%を達成し、DINOとViTの相乗効果を示す。 Comment
日本語解説:
【論文まとめ】DINO: Emerging Properties in Self-Supervised Vision Transformers, 大阪大学医学部 Python会, 2021.04
https://oumpy.github.io/blog/2021/05/dino.html
v2, v3はこちら:
- [Paper Note] DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24
- [Paper Note] DINOv3, Oriane Siméoni+, arXiv'25, 2025.08
Understanding Self-Distillation and Privileged Information Distillation, Penaloza+, 2026
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #Distillation #read-later #Selected Papers/Blogs #On-Policy Issue Date: 2026-06-05
On-Policy Self-Distillation: 言葉で学ぶ LLMの新たな学習パラダイム, ぶち, 2026.03
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #Selected Papers/Blogs #On-Policy #Reading Reflections Issue Date: 2026-06-01 Comment
元ポスト:
日本語でのOPSD解説で、細かい数式などよりも、何が重要で、なぜ今なのかといった気持ちのところが非常に重点的に説明されている。
後半の今後の課題の、どの程度の能力であればself teacherが成立するのか、どのような情報を与えると良いのか、といった話は、
- [Paper Note] Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why, Mohammadreza Armandpour+, arXiv'26, 2026.05
で模索されている。
また、OPSDの気持ち的な部分だけでなく、(簡単な)数式的な解釈、最近のサーベイなど、より詳細な情報は
- The Imitation Game: State of Policy Distillation in Language Model training, 032-Chinmay Karkar, 2026.05
のブログにまとめられているので参照のこと。
The Imitation Game: State of Policy Distillation in Language Model training, 032-Chinmay Karkar, 2026.05
Paper/Blog Link My Issue
#Article #Tutorial #Survey #NLP #LanguageModel #ReinforcementLearning #Distillation #Catastrophic Forgetting #PostTraining #On-Policy #KeyPoint Notes #Author Thread-Post Issue Date: 2026-05-26 Comment
元ポスト:
- On Policy DistillationはKnowledge Distillationの一種で、教師モデルの知識を小さなモデルに蒸留する
- off policy KD Objectiveの場合は固定されたオフラインデータを用いるが、on policy distillationは生徒モデル自身が生成したデータに対するシグナルに基づいて学習される。
- off policy手法の課題はCatastrophic Forgettingと、(sequence長に対するquadraticな)エラーの蓄積がある。
- (オフポリシーRLの特殊なケースとみなすことができる)SFTはForward KLに基づいており、教師モデルの出力分布が確率を持つ部分に対して、生徒モデルの確率がゼロの場合はKLが発散するため、学習される生徒モデルの分布さスムージングされた分布になる。つまり、教師モデルの出力パターンを網羅できるように分布が学習される。
- このような手法で複数のドメインのデータで学習をした場合、分布のシフトが生じやすくCatastrophic Forgettingが生じやすい。
- on policy RLでは、Reverse KLが採用されており、この場合教師が確率が低いと考える場所に高い確率を割り振った場合のみに大きなペナルティを受けるため、教師の重要なモードをカバーしていれば、教師の他のモード全体は無視できる。これにより、学習したいモード以外の挙動に影響を与えにくく、特定のモードの学習ができる。
- (SFTがCatastrophic Forgettingが起きやすそうということは理解できるが、オフポリシーRL全体においてCatastrophic Forgettingが起きやすい問題があるという文脈で書かれている気がしており(エラーの蓄積の冒頭でオフポリシーRLのもう一つの根本的な課題は、という文脈で書かれているため)、SFTの議論がオフポリシーRL全体につながるのかがわからず、モヤっとする。が、LLMのpost-traingではCatrastrophic Forgettingが問題であるという文脈であれば理解できる)
- また、on-policyな学習ではエラーの蓄積を線形に留めることができることが示されている(off-policyな手法ではポリシーが生成したデータで訓練されていないため、inference時の冒頭でミスをすると学習時に観測していないトークンスペースを扱わなければならなくなり、さらにミスが増えモード崩壊に陥る)。
- on policy distillationは直接的にこのexposure biasのgapを小さくする。すなわち、学習時のinput(教師モデルが生成)と推論時のinput(生徒モデルが生成)の分布のgapを縮める。
- 生徒は学習時に常に自身の出力に基づいて学習するため、学習時のprefixと推論時のprefixの傾向が一致しやすい。このため生成時にエラーが起きてもin-distributionとなるため、エラーの蓄積が低減される。
以後はon policy distillation, on policy self-distillationの最新研究のサーベイと動向について記載されている。
関連:
- [Paper Note] Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting, Howard Chen+, arXiv'25, 2025.10
- [Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, ICLR'26
- Multi-Teacher On-Policy Distillation: A New Post-Training Primitive, Yumo Xu, 2026.04
後半のサーベイパートなどで記述があったのかもしれないが、OPDでは、GRPOなどで主流なRLVRなどと比較して、報酬のシグナルがdenseであるという点も押さえておきたい。
Pedagogical RL: Teaching Models to Teach Themselves from Privileged Information, Chakraborty+, 2026.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining #CurriculumLearning #PRM #On-Policy #Author Thread-Post Issue Date: 2026-05-21 Comment
元ポスト:
Composer 2.5 の紹介, Cursor, 2026.05
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #SyntheticData #Optimizer #mid-training #On-Policy #One-Line Notes #Reference Collection Issue Date: 2026-05-20 Comment
元ポスト:
- trajectory中の不適切な箇所にヒントを挿入したcontextを用いたself-on-policy distillation
- Composer 2から25倍の量の合成タスクデータの利用。タスクは特定のテスト可能な機能をコードベースからablationすることによってverifiableなタスクを作成
- mid-trainingではMuonを利用し、expertが複数のノードにシャーディングされているため、all-to-allと呼ばれる処理によって重み行列全体を復元しMuonの直行化を実施し、同じくall-to-allという処理で重みを再びシャーディングするらしい。これらは非同期で実行される。
- dual mesh HSDPと呼ばれるものも利用されているようだがよくわかっていない
関連:
- Composer 2 のご紹介, Cursor, 2026.03
artificial analysisによる評価:
所見:
学習の規模感に関する所見:
所見:
[Paper Note] DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence, DeepSeek-AI, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Infrastructure #AIAgents #Attention #LongSequence #PositionalEncoding #Optimizer #OpenWeight #Architecture #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #RewardModel #Reference Collection #KV Cache #Compression #GenerativeVerifier #SparseAttention #ResidualStream #Author Thread-Post Issue Date: 2026-04-24 Comment
HF: https://huggingface.co/collections/deepseek-ai/deepseek-v4
元ポスト:
とうとうでました
所見:
所見:
Artificial Analysisによる評価:
所見:
所見:
-
所見:
1Mコンテキストにおいて、V3.2と比較してわずか10%のKV Cacheしか必要としないとのこと。
所見:
1Mトークンのcontext windowを実用的にするために最新の叡智が詰め込まれまくっているという感じのようである。うーむ読むしかない
所見:
RTX 6000で4基でFlashが動いたよ、という報告に見える:
解説:
所見:
関連:
- HiSparse: Turbocharging Sparse Attention with Hierarchical Memory, LMSYS, 2026.04
Self Rewarding LMsのコンセプトが利用されている:
Proは、Flashをlong contextを扱える様々なドメインのスペシャリストとして訓練し、OPDによって蒸留されたものなのでは?という話:
論文中に疑問点をアノテーションした結果が共有されている:
AI 101: "On-Policy Distillation Zeitgeist", Turing Post, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #On-Policy #One-Line Notes Issue Date: 2026-02-16 Comment
元ポスト:
最近よくみかける on-policy self-distillationに関する解説
