Distillation
[Paper Note] Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation, Guo Yu+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#Analysis #LanguageModel #On-Policy #Initial Impression Notes Issue Date: 2026-06-15 GPT Summary- オンポリシー蒸留(OPD)は、オンポリシー学生の軌跡と密な教師監督を組み合わせることで進化してきたが、そのモデルパラメータへの影響は不明である。分析の結果、OPDの更新は小さく、層全体にわたって疎で、特にFFNモジュールでの相対変動が顕著であることが分かった。このスパース構造により、特定のサブネットワークのみを訓練することで高い性能を維持できるが、適応的最適化が必要な場合もある。幾何学的には、更新はフルランクだが集中した特徴を持ち、元の重みの主要な特異部分空間から離れた位置に配置されるため、OPDは密な教師監督とは異なる特性を示している。 Comment
元ポスト:
OPDはネットワーク全体に対して更新をかけるのではなく、小さなサブネットワーク(主にFFN)に対して更新をかける
[Paper Note] RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation, Leyi Pan+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#On-Policy Issue Date: 2026-06-11 GPT Summary- OPSDはモデル自身の分布を特権的コンテキストに合わせて監督し、しかしスタイルのトークンに偏りがちな学習信号を生む。「特権誘発スタイルドリフト」と呼ぶこの問題に対処するため、RLCSDを提案。正誤に関係なくヒントを条件付けることでスタイルシフトを抑え、タスクへの集中信号を生成。Qwen3やOlmo-3-7Bでの実験により、RLCSDがGRPOおよび従来手法を上回ることを示し、一般的な対照原理の適用可能性も確認。 Comment
元ポスト:
[Paper Note] Trajectory-Refined Distillation, Li Jiang+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#read-later #On-Policy #Author Thread-Post Issue Date: 2026-06-11 GPT Summary- オンポリシー蒸留(OPD)の背後の構造的原因を「プレフィックス・フェイラー」として特定。これにより、トークンごとの密な教師監督が二峰性の教師混合を生じ、切り捨てや再重み付けでは対処できない問題が発生。これを解決するために、Trajectory-Refined Distillation(TRD)を提案。TRDは、学習者のロールアウトを軌跡レベルで修正し、探索を改善。さまざまなベンチマークで一貫して従来のベースラインを上回り、推論のカバレッジを広げる。 Comment
元ポスト:
著者ポスト:
[Paper Note] On the Geometry of On-Policy Distillation, Zhennan Shen+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#On-Policy Issue Date: 2026-06-11 GPT Summary- オンポリシー蒸留(OPD)の訓練ダイナミクスをパラメータ空間で解析し、教師あり微調整(SFT)や強化学習(RLVR)と比較した結果、OPDは主成分を避けつつも、柔軟に更新を行うことが明らかになった。OPDは固定化されたサブスペース内での更新を示し、その性能を維持できる一方でSFTの性能は低下。実験により、OPDが持つ独自の更新幾何が、SFTやRLVRとは異なる特性を持つことを示唆している。 Comment
元ポスト:
[Paper Note] Reinforcement Learning from Rich Feedback with Distributional DAgger, Rishabh Agrawal+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#ReinforcementLearning #On-Policy #SelfDistillation #Author Thread-Post Issue Date: 2026-06-09 GPT Summary- 強化学習における報酬の利用は狭いが、豊かなフィードバックを効果的に活用する方法を提案。DAggerの分布的変種を用いて専門家のフィードバックを参照し、前方クロスエントロピー目的を採用することで単調な方策改善を実現。DistILは多様なタスクにおいて従来のベースラインを上回る性能を示す。 Comment
元ポスト:
[Paper Note] TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents, Jiaqi Wang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #PostTraining #On-Policy #Stability #One-Line Notes #LongHorizon #Author Thread-Post Issue Date: 2026-06-05 GPT Summary- オンポリシー蒸留(OPD)は、モデルから小型学生モデルへの能力移転に成功しているが、マルチターンエージェント設定では十分に検討されていない。本研究では、OPDの課題としてKL不安定性を特定し、これが学生モデルの訓練を不安定にさせる主な要因となることを示す。これを解決するために、時間的カリキュラム・オンポリシー蒸留(TCOD)を提案し、短いから長い軌跡への段階的な拡張を行う。実験により、TCODはKLの安定性を向上させ、従来のOPDより最大18ポイントの性能向上を実現することが確認された。 Comment
元ポスト:
multi-turn/long-horizonな設定でのOPD手法。multi-turnな設定の場合、教師モデルへのcontextにエラーが蓄積されていき徐々に教師モデルのsignalの信頼性が低下する問題があり、これに対処するためにOPDを適用するtrajectoryのターン数を序盤は短く、徐々に長くしていくようなカリキュラムで学習をする手法を提案。ターン数を深くする方向として、Forward-to-Backward/Backward-to-Forwardの2種類のシンプルな手法を用いて実験をしている。
[Paper Note] Self-Distilled Policy Gradient, Yifeng Liu+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #On-Policy #SelfDistillation #Author Thread-Post Issue Date: 2026-06-04 GPT Summary- オンポリシー自己蒸留は、言語モデルが自身の生成を特権的文脈で監督する手法で、スパース報酬強化学習に対する密な監督信号を提供する。これを逆Kullback–Leibler発散損失で具現化し、自己蒸留型方策勾配フレームワークSDPGを提案。SDPGはグループ相対検証やKL正則化を活用し、従来のベースラインよりも安定性と性能を向上させる。コードは公開されている。 Comment
元ポスト:
-
-
[Paper Note] Subliminal Learning Is Steering Vector Distillation, Camila Blank+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SubliminalLearning #One-Line Notes #Steering #Author Thread-Post Issue Date: 2026-06-04 GPT Summary- 潜在的学習とは、学生の言語モデルが教師の特性を微調整することで獲得される現象であり、意味を持たないデータから特定の特徴が伝達される仕組みは未解明である。本研究では、潜在的学習がステアリングベクトルによって媒介されることを示し、教師のプロンプトがこのベクトルによく近似され、学生が整合したベクトルを学習することを発見した。ステアリングベクトルに近似されないプロンプトは学習されないことも示され、その影響がモデルの活性化に及ぶことを明らかにした。潜在的学習には適応型オプティマイザが必要であり、勾配の一貫性が成果に影響を与えることが確認された。 Comment
元ポスト:
Subliminal Learning:
- [Paper Note] Subliminal Learning: Language models transmit behavioral traits via
hidden signals in data, Alex Cloud+, arXiv'25
Subliminal Learningが生じるのは、教師モデルが生成したデータを通じて生徒モデルが残差ストリームに対するsteering vectorが蒸留されるからであり、教師モデルが生成した何らかのデータを通じて教師モデルと同じ方向にactivationが誘導されるようになるため、という説明のようである。また、subliminal learningが生じるためにはAdamのような適応的なoptimiserが必要で(外れ値の勾配が支配的にならないため)、LoRAのような低ランクでのファインチューニングで生じやすく、フルファインチューニングでは発生しづらいとのこと。
また、細かく読めていないが、16種類の動物に関する特性に関する残差ストリームのsteering vectorを抽出し実験をした結果、steeringは実験の結果モデル間の転移は弱く、モデルアーキテクチャが共通の場合にうまく転移することが示され、このことから、モデル固有のsteering方向に依存することが示唆されるようである。
[Paper Note] OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification, Yuhang Zhou+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #PostTraining #On-Policy #Initial Impression Notes #Author Thread-Post Issue Date: 2026-06-03 GPT Summary- ロジットを用いずにチャンクレベルの監督信号で教師からのフィードバックを利用する新しいフレームワーク、OmniOPDを提案。これにより、教師モデルへのアクセス制限とトークンレベル信号の脆弱性の問題を解決。ベンチマークにおいて、OmniOPDは標準OPDを最大+28.64%上回り、高い不確実性の場面でのみ監査するよう設計されている。また、より強力なブラックボックス型教師を用いた場合には、オープンウェイト教師に対してさらに+9.54%の向上を示し、自律的な強化学習の性能を超える結果をもたらした。 Comment
元ポスト:
大抵のProprietaryモデルは出力から競合となるモデルを学習することを禁止していると思うのだが、果たして
[Paper Note] Strong Teacher Not Needed? On Distillation in LLM Pretraining, Taiming Lu+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #read-later #Initial Impression Notes Issue Date: 2026-05-27 GPT Summary- 知識蒸留における教師と生徒の関係を再検討。強→弱、同等、弱→強の関係で蒸留の有効性を分析し、教師が強力である必要はないことを発見。適切に損失を混合すれば小規模教師でも大きな生徒モデルを改善可能。教師のパラメータ数や訓練トークンの増加は蒸留効果を逆転または飽和させることも。蒸留は分布外および下流タスクの性能を同一ドメインより改善する傾向がある。これにより、強力な教師の必要性に疑問を投げかける。 Comment
元ポスト:
モデルサイズやperplexity視点での強-弱ではなく、どちらかというとdownstreamタスクでの性能の方が大事なのでは?結局のところ、生徒モデルよりも教師モデルの方が秀でている部分が何かしら存在すれば、学習シグナルを得られる可能性はあるよね、という話な気が。
[Paper Note] Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why, Mohammadreza Armandpour+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PostTraining #On-Policy #One-Line Notes #Author Thread-Post Issue Date: 2026-05-23 GPT Summary- オンポリシー蒸留は推論モデルの訓練に対し、トークンごとの監督信号を提供するが、その有効性を決定する条件は未解明である。本研究では、トークン、質問、教師ごとに動作する診断フレームワークを導入し、学生の成功確率を最大化する勾配を導出。理想の勾配との整合性を評価し、蒸留指導が誤ったロールアウトに対して高い整合性を示すことを発見。最適な蒸留文脈はモデルの容量とタスクに依存し、標準的な設定は存在しないことが示された。これにより、タスクごとの診断分析の重要性が強調される。 Comment
元ポスト:
(下記は著者ポストに基づく要約です。ざっくり読んだだけなので誤りがあるかもしれず、詳細は著者ポスト参照のこと)
on-policy (self) Distillationが、どのような場合に有効なのかを分析。
トークンレベルで見た時に多くのトークンが教師-生徒間でdisagreementが存在し、これらにはフォーマットに起因するトークンと、reasoningに重要なトークンの双方が存在する。
そこで、本研究では各トークンにとっての最良の勾配を導出(=生徒が正答できる確率を最大化する方向のもの)。
最適なgradientの方向がわかったので、あとは実際に蒸留をした場合の各トークンのgradientとのコサイン類似度を測ることで、どのような場合にdistillationが有用やシグナル(すなわち、生徒が正答できる確率を高めることに寄与しているか)を分析した。
分析の結果
- distillationが役に立つ場面は、生徒が誤ったロールアウトをしているケースで、正解のロールアウトをしている場合は教師モデルは役立つシグナルではなくノイズを与えているだけだった。
- 教師モデルのパラメータは大きければ大きいほど良いわけではなく、有効か否かは生徒モデルが学習シグナルを理解できるかに依存する。
- たとえば、BoolQというデータで生徒がQwen0.6Bだった場合はself-teacherに基づく勾配が、より大きな外部teacher(4--14B)による勾配と比較して、理想的な勾配に近かった(より高い類似度だった)。
- 一方で、同じデータセットで生徒モデルを1.7Bにすると、8Bの外部teacherが最も理想的なシグナルと高い類似度の勾配をもたらし、self-teacherはあまりうまく機能しなかった。
- contextのフォーマット(生のtrajectoryか要約か, mistakeを含めるか否か等)が、教師モデルの選択と同じくらいの重要
- MMLUデータでの実験で、0.6Bモデルが生徒の場合は、32Bモデルが書いたsolutionをcontextとして与えたself-teacherが理想的な勾配により近く、1.7Bの生徒の場合は、要約されたsolutionの方が良い。
- AIMEの場合、hardな問題の場合は、正解だけでなく失敗例 /典型的なミスをcontextとして与えたself-teacherが良い一方で、easyな問題では常にパフォーマンスの劣化を招く。
以上より、タスクごとに有用なdistillationの設定を模索することの重要性が示唆される、
という感じのようである。
著者ポスト:
[Paper Note] Self-Distilled Agentic Reinforcement Learning, Zhengxi Lu+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #On-Policy Issue Date: 2026-05-21 GPT Summary- SDARはRLを中心に据え、OPSDを補助目的として活用する新しいアプローチ。マルチターンエージェントにおける不安定性に対処し、教師の承認を得たトークンの蒸留を強化。ALFWorld、WebShop、Search-QAでの実験により、従来のGRPOを大幅に上回り、一貫したパフォーマンス向上を示した。 Comment
元ポスト:
[Paper Note] Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation, Yecheng Wu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #ReinforcementLearning #PostTraining #On-Policy #Author Thread-Post Issue Date: 2026-05-13 GPT Summary- OPDは大規模言語モデルのポストトレーニングに有効だが、高いインフラ要求が課題。私たちは、SFTロールアウトで教師の対数確率をオフラインに事前計算し、その再利用を提案。教師の一貫性が重要であることを確認し、それを保証するフレームワークLightning OPDを設計。この手法により、標準OPDと同等の最適解を維持しつつ訓練効率を4倍向上。Qwen3-8B-Baseモデルからの初期化でAIME 2024で69.9%を達成し、MoEアーキテクチャにも対応。LLMのポストトレーニングに関する障壁を低減。コードは公開されています。 Comment
元ポスト:
[Paper Note] SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training, Shengkun Tang+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Pruning #SmallModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-05-13 GPT Summary- 大規模事前学習におけるエキスパート混成モデル(MoE)の圧縮を体系的に探求し、プルーニングと知識蒸留(KD)を適用する方法を検討。プルーニングは、スクラッチからの訓練よりも一貫して優れた初期化を提供し、異なる圧縮手法は同様の最終性能へ収束。簡易な部分保存型統合戦略で下流性能を向上させ、KDと損失を組み合わせることで効果を上げる。漸進的なプルーニングスケジュールはワンショット圧縮を上回り、最適化に寄与。結果として、Qwen3-Next-80A3Bモデルを圧縮し、競争力を維持する指針を提供。 Comment
元ポスト:
大規模なMoEモデルから小規模なvariantを学習する方法に関する分析
[Paper Note] Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe, Wenjin Hou+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #On-Policy #One-Line Notes Issue Date: 2026-05-09 GPT Summary- OPDは専門モデルの能力を学生モデルに統合する手法であり、その効果を制限するボトルネックを特定した。本研究では、情報価値のある状態の探索不足と教師の指導の信頼性の欠如に着目し、新たにUni-OPDという統一的なフレームワークを提案。学生視点からのデータバランシング戦略と、教師視点からの結果指向のマージン較正メカニズムを使用して、訓練を最適化。実験によりUni-OPDの効果と汎用性を示し、信頼性の高いOPDに関する洞察を得た。 Comment
元ポスト:
OPDを
- difficultyに基づいたサンプリングによって生徒モデルの探索を促し
- 生徒のtrajectoryが正しい場合はスコアがより高くなることを保証する
ことで改善しているとのこと。
[Paper Note] Co-Evolving Policy Distillation, Naibin Gu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #RLVR #On-Policy #Reference Collection Issue Date: 2026-05-06 GPT Summary- CoPDは、専門家の並行トレーニングを可能にし、RLVRとOPDを統合。専門家同士が互いの教師となることで行動パターンの一貫性を保ちながら、補完的知識を維持。実験により、CoPDがテキスト・画像・動画推論で強力なベースラインを上回ることを示し、新たなトレーニングスケーリングの可能性を示唆。 Comment
元ポスト:
[Paper Note] TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification, Adam Rida, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Initial Impression Notes Issue Date: 2026-04-25 GPT Summary- LLM分類に基づく訓練データセットを生成し、軽量な代理モデルによって低コストでトラフィックを処理することを提案。TRACERは代理モデルを本番トレースで訓練し、信頼性に応じてデプロイを管理。透明性を持たせるために、入力領域の処理やデプロイ拒否の理由を解釈可能な形で示す。77クラスのベンチマークでは83-100%のカバレッジを達成し、自然言語推論タスクでは正しくデプロイを拒否。システムはオープンソースとして提供。 Comment
元ポスト:
LLMにリクエストされる分類問題タスクのinputとLLM(教師モデル)を収集しておき、低コストで推論可能な代理モデルを学習。リクエストごとに、LLM/代理モデルどちらを利用して推論するかをRoutingし、低コストで分類タスクを解けるようにする、という話に見える。
[Paper Note] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception, Lai Wei+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #Evaluation #MultiModal #VisionLanguageModel #ThinkingWithImages Issue Date: 2026-02-16 GPT Summary- MLLMは視覚理解に優れていますが、微細な知覚には依然として課題があります。最近の手法「Thinking-with-Images」は局所情報を取り入れるもののレイテンシが高い。そこで、Region-to-Image Distillationを提案し、エージェント的ズーミングの利点を1回のフォワードパスに内在化します。マイクロクロップ領域で教師モデルにVQAデータを生成させ、それに基づく信号を全画像に蒸留。これにより、学生モデルはツールなしで微細知覚を改善。新たに提案するZoomBenchにより、モデルの性能を厳密に評価し、複数のベンチマークでトップクラスの成果を示します。さらに、思考の必要性とその利得を議論します。コードは公開されています。 Comment
元ポスト:
[Paper Note] On-Policy Context Distillation for Language Models, Tianzhu Ye+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #On-Policy #One-Line Notes #SelfDistillation Issue Date: 2026-02-13 GPT Summary- オンポリシーコンテキスト蒸留(OPCD)は、生徒モデルが自身の生成した軌跡に基づいて学習し、コンテキストに条件付けられた教師に対して逆カルバック・ライブラー divergenceを最小化するフレームワークです。OPCDは実体験知識蒸留とシステムプロンプト蒸留の応用で効果を示し、数学的推論やテキストベースのゲームでベースラインを上回り、精度向上と分布外能力の保持を実現します。また、小さな生徒モデルが大きな教師から知識を内在化できることも示しています。 Comment
元ポスト:
教師モデルにcontextを与えた上で生徒モデルのロールアウトに対してreverse KLを最小化することで、in-context learningを活用しつつオンポリシー蒸留を実施する枠組みに見える。教師モデルをstrong modelにすればteacher-student distillationの枠組みになるし、教師モデルと生徒モデルを一致させるとself-distillationとなる。
ICLを活用したself-distillationは以下でも提案されている:
- [Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
[Paper Note] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation, Wenkai Yang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #On-Policy Issue Date: 2026-02-13 GPT Summary- オンポリシー蒸留(OPD)は、学生が教師のロジット分布に合わせて生成した軌道に基づき、パフォーマンスを改善する手法であり、オフポリシー蒸留や強化学習(RL)を凌駕することが多い。本研究では、OPDが密なKL制約付きRLの特別なケースであることを示し、一般化オンポリシー蒸留(G-OPD)というフレームワークを提案。報酬スケーリング因子を導入し、ExOPDとして知られる手法が標準OPDを一貫して改善することを明らかにした。特に、異なるドメインの専門知識を統合できる設定では、学生が教師のパフォーマンスを超える可能性がある。さらに、教師のベースモデルを参照モデルとして選択することで、報酬信号が向上し蒸留パフォーマンスが向上することが確認された。研究はOPDに関する将来の知見を提供することが期待される。 Comment
元ポスト:
[Paper Note] Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts, Yingfa Chen+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #LongSequence #PositionalEncoding #Architecture #read-later #Selected Papers/Blogs #reading #RecurrentModels Issue Date: 2026-02-12 GPT Summary- ハイブリッドトランスフォーマーアーキテクチャは、ソフトマックスアテンションとRNNを組み合わせたもので、長い文脈の処理においてトレードオフを示すが、高コストな事前トレーニングが課題。既存の転送法は大量のデータを必要とし、ハイブリッドモデルの性能低下を招く。本研究では、トランスフォーマーからRNNアテンションハイブリッドモデルへの蒸留手法HALOを提案し、新たな位置エンコーディングスキームHyPEを導入したHypeNetを開発。HALOを用いてQwen3シリーズをHypeNetに変換し、わずか2.3Bトークンで同等の性能を実現しつつ、長文脈性能と効率を向上させた。
[Paper Note] AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent, Yinyi Luo+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #EfficiencyImprovement #NLP #LanguageModel #AIAgents #PostTraining Issue Date: 2026-02-10 GPT Summary- LLMを用いたマルチエージェントシステムを、AgentArkフレームワークで単一モデルに蒸留し計算効率を向上。三つの蒸留戦略で推論性能と自己修正能力を強化。効率的かつロバストなマルチエージェント開発を目指す。 Comment
関連:
- [Paper Note] Reasoning Models Generate Societies of Thought, Junsol Kim+, arXiv'26, 2026.01
[Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #On-Policy #One-Line Notes #TextualFeedback #SelfDistillation Issue Date: 2026-01-30 GPT Summary- リッチフィードバックを活用した強化学習手法SDPOを提案。従来の手法がスカラー報酬に依存するのに対し、SDPOは豊富なテキストフィードバックを用いてセルフディスティレーションを行い、モデルの誤りを特定。科学的推論や競技プログラミングにおいて、サンプル効率と精度を向上し、標準的なRLVR環境でも優れた性能を発揮。テスト時には試行回数を削減しつつ、発見確率を維持可能。 Comment
あるポリシーでロールアウトを実行し、ロールアウトの実行結果からフィードバック(e.g., runtime error messageやLLM-as-a-Judgeによるtextual feedbackなど)を得たときに、同ポリシーに対してフィードバックをcontextとして与えた上でロールアウトのtoken levelでのlog probを比較することで、token levelでどこが誤っていたかに関する学習シグナルを得る。
ポイント解説:
[Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #Catastrophic Forgetting #read-later #Selected Papers/Blogs #On-Policy #One-Line Notes #ContinualLearning #SelfDistillation #Author Thread-Post Issue Date: 2026-01-29 GPT Summary- 自己蒸留ファインチューニング(SDFT)は、デモンストレーションからオンポリシー学習を可能にし、従来の手法を上回って新しいスキルを獲得しつつ既存の能力を維持。文脈内学習を活かし、壊滅的忘却を削減しながら複数のスキルを時間と共に蓄積するモデルを実現。 Comment
元ポスト:
著者ポスト:
現在のポリシーにおいてクエリ q とexpertによるdemonstraction c によってポリシーを条件づけたモデルを教師モデルとみなし、現在のポリシーにおいてクエリだけで条件付けたモデル生徒モデルとした時に、教師モデルの分布と生徒モデルの分布のreverse KL Divergenceが最小化されるように生徒モデルを学習する((式1))。すなわち、次のポリシーの更新に対する学習シグナルを得るためにモデルのIn-Context Learningを活用している。
上記の見方はstudent-teacherにおける蒸留という観点で見た場合だが、TRPOに基づく定式化からスタートして、expertが作成したdemonstrationによって導出されるimplicitなreward functionを最大化するInverse Reinforcement Learningとして解釈し、式変形を繰り返していくと、前述のICLによる勾配と、オンポリシーRLでのポリシー最適化による勾配が一致する(式2, 式6)。
ポイント解説:
[Paper Note] Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models, Siyan Zhao+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #On-Policy #SelfDistillation Issue Date: 2026-01-23 GPT Summary- オンポリシーセルフ蒸留(OPSD)は、LLMが自らを教師と生徒として機能させ、特権情報を活用しながら異なるコンテキストでの推論を改善する新しいフレームワークです。これにより、自己のロールアウトを基に外れ値を最小化し、数学的推論ベンチマークで優れた性能を発揮。GRPOなどの強化学習手法と比較してトークン効率を4-8倍向上させました。 Comment
元ポスト:
関連:
- [Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25
所見:
ポイント解説:
[Paper Note] CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling, Taneesh Gupta+, ACL'25 Findings, 2024.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ACL #RewardHacking #PostTraining #Findings #Adaptive #Rubric-based Issue Date: 2026-02-11 GPT Summary- CARMOはダイナミックでコンテキストに関連した基準を用い、報酬モデリングの脆弱性を軽減する新手法。人間のフィードバックを取り入れ、生成された基準に基づき評価することで、報酬のハッキングを防ぎつつ、ゼロショット設定での性能を向上させ、Reward Benchで2.1%の改善を達成。Mistral-Baseに対して高いアライメントを示すデータセットも構築。 Comment
元ポスト:
[Paper Note] Inference-Time Hyper-Scaling with KV Cache Compression, Adrian Łańcucki+, NeurIPS'25, 2025.06
Paper/Blog Link My Issue
#EfficiencyImprovement #LanguageModel #NeurIPS #Test-Time Scaling #PostTraining #KV Cache #Latency Issue Date: 2026-01-25 GPT Summary- 推論時のスケーリングでは、生成効率と精度のトレードオフが求められる。LLMにおいて生成コストはKVキャッシュのサイズに依存するため、KVキャッシュの圧縮が鍵となる。新手法のダイナミックメモリスパーシフィケーション(DMS)を導入し、学習不要のスパースアテンションよりも高い精度を維持しつつ8倍の圧縮を達成。DMSは重要な情報を保持しつつトークンの削除を遅延させる。実験により、DMSを用いることで複数のLLMファミリーにおいて精度向上を実証した。 Comment
[Paper Note] Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks, Abhranil Chandra+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #SyntheticData #Reasoning #One-Line Notes Issue Date: 2026-01-11 GPT Summary- 言語モデルの推論能力は、連鎖的思考(CoT)トレースの合成データセットでの訓練によって向上することが示された。合成データはモデル自身の分布に近く、学習に適応しやすい。また、不正確なトレースでも有効な推論ステップを含むことが多い。人間の注釈データを言い換えることでパフォーマンスが向上し、欠陥のあるトレースに対する耐性も研究された。MATH、GSM8K、Countdown、MBPPデータセットを用いて、モデルの分布に近いデータセットの重要性と、正しい最終回答が必ずしも信頼できる推論プロセスの指標ではないことが示された。 Comment
元ポスト:
base modelの分布と近いStronger Modelから合成されたCoTデータでSFTすると、合成データの応答がincorrectであっても性能が向上する。分布が遠い人間により生成されたCoTで訓練するより性能改善の幅は大きく、人間が作成したCoTをparaphraseしモデルの分布に近づけると性能の上昇幅は改善する(Figure1, Table4, 5)。
[Paper Note] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation, Chiao-An Yang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #read-later #VideoGeneration/Understandings #VisionLanguageModel #3D (Scene) #3D (Video) Issue Date: 2025-12-30 GPT Summary- 4D-RGPTという専門的なMLLMを導入し、動画から4D表現を捉えることで時間的知覚を強化。知覚的4D蒸留(P4D)を用いて4D表現を転送し、包括的な4D知覚を実現。新たに構築したR4D-Benchは、領域レベルのプロンプトを備えた動的シーンのベンチマークで、4D-RGPTは既存の4D VQAベンチマークとR4D-Benchの両方で顕著な改善を達成。 Comment
元ポスト:
[Paper Note] Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models, Chen Yang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-12-13 GPT Summary- Nanbeige4-3Bは、23兆の高品質トークンで事前学習し、3000万以上の指示でファインチューニングされた高性能な小規模言語モデルです。FG-WSDトレーニングスケジューラを用いて段階的にデータを洗練し、SFTデータの質向上のために共同メカニズムを設計しました。さらに、DPDメソッドを通じてモデルを蒸留し、強化学習フェーズで推論能力を強化しました。評価結果は、同等のパラメータスケールのモデルを大幅に上回り、より大きなモデルにも匹敵することを示しています。モデルのチェックポイントは、https://huggingface.co/Nanbeige で入手可能です。 Comment
元ポスト:
3Bモデルにも関わらず10倍以上大きいモデルと同等以上の性能を発揮し、trainingのstrategyが非常に重要ということが伺える。元ポストにも各学習方法の概要が記載されているが、読みたい。
[Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Reasoning #NeurIPS #Selected Papers/Blogs #One-Line Notes #EntropyCollapse Issue Date: 2025-11-05 GPT Summary- 検証可能な報酬を用いた強化学習(RLVR)は、LLMsの推論性能を向上させるが、現在の設定では新しい推論パターンを引き出せていない。小さなkではベースモデルを上回るが、大きなkではベースモデルが優位。RLVRアルゴリズムは類似の性能を示し、ベースモデルの潜在能力を活用できていない。蒸留は新しい推論パターンを導入し、モデルの能力を拡張できる。これにより、RLの改善が必要であることが示唆される。 Comment
pj page: https://limit-of-rlvr.github.io/
元ポスト:
所見:
上記所見では、「RLVRがバッチサイズ256、トークン長8192(および8つのプロンプト)で約400ステップ実行されており、何かを学ぶにはトークン量が少なすぎるのでは」という指摘があるが、著者がリプ欄でそれはablation studyでの実験のものであり、4.6節でより大規模なモデル・計算量で学習されたモデルで実験をしたが(著者が訓練したというよりも、ベースモデルとRLVR後のモデルでPass@kの性能を比較したということだと思われる)結論は変わらなかった、と反論をしている。ただし、4.6節ではstep数が言及されていない、という指摘もあり、それに対して、著者は公表されているstep数の数値を返答しているように見える。
openreview: https://openreview.net/forum?id=4OsgYD7em5
RLVRによって、サンプル効率は改善するが(= Pass@1は改善する)、モデルのreasoning能力のboundaryは狭まる(= Pass@kはRL後のモデルよりもベースモデルの方が高い。つまり、ベースモデルの方が推論可能な範囲 (reasoning boundary) が広いということ)。言い換えると、RLはベースモデルによって既に獲得されているreasoning pathを引き出すが、新たな戦略を発見しない。このことを多様なデータセット、モデル群に対するシステマチックな実験によって示した。
openreview中のweaknessにおいて、解決策の提案がlimitedであると指摘されているが、それに対して以下のようにrebuttalが記述されている:
> 1. Finer-grained reward structures: step-wise rewards guide intermediate reasoning and reduce exploration bottlenecks.
> 2. Improved exploration: Instead of naive softmax sampling, introduce structured or hierarchical search to enhance exploration efficiency.
> 3. Better long-horizon credit assignment: Use techniques to propagate reward more effectively over long CoT chains and enabling the model to assign credit to crucial intermediate steps instead the whole response
> 4. Scaling up RL training: Match RLVR compute and data scale to that of pre-training
> 5. Multi-turn tool use & external knowledge: Allow the agent to interact with tools or retrieve external facts, broadening the reasoning space beyond single-pass generation
openreview中のrebuttalに記載の通り解決策の一つとして「RLVRのスケールを事前学習並みにスケールさせる」というものがあり、理論的にRLVRがreasoning boundaryを広げないということを示したわけではなく、たとえばより多くの計算量とデータを投入した場合に関しては明らかではなさそう、という点には注意。
[Paper Note] Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs, Nicolas Boizard+, TMLR'25, 2024.02
Paper/Blog Link My Issue
#NLP #LanguageModel #TMLR #OptimalTransport #One-Line Notes Issue Date: 2025-10-30 GPT Summary- 大規模言語モデル(LLMs)の展開はコストやハードウェアの制約から実用的ではないが、知識蒸留(KD)が解決策となる。従来のロジットに基づく方法はトークナイザーの共有が必要で適用性が限られる。本研究では、最適輸送に基づくユニバーサルロジット蒸留(ULD)損失を提案し、異なるアーキテクチャ間での蒸留を可能にすることを示した。 Comment
openreview: https://openreview.net/forum?id=bwRxXiGO9A
(以下は管理人の理解が不十分なまま書かれているため誤りがある可能性が高いのでご注意ください)
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
の記述と論文を斜め読みした感じ、
従来の蒸留手法は出力(Vocab)の分布が近くなるように学習するため、教師と生徒モデル間でVocabが揃っている、すなわちtokenizerが共通でなければならず、これが教師生徒ペアを選択する際の制約となっていた。これを異なるtokenizerを持つモデル間でも蒸留可能にしたという話。これには以下の二つの課題があり
- sequence misalignment: tokenizerが異なるため、共通のsequenceに対して異なるsplitをする可能性がある
- vocabulary misalignment: 同じトークンIDが異なるtokenを指す
要は確率分布が対応づけられないのでワッサースタイン距離(=一方の確率分布をもう一方の確率分布に一致させるために必要な輸送の質量と距離よ最小コスト)によって距離を測ることを目指す(通常の教師ありDistillationのKL Divergenceをワッサースタイン距離に置き換えた損失を考える)。
が、ワッサースタイン距離はO(n^3log n)であるため近似的な解法で解く。その方法として、
- 教師のトークン列と生徒のトークン列の長さは異なるので短い方の長さに合わせてtruncateし
- ソフトマックス出力のロジットの大きさで両モデルのベクトルをソートし、小さい方をzero paddingして長さを揃えてベクトル間を比較可能にする[^1]
といった方法をとる模様?
[^1]: ソートさせたらvocabularyの整合性がとれずにでたらめな距離になるのでは?と思ったのだが、意図としては各次元が特定の単語ではなく確率順位を表すようにし、その間を比較することで分布の形(エントロピーやconfidenceの構造)の観点で比較可能にする、というニュアンスらしい。ただしこの部分についてはChatGPTの問答を通じて得た知識なので誤りがある可能性があるので注意。
[Paper Note] BitNet Distillation, Xun Wu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Quantization #PostTraining #KeyPoint Notes Issue Date: 2025-10-19 GPT Summary- BitNet Distillation(BitDistill)は、フル精度LLMを1.58ビット精度にファインチューニングする軽量なパイプラインで、計算コストを抑えつつ高いタスク特化型パフォーマンスを実現します。主な技術には、SubLNモジュール、MiniLMに基づくアテンション蒸留、継続的な事前学習が含まれ、これによりフル精度モデルと同等の性能を達成し、メモリを最大10倍節約し、CPU上での推論を2.65倍高速化します。 Comment
元ポスト:
SubLN, MiniLMについては
- [Paper Note] Magneto: A Foundation Transformer, Hongyu Wang+, ICML'23
- [Paper Note] MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers, Wenhui Wang+, ACL'21 Findings, 2020.12
を参照のこと。
既存LLMを特定タスクに1.58bitでSFTする際に、full-precisionと同等の性能を保つ方法を提案している研究。full-precision LLMを1.58 bitでSFTをするとfp16で学習した場合のbaselineと比較してパフォーマンスが大きく低下するが(そしてその傾向はモデルサイズが大きいほど強い)、提案手法を利用するとfp16でSFTした場合と同等の性能を保ちながら、inference-speed 2.65倍、メモリ消費量1/10になる模様。
手法としては、3段階で構成されており
- Stage1: low-bitに量子化されたモデルではactivationの分散が大きくなり学習の不安定さにつながるため、アーキテクチャとしてSubLNを導入して安定化を図る
- Stage2: Stage1で新たにSubLNを追加するので事前学習コーパスの継続事前学習する
- Stage3: full-precisionでSFTしたモデルを教師、1.58-bitに量子化したモデルを生徒とし、logits distillation (input x, output yが与えられた時に教師・生徒間で出力トークンの分布のKL Divergenceを最小化する)、MiniLMで提案されているMHAのdistillation(q-q/k-k/v-vの内積によってsquaredなrelation mapをQ, K, Vごとに作成し、relation mapのKL Divergenceが教師・生徒間で最小となるように学習する)を実施する
- 最終的に `L_CE + \lambda L_LD + \ganma L_AD` を最小化する。ここで、L_CEはdownstream datasetに対するcross-entropy lossであり、L_LD, L_ADはそれぞれ、logit distillation, Attention Distillationのlossである。
ポイント解説:
[Paper Note] Put Teacher in Student's Shoes: Cross-Distillation for Ultra-compact Model Compression Framework, Maolin Wang+, KDD'25
Paper/Blog Link My Issue
#NLP #SmallModel #SIGKDD #Encoder #EdgeDevices Issue Date: 2025-08-28 GPT Summary- リソース制限のあるエッジ環境で効率的なNLPモデルを展開するために、クロス蒸留法を用いたEdge ultra-lIte BERTフレームワーク(EI-BERT)を提案。EI-BERTはモデル圧縮のためにハードトークンプルーニング、クロス蒸留、パラメータ量子化を活用し、最小1.91 MBのBERTベースモデルを実現。Alipayエコシステムで成功裏に展開され、840万のデイリーアクティブデバイスにレコメンデーショントラフィックを提供。 Comment
元ポスト:
[Paper Note] DINOv3, Oriane Siméoni+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#ComputerVision #Self-SupervisedLearning #Regularization #read-later #Selected Papers/Blogs #Backbone #One-Line Notes #Reference Collection #needs-revision Issue Date: 2025-08-14 GPT Summary- 自己教師付き学習は、手動でのデータ注釈を不要とし、モデルのスケーラビリティを向上させる。DINOv3は、様々なデータソースから視覚表現を学ぶための新たな枠組みを提供し、データセットとモデルサイズの拡張や密な特徴マップの劣化問題に対処する「グラム・アンカリング」を導入。また、後処理戦略により柔軟性を高め、ファインチューニングなしで様々な設定で最先端の性能を発揮する。DINOv3は高品質な特徴量を生成し、広範な視覚タスクにおいて優れた結果を示し、多様なデプロイメントシナリオに対応するソリューションを提供する。 Comment
元ポスト:
HF: https://huggingface.co/docs/transformers/main/en/model_doc/dinov3
解説:
サマリ:
v2:
- [Paper Note] DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24
本日配信された岡野原氏のランチタイムトークによると、学習が進んでいくと全部の特徴量が似通ってきてしまう問題があったが、Gram Anchoringと呼ばれる、学習初期時点でのパッチ間の類似度度行列を保持しておき正則化として損失に加えることで、そこから離れすぎないように学習するといった工夫を実施しているとのこと。
詳細な日本語解説:
https://zenn.dev/syu_tan/articles/6df2947eb6c1ae
Gram Anchoringの気持ちとしては、長期で学習をすると、モデルがグローバルな特徴量を学習可能だが、個々のパッチレベルや密な部分のローカルな特徴量が失われていってしまい、ローカルな特徴が重要なdownstreamタスクの性能が劣化するため、これをなんとかしたい。そのために、画像全体のパッチ間の類似度行列によって、パッチ全体の類似度の構造を捉え、学習初期の高品質なローカルな特徴を捉えられたモデルを教師とし、そこから離れすぎないように学習中のモデルを生徒として正則化することで解決する、というものだと思われる。
事前学習のスケジューラーの工夫として以下を実施している:
- 事前学習の終了タイミングを事前に予測することは困難
- →事前に総ステップ数を指定しなければならないパラメータのスケジューリングはそもそも困難
- →スケジューリングを廃止する
- スケジューリングを廃止する代わりに
- 学習率とweight decay、teacher EMAのmomentumを固定して学習を実施
-
[Paper Note] NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks, Yang Li+, arXiv'25
Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #Reasoning Issue Date: 2025-07-03 GPT Summary- 教師モデルからの推論トレースを用いて生徒モデルの能力を向上させる方法を体系的に研究。NaturalReasoningに基づく高品質な「NaturalThoughts」をキュレーションし、サンプル効率とスケーラビリティを分析。データサイズの拡大が性能向上に寄与し、多様な推論戦略を必要とする例が効果的であることを発見。LlamaおよびQwenモデルでの評価により、NaturalThoughtsが既存のデータセットを上回り、STEM推論ベンチマークで優れた性能を示した。 Comment
元ポスト:
[Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #PostTraining #read-later #Author Thread-Post Issue Date: 2025-06-23 GPT Summary- 強化学習教師(RLT)を用いて推論言語モデル(LM)のトレーニングを行い、タスク探索の課題を回避する新しいフレームワークを提案。RLTは問題の質問と解決策を提示し、学生に合わせた説明を通じて理解をテストし、密な報酬でトレーニングされる。7BのRLTは、競技および大学レベルのタスクで既存の蒸留パイプラインよりも高いパフォーマンスを示し、分布外タスクへの適用でも効果を維持する。 Comment
元ポスト:
[Paper Note] Distillation Scaling Laws, Dan Busbridge+, ICML'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #SmallModel #ICML #Scaling Laws #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-05-29 GPT Summary- 蒸留モデルの性能を推定するための蒸留スケーリング法則を提案。教師モデルと生徒モデルの計算割り当てを最適化することで、生徒の性能を最大化。教師が存在する場合やトレーニングが必要な場合に最適な蒸留レシピを提供。多くの生徒を蒸留する際は、監視付きの事前学習を上回るが、生徒のサイズに応じた計算レベルまで。単一の生徒を蒸留し、教師がトレーニング必要な場合は監視学習を推奨。蒸留に関する洞察を提供し、理解を深める。 Comment
著者ポスト:
-
-
openreview: https://openreview.net/forum?id=1nEBAkpfb9
手元にSFTのデータがあったときにSLMを学習したいという状況で、固定の計算資源があったときに、巨大な教師モデルをSFTで学習してから小型モデルに蒸留するのが良いのか、小型モデルを直接SFTする方が良いのか、どのように教師モデルと生徒モデルに計算資源を割り当てるのが最適かという観点でscaling lawを導出しているようである。
下記Appendixや著者ポストにある通り、知見を一言で言うと
- Distillationでは、SFTによって生み出されるモデルよりも良いモデルを生み出すことはできない
- しかしながら、DistillationではSFTよりも効率的にSFTで学習した場合と比較して良いモデルを学習できる
- 言い換えると、十分な計算量とデータが与えられるとDistillationの効率性は消失する
という感じだろうか。つまり、達成可能な性能のピーク値はSFTを超えられないが、Distillationの方がSFTよりも効率的に学習ができる、という感じに見える。
[Paper Note] NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv'25, 2025.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #SyntheticData #Reasoning #Author Thread-Post Issue Date: 2025-02-19 GPT Summary- 数学やコーディングを含む多様な領域の推論能力を向上させるため、280万問の多様で挑戦的な推論問題を含むデータセットNaturalReasoningを導入。知識蒸留実験により、強力な教師モデルから効果的に推論能力が引き出されることを示し、自己訓練や自己報酬でも有効であることを証明。NaturalReasoningは今後の研究を促進するために公開されている。 Comment
元ポスト:
[Paper Note] On Teacher Hacking in Language Model Distillation, Daniil Tiapkin+, arXiv'25, 2025.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ICML #TeacherHacking #Reference Collection #Reading Reflections Issue Date: 2025-02-10 GPT Summary- LMのポストトレーニングは、知識蒸留とRLHFに依存し、報酬ハッキングの課題を指摘。教師LMからの「教師ハッキング」が存在することを検証。実験では、固定オフラインデータで教師ハッキングが発生し、多項式収束法則から逸脱することを観測。オンラインデータ生成技術がハッキングを緩和できることを示し、データの多様性が重要な要因であると結論。これにより、LM構築の蒸留の利点と限界が明らかに。 Comment
元ポスト:
自分で蒸留する機会は今のところないが、覚えておきたい。過学習と一緒で、こういう現象が起こるのは想像できる。
openreview: https://openreview.net/forum?id=qxSFIigPug¬eId=CAgFzoMVit
[Paper Note] Reverse Thinking Makes LLMs Stronger Reasoners, Justin Chih-Yao Chen+, NAACL'25
Paper/Blog Link My Issue
#NLP #DataAugmentation #NAACL #Verification #KeyPoint Notes Issue Date: 2024-12-02 GPT Summary- 逆思考は推論において重要であり、我々は大規模言語モデル(LLMs)向けにReverse-Enhanced Thinking(RevThink)フレームワークを提案。データ拡張と学習目標を用いて、前向きと後向きの推論を構造化し、マルチタスク学習で小型モデルを訓練。実験では、ゼロショット性能が平均13.53%向上し、知識蒸留ベースラインに対して6.84%の改善を達成。少ないデータでのサンプル効率も示し、一般化能力が高いことが確認された。 Comment
## 手法概要
Original QuestionからTeacher Modelでreasoningと逆質問を生成(Forward Reasoning, Backward Question)し、逆質問に対するReasoningを生成する(Backward Reasoning)。
その後、Forward Reasoningで回答が誤っているものや、Teacher Modelを用いてBackward ReasoningとOriginal Questionを比較して正しさをverificationすることで、学習データのフィルタリングを行う。
このようにして得られたデータに対して、3種類の項をlossに設けて学習する。具体的には
- Original Questionから生成したForward Reasoningに対するクロスエントロピー
- Original Questionから生成したBackward Questionに対するクロスエントロピー
- Backward Questionから生成したBackward Reasoningに対するクロスエントロピー
の平均をとる。
また、original questionと、backward reasoningが一貫しているかを確認するためにTeacher Modelを利用した下記プロンプトでverificationを実施し、一貫性があると判断されたサンプルのみをSFTのデータとして活用している。
Teacherモデルから知識蒸留をするためSFTが必要。あと、正解が一意に定まるようなQuestionでないとbackward reasoningの生成はできても、verificationが困難になるので、適用するのは難しいかもしれない。
[Paper Note] On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes, Rishabh Agarwal+, ICLR'24, 2023.06
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #ICLR #Selected Papers/Blogs #Off-Policy #On-Policy #One-Line Notes Issue Date: 2025-10-30 GPT Summary- 一般化知識蒸留(GKD)は、教師モデルからのフィードバックを活用し、生徒モデルが自己生成した出力シーケンスで訓練する手法。これにより、出力シーケンスの分布不一致の問題を解決し、柔軟な損失関数の使用が可能になる。GKDは蒸留と強化学習の統合を促進し、要約、翻訳、算術推論タスクにおける自動回帰言語モデルの蒸留においてその有効性を示す。 Comment
openreview: https://openreview.net/forum?id=3zKtaqxLhW
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
での説明に基づくと、
オフポリシーの蒸留手法を使うと、教師モデルが生成した出力を用いて蒸留をするため、生徒モデルが実際に出力するcontextとは異なる出力に基づいて蒸留をするため、生徒モデルの推論時のcontextとのミスマッチが生じる課題があるが、オンポリシーデータを混ぜることでこの問題を緩和するような手法(つまり実際の生徒モデル運用時と似た状況で蒸留できる)。生徒モデルが賢くなるにつれて出力が高品質になるため、それらを学習データとして再利用することでpositiveなフィードバックループが形成されるという利点がある。また、強化学習と比較しても、SparseなReward Modelに依存せず、初期の性能が低いモデルに対しても適用できる利点があるとのこと(性能が低いと探索が進まない場合があるため)。
[Paper Note] Compact Language Models via Pruning and Knowledge Distillation, Saurav Muralidharan+, NeurIPS'24
Paper/Blog Link My Issue
#NLP #LanguageModel #Pruning #NeurIPS #read-later Issue Date: 2025-03-16 GPT Summary- 本論文では、既存の大規模言語モデル(LLMs)をプルーニングし、少量のトレーニングデータで再トレーニングする手法を提案。深さ、幅、注意、MLPプルーニングを知識蒸留と組み合わせた圧縮ベストプラクティスを開発し、Nemotron-4ファミリーのLLMを2-4倍圧縮。これにより、トレーニングに必要なトークン数を最大40倍削減し、計算コストを1.8倍削減。Minitronモデルは、ゼロからトレーニングした場合と比較してMMLUスコアが最大16%改善され、他のモデルと同等の性能を示す。モデルの重みはオープンソース化され、補足資料も提供。 Comment
A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv'24
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel Issue Date: 2025-02-01 GPT Summary- 大規模言語モデル(LLMs)における知識蒸留(KD)の重要性を調査し、小型モデルへの知識伝達やモデル圧縮、自己改善の役割を強調。KDメカニズムや認知能力の向上、データ拡張(DA)との相互作用を検討し、DAがLLM性能を向上させる方法を示す。研究者や実務者に向けたガイドを提供し、LLMのKDの倫理的適用を推奨。関連情報はGithubで入手可能。
[Paper Note] Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23, 2023.01
Paper/Blog Link My Issue
#Survey #MachineLearning #Dataset #Initial Impression Notes Issue Date: 2025-03-25 GPT Summary- データセット蒸留(DD)は、深層学習における膨大なデータのストレージやプライバシーの問題を軽減する手法であり、合成サンプルを含む小さなデータセットを生成することで、元のデータセットと同等の性能を持つモデルをトレーニング可能にする。本論文では、DDの進展と応用をレビューし、全体的なアルゴリズムフレームワークを提案、既存手法の分類と理論的相互関係を議論し、DDの課題と今後の研究方向を展望する。 Comment
訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。
Data Distillation: A Survey, Noveen Sachdeva+, arXiv'23
Paper/Blog Link My Issue
#Survey #NLP #Dataset Issue Date: 2025-02-01 GPT Summary- 深層学習の普及に伴い、大規模データセットの訓練が高コストで持続可能性に課題をもたらしている。データ蒸留アプローチは、元のデータセットの効果的な代替品を提供し、モデル訓練や推論に役立つ。本研究では、データ蒸留のフレームワークを提示し、既存のアプローチを分類。画像やグラフ、レコメンダーシステムなどの異なるデータモダリティにおける課題と今後の研究方向性を示す。
[Paper Note] Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, arXiv'23, 2023.09
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #MachineLearning #NLP #LanguageModel #SyntheticData #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2023-09-13 GPT Summary- 小型TransformerモデルTinyStoriesから、1.3十億パラメータのphi-1を開発し、教科書品質データ生成を提案。新モデルphi-1.5は、常識的推論に焦点を当て、小学校レベルの数学やコーディング課題で、非最先端LLMを上回る性能を示す。能力には一歩ずつ考えることや初歩的なインコンテキスト学習が含まれ、幻覚や偏見生成も注意が必要だが、ウェブデータの不使用により改善が見られる。phi-1.5はオープンソース化され、さらなる研究を促進。 Comment
[Paper Note] Textbooks Are All You Need, Suriya Gunasekar+, arXiv'23, 2023.06
に続く論文
20Kのトピックから、commonsense reasmning, general knowledge(科学, 日常生活, theory of mlndなど)に関するtext book likeなデータを20B合成して事前学習に活用(どのモデルで合成されたかは明記されていないように見える)
既存のより大規模なモデル(7B--13B)、web dataをフィルタリングしたデータのみで学習したモデル(phi-1.5-web-only)、phi-1でのデータ 7Bに対して上記20Bを追加したデータで学習したモデル(phi-1.5)、フィルタリングしたwebデータ、phi-1のコードデータ、phi-1.5データを40%,20%,40%でmixしたモデル(phi-1.5-web)を比較したところ、phi-1.5の全てのモデル群が.より大きな7B--13B級のモデルを上回った。
web onlyの性能は他二つと比べて悪く、後者二つの性能が高く僅差でphi-1.5-webの性能が良かった。
このことより、
- テキストブックスタイルの合成データは、様々なドメインで有用に働き巨大モデルをSLMで上回れる
- 合成データだけでなくフィルタリングしたwebデータ自体を混ぜるとさらに効果的
という話に見える。
論文のメッセージとは違うかもだが、より現代的な観点を加えると、
- より大規模なモデルから合成したデータによってデータを通じた蒸留が起き、小規模モデルに能力が転移する
という話でもある。
Teaching Small Language Models to Reason, ACL'23
Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #ACL Issue Date: 2023-07-18 GPT Summary- 本研究では、大規模な言語モデルの推論能力を小さなモデルに転送するための知識蒸留を探求しました。具体的には、大きな教師モデルによって生成された出力を用いて学生モデルを微調整し、算術、常識、象徴的な推論のタスクでのパフォーマンスを向上させることを示しました。例えば、T5 XXLの正解率は、PaLM 540BとGPT-3 175Bで生成された出力を微調整することで、それぞれ8.11%から21.99%および18.42%に向上しました。
[Paper Note] SCOTT: Self-Consistent Chain-of-Thought Distillation, Peifeng Wang+, arXiv'23, 2023.05
Paper/Blog Link My Issue
#NLP #Chain-of-Thought #ACL #One-Line Notes Issue Date: 2023-07-14 GPT Summary- 大規模言語モデル(LM)は、連鎖思考(CoT)プロンプティングを通じて自由形式の根拠を生成する能力を示すが、生成された根拠が予測と整合する保証はない。本研究では、大規模教師モデルから小さく自己一貫性を持つCoTモデルを獲得するための忠実な知識蒸留法を提案。対比的デコードを用いて金標準解答を支持する根拠を誘出し、不整合な予測を防ぐ仕組みを構築。実験で、性能が同等でありながら、提案手法がより忠実なCoT根拠を生成できることを示した。解析により、モデルが意思決定時に根拠を重視することが確認され、根拠の精練がさらなる性能向上につながる可能性が示唆された。 Comment
CoTのパフォーマンス向上がパラメータ数が大きいモデルでないと発揮せれないことは元論文 [Paper Note] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei+, NeurIPS'22, 2022.01 で考察されており、それをより小さいモデルに蒸留し発揮できるようにする、おもしろい
[Paper Note] MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers, Wenhui Wang+, ACL'21 Findings, 2020.12
Paper/Blog Link My Issue
#NLP #Transformer #Attention #ACL #Encoder #Findings #KeyPoint Notes Issue Date: 2025-10-20 GPT Summary- 自己注意関係蒸留を用いて、MiniLMの深層自己注意蒸留を一般化し、事前学習されたトランスフォーマーの圧縮を行う手法を提案。クエリ、キー、バリューのベクトル間の関係を定義し、生徒モデルを訓練。注意ヘッド数に制限がなく、教師モデルの層選択戦略を検討。実験により、BERTやRoBERTa、XLM-Rから蒸留されたモデルが最先端の性能を上回ることを示した。 Comment
教師と(より小規模な)生徒モデル間で、tokenごとのq-q/k-k/v-vのdot productによって形成されるrelation map(たとえばq-qの場合はrelatiok mapはトークン数xトークン数の行列で各要素がdot(qi, qj))で表現される関係性を再現できるようにMHAを蒸留するような手法。具体的には、教師モデルのQKVと生徒モデルのQKVによって構成されるそれぞれのrelation map間のKL Divergenceを最小化するように蒸留する。このとき教師モデルと生徒モデルのattention heads数などは異なってもよい(q-q/k-k/v-vそれぞれで定義されるrelation mapははトークン数に依存しており、head数には依存していないため)。
Understanding Self-Distillation and Privileged Information Distillation, Penaloza+, 2026
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #read-later #Selected Papers/Blogs #On-Policy #SelfDistillation Issue Date: 2026-06-05
The Imitation Game: State of Policy Distillation in Language Model training, 032-Chinmay Karkar, 2026.05
Paper/Blog Link My Issue
#Article #Tutorial #Survey #NLP #LanguageModel #ReinforcementLearning #Catastrophic Forgetting #PostTraining #On-Policy #KeyPoint Notes #SelfDistillation #Author Thread-Post Issue Date: 2026-05-26 Comment
元ポスト:
- On Policy DistillationはKnowledge Distillationの一種で、教師モデルの知識を小さなモデルに蒸留する
- off policy KD Objectiveの場合は固定されたオフラインデータを用いるが、on policy distillationは生徒モデル自身が生成したデータに対するシグナルに基づいて学習される。
- off policy手法の課題はCatastrophic Forgettingと、(sequence長に対するquadraticな)エラーの蓄積がある。
- (オフポリシーRLの特殊なケースとみなすことができる)SFTはForward KLに基づいており、教師モデルの出力分布が確率を持つ部分に対して、生徒モデルの確率がゼロの場合はKLが発散するため、学習される生徒モデルの分布さスムージングされた分布になる。つまり、教師モデルの出力パターンを網羅できるように分布が学習される。
- このような手法で複数のドメインのデータで学習をした場合、分布のシフトが生じやすくCatastrophic Forgettingが生じやすい。
- on policy RLでは、Reverse KLが採用されており、この場合教師が確率が低いと考える場所に高い確率を割り振った場合のみに大きなペナルティを受けるため、教師の重要なモードをカバーしていれば、教師の他のモード全体は無視できる。これにより、学習したいモード以外の挙動に影響を与えにくく、特定のモードの学習ができる。
- (SFTがCatastrophic Forgettingが起きやすそうということは理解できるが、オフポリシーRL全体においてCatastrophic Forgettingが起きやすい問題があるという文脈で書かれている気がしており(エラーの蓄積の冒頭でオフポリシーRLのもう一つの根本的な課題は、という文脈で書かれているため)、SFTの議論がオフポリシーRL全体につながるのかがわからず、モヤっとする。が、LLMのpost-traingではCatrastrophic Forgettingが問題であるという文脈であれば理解できる)
- また、on-policyな学習ではエラーの蓄積を線形に留めることができることが示されている(off-policyな手法ではポリシーが生成したデータで訓練されていないため、inference時の冒頭でミスをすると学習時に観測していないトークンスペースを扱わなければならなくなり、さらにミスが増えモード崩壊に陥る)。
- on policy distillationは直接的にこのexposure biasのgapを小さくする。すなわち、学習時のinput(教師モデルが生成)と推論時のinput(生徒モデルが生成)の分布のgapを縮める。
- 生徒は学習時に常に自身の出力に基づいて学習するため、学習時のprefixと推論時のprefixの傾向が一致しやすい。このため生成時にエラーが起きてもin-distributionとなるため、エラーの蓄積が低減される。
以後はon policy distillation, on policy self-distillationの最新研究のサーベイと動向について記載されている。
関連:
- [Paper Note] Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting, Howard Chen+, arXiv'25, 2025.10
- [Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, ICLR'26
- Multi-Teacher On-Policy Distillation: A New Post-Training Primitive, Yumo Xu, 2026.04
後半のサーベイパートなどで記述があったのかもしれないが、OPDでは、GRPOなどで主流なRLVRなどと比較して、報酬のシグナルがdenseであるという点も押さえておきたい。
Multi-Teacher On-Policy Distillation: A New Post-Training Primitive, Yumo Xu, 2026.04
Paper/Blog Link My Issue
#Article #Multi #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #Selected Papers/Blogs #On-Policy #One-Line Notes Issue Date: 2026-05-08 Comment
元ポスト:
(multi teacher)オンポリシー蒸留の解説を、気持ち(何かに特化させると、他の部分が劣化していて、多方面に優れたモデルを学習するのが難しい課題を克服したい)だけでなく、
GRPOに対してAdvantage部分を生徒と教師モデルのreverse KLに置き換えることで統合できるよ、という説明と、
なぜreverse KLを使うのかという説明[^1]、
最近の最先端のOpenLLMにおいてmulti teacher オンポリシー蒸留がどのように使われているかが丁寧に説明されている。
[^1]: forward KLだと教師が少しでも確率を持つトークンにおいて生徒の確率が0だと発散するのでスムージングされた分布になってしまい、特定のトークンにフォーカスした分布が形成されづらく、テキスト生成の多峰性と(意味不明な出力をできるだけ回避するという意味での)安全性の観点からreverse KLの相性が良いよ、という話)
関連:
- 【LLM】On-Policy Distillation入門:小規模モデルを「実戦」で育てる技術, Currently Learning そんけいご, Zenn, 2026.02
解説と所見:
【LLM】On-Policy Distillation入門:小規模モデルを「実戦」で育てる技術, Currently Learning そんけいご, Zenn, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #PostTraining #Selected Papers/Blogs #On-Policy #Reading Reflections Issue Date: 2026-05-08 Comment
直感的な説明だけでなく、数式ベースの説明、RLとの比較などがコンパクトにまとまっておりとてもわかりやすかった...!!勉強になりました
Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles, Google, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SyntheticData #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection #Critic #Reading Reflections #Human-in-the-Loop #Author Thread-Post Issue Date: 2026-04-19 Comment
元ポスト:
公式:
解説:
(詳細は解説や元ブログ参照のこと)
強い教師モデルから弱い生徒モデルを学習する場合の合成データ生成手法で、
生成したいデータの観点(内容、形式等)を分類し、どの観点からどの程度の難易度のデータを合成するかを制御する。その後生成されたデータが正しいか/正しくないかの2方向から批評を行いvalidationをするような枠組みのようである。
単純なデータ合成では性能がすぐに頭打ちになるが、ローカル多様性(特定のパターンの多様性)、グローバル多様性(データ全体がカバーするパターンの範囲)の2つを同時に大きくしないと不十分であることや、批判によるvalidationは少なくとも性能を悪化させることはないことも示されたとのこと。
Distilling 100B+ Models 40x Faster with TRL, Hugging Face, 2026.04
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Blog #One-Line Notes #Author Thread-Post Issue Date: 2026-04-13 Comment
元ポスト:
on-policy蒸留(生徒モデルが生成したロールアウトに対して教師モデルが評価を与える方式)を、バッチ処理や、生徒モデルと教師モデルの通信量を削減するためバイナリ形式に変換してやり取りするなどの工夫をして高速化した話とのこと。
著者ポスト:
How much does distillation really matter for Chinese LLMs?, Interconnects, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #read-later Issue Date: 2026-02-27 Comment
関連:
- Detecting and preventing distillation attacks, Anthropic, 2026.02
Accelerating Diffusion Models with an Open, Plug-and-Play Offering, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Tools #NLP #Library #DiffusionModel #TextToImageGeneration #PostTraining #2D (Image) #Editing #3D (Video) #TextToVideoGeneration #ImageToTextGeneration Issue Date: 2026-01-29 Comment
元ポスト:
self forcingも実装されている
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
Gemini 3 Flash: frontier intelligence built for speed, Google, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #Proprietary #One-Line Notes #Reference Collection Issue Date: 2025-12-18 Comment
元ポスト:
Gemini 2.5 Proよりも3倍高速でかつ様々なベンチマークで上回っているとのこと。素晴らしい。Gemini 3 Proと比較しても基本的なQAや数学的な能力(reasoning能力)は性能に遜色なく、long sequence/contextの取り扱いでは明確に劣っている、という感じに見えるので、普段使いではこちらでも困らなそうに感じる。
Hallucination Rateが非常に高いとのことだが果たして:
Proからlogit baseな蒸留をして事前学習(=distillation pretraining)をしているっぽい?
Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #Blog #On-Policy #reading Issue Date: 2025-10-30 Comment
元ポスト:
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。
On-Policy Distillation, Thinking Machines, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #read-later #Selected Papers/Blogs #On-Policy Issue Date: 2025-10-27 Comment
元ポスト:
所見:
解説:
OpenReasoning-Nemotron: A Family of State-of-the-Art Distilled Reasoning Models, Nvidia, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #OpenSource Issue Date: 2025-07-18 Comment
DeepSeek-R1-0528から応答を合成したデータでSFTのみを実施し、32BでQwe3-235B-A22Bと同等か上回る性能。アーキテクチャはQwen2.5。データはOpenCode/Math/Scienceを利用。
元ポスト:
データも公開予定
SNLP2023:Is GPT-3 a Good Data Annotator?, Yuki Zenimoto, 2023.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SyntheticData #Slide #Finetuning #One-Line Notes #DownstreamTasks #Reading Reflections Issue Date: 2023-09-05 Comment
GPT3でデータを作成したら、タスクごとに有効なデータ作成方法は異なったが、人手で作成したデータと同等の性能を達成するデータ(BERTでfinetuning)を、低コストで実現できたよ、という研究
この辺の話はもはや [Paper Note] Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, arXiv'23, 2023.08 を使えばいいのでは、という気がする。
