Scheduler
[Paper Note] Replaying pre-training data improves fine-tuning, Suhas Kotha+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #mid-training #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #Data Issue Date: 2026-03-07 GPT Summary- ターゲット領域向けの言語モデルの構築には、汎用ウェブテキストでの事前学習とターゲットデータでのファインチューニングが行われる。驚くべきことに、ファインチューニング中に汎用データをリプレイすることで、ターゲットタスクの性能が向上することが確認された。具体的には、4百万トークンのターゲットデータを使用した場合、汎用リプレイによりデータ効率が最大1.87倍、ミッドトレーニングで2.06倍向上した。また、事前学習中にターゲットデータが少ないほどリプレイ効果が高いことが分かった。80億パラメータのモデルでの実験により、エージェントのウェブナビゲーション成功率やバスク語の質問応答精度が向上したことを示した。 Comment
元ポスト:
事前学習以後の中間学習やファインチューニング(事後学習)において、特定のドメインやタスクに特化させるための追加の学習を行う際に、破壊的忘却を防ぐために一定量の事前学習データを混ぜることはよく行われていたが、実際には破壊的忘却を防ぐだけでなく、ターゲットドメインの学習効率を大幅に高める(1.5Bモデルの実験ではファインチューニングでは1.87倍、中間学習では2.06倍)ことがわかり、これは70B級の大規模なモデルでも同様に生じることが明らかになった、という話らしい。興味深い。
[Paper Note] Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate, Zhiqi Bu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Optimizer #Scaling Laws #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-12 GPT Summary- 深層学習の最適化ダイナミクスを分析し、凸性とリプシッツ連続性の観点から損失の制御を探求。弱凸的な挙動を示し、学習率スケジュールによる損失の予測可能性を提供。学習率と損失のスケーリング法則を提案し、トレーニング期間で80倍、モデルサイズで70倍の外挿が可能であることを実証。 Comment
元ポスト:
深層学習モデルにおけるモデルサイズNと学習ステップ数Tを変数としたときに、最適ピーク学習率η_peakと最終損失のそれぞれについてスケーリング則を導出しているようである(1/sqrt(T)にスケールする)。実用上は、式5.1に示されているように小規模なモデル、小規模なステップ数の学習から得られた最適ピーク学習率から、より大規模かつlongrunの学習時の最適なピーク学習率を推定でき、これか分かるとsqrt(T)倍することで基準値η_refを得る。この基準値η_refと
L_inf(N)(モデルパラメータNの元での損失の加減)とQ(N)(なんらかの定数q_1, q_2に基づいて定義されるようだがよくわかっていない)を線形回帰で予測することで、最終損失も予測できる、という感じのようである。
[Paper Note] Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay, Binghui Li+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws Issue Date: 2026-02-09 GPT Summary- FSLフレームワークを用いて最適学習率スケジュールを研究。損失ダイナミクスは信号学習速度源指数とノイズ忘却容量指数で支配され、固定トレーニングホライズンに基づく最適スケジュールを導出。易しいタスクでは指数減衰、難しいタスクではウォームアップ安定減衰の構造を示す。ピーク学習率のみを調整する固定スケジュールの強みと限界を評価し、一般的なスケジュールの原則的評価を行う。また、パワー減衰LRSをSGDに適用し、ミニマックス最適率を達成することを示した。実験が理論予測を支持。 Comment
元ポスト:
[Paper Note] Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model, Blake Bordelon+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws Issue Date: 2026-02-09 GPT Summary- 学習率の設定は深層学習モデルのトレーニングにおいて重要だが、経験的な試行錯誤が多い。本研究では、SGDによるパワーロウランダムフィーチャーモデルに対する最適学習率スケジュールを探求し、簡単なフェーズと難しいフェーズが存在することを明らかにした。簡単なフェーズでは多項式的減衰が最適であり、難しいフェーズではウォームアップ安定減衰になる。学習率とバッチサイズの共同最適化を検討し、計算最適なスケーリング法則を予測。また、運動量の最適スケジュールも考慮し、モデルの性能向上を図った。実験により、提案スケジュールが他のベンチマークより優れた結果を示すことを確認した。 Comment
元ポスト:
[Paper Note] $V_0$: A Generalist Value Model for Any Policy at State Zero, Yi-Kai Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #In-ContextLearning #PostTraining #Stability #Routing #Initial Impression Notes #BudgetAllocation Issue Date: 2026-02-05 GPT Summary- GRPOを用いた訓練において、$V_0$という新たなバリューモデルを提案。これはパラメータ更新を必要とせず、モデルの期待パフォーマンスを推定し、能力の変化を捉える。$V_0$は成功率を予測し、効率的なサンプリングを実現。結果、LLMルーティングタスクにおいて、コストとパフォーマンスのバランスで優れた結果を示した。 Comment
元ポスト:
ポイント解説:
Actor-Critiqueの枠組みにおいてValueモデル(のポリシーに追従するための逐次的な更新が)重すぎる問題をGRPOはValueモデルを無くすことで回避したが今度はロールアウトのサンプリングコストがでかすぎる問題があるので、学習無しで汎用的に利用可能なValueモデル(パラメータ更新ではなくICLとして定義する)を用いて、ロールアウト前から成功率を予測し無駄なロールアウトを削減したり、クエリをどのモデルに投げるかといったルーティングをするなどの計算機リソースの配分を決めるといったことをやるらしい。
[Paper Note] Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It, Yaxiang Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #train-inference-gap #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- 強化学習における言語モデルの訓練は不安定であり、その原因は訓練と推論の不一致にあるとされる。従来の対策では効果が薄いことが指摘され、本研究では勾配ノイズとミスマッチの連動を示し、更新サイズの縮小が効果的であることを発見。ミスマッチは動的な失敗と考え、動的に学習率を調整する新たな手法を提案。これにより、RL訓練を安定化し、不一致を抑制することができることが実証された。 Comment
元ポスト:
Importance SamplingやFP16に設定することによるミスマッチの解決方法でも依然として(長期の訓練などにおいて)安定性の問題が出ることをAblationで確認し、提案手法がより安定することを示しているように見える。
[Paper Note] How to Set the Batch Size for Large-Scale Pre-training?, Yunhua Zhou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pretraining #MachineLearning #NLP #LanguageModel #read-later #Batch #CriticalBatchSize Issue Date: 2026-01-09 GPT Summary- WSD学習率スケジューラに特化した改訂版E(S)関係を導出し、事前学習中のトレーニングデータ消費とステップのトレードオフを分析。最小バッチサイズと最適バッチサイズを特定し、動的バッチサイズスケジューラを提案。実験により、提案したスケジューリング戦略がトレーニング効率とモデル品質を向上させることを示した。 Comment
元ポスト:
Critical batch sizeが提案された研究:
- An Empirical Model of Large-Batch Training, Sam McCandlish+, arXiv'18
[Paper Note] Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler, Aleksandr Dremov+, TMLR'25
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #Transformer #TMLR Issue Date: 2025-09-03 GPT Summary- WSD学習率スケジューラのクールダウンフェーズを分析し、異なる形状がモデルのバイアス-バリアンスのトレードオフに与える影響を明らかに。探索と活用のバランスが最適なパフォーマンスをもたらすことを示し、特に$\beta_2$の値が高いと改善が見られる。損失のランドスケープを視覚化し、クールダウンフェーズの最適化の重要性を強調。 Comment
元ポスト:
[Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, COLM'24
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #SmallModel #COLM #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-08-25 GPT Summary- 急成長する大規模言語モデル(LLMs)の開発におけるコストの懸念から、小規模言語モデル(SLMs)の可能性が注目されている。本研究では、MiniCPMという1.2Bおよび2.4Bの非埋め込みパラメータバリアントを紹介し、これらが7B-13BのLLMsと同等の能力を持つことを示す。モデルのスケーリングには広範な実験を、データのスケーリングにはWarmup-Stable-Decay(WSD)学習率スケジューラを導入し、効率的なデータ-モデルスケーリング法を研究した。MiniCPMファミリーにはMiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kが含まれ、優れたパフォーマンスを発揮している。MiniCPMモデルは公開されている。 Comment
Warmup-Stable-Decay (WSD)
openreview: https://openreview.net/forum?id=3X2L2TFr0f¬eId=QvwPc5chyd
Revisiting Convergence Results in Convex Optimization (Part VI), 苏剑林, 2026.01
Paper/Blog Link My Issue
#Article #Blog #read-later Issue Date: 2026-01-17 Comment
元ポスト:
