Scheduler


Paper/Blog Link My Issue
#NLP #LanguageModel #mid-training #Batch #One-Line Notes #Data Issue Date: 2026-05-27 GPT Summary- 大規模言語モデル(LLM)の訓練におけるデータ品質の重要性を考慮し、バッチサイズとデータ品質を共同でスケジュールする理論的指針を提供。高品質データは信号の増幅に貢献し、適切なバッチサイズを用いることでノイズを低減する役割も果たす。従来の方法がこの第一の役割を無視する中で、新たに提案するDrop-Stable-Rampupは、品質転換時にバッチサイズを調整し信号の蓄積を促進。評価実験では、各種モデルと数学的推論ベンチマークで顕著な性能向上を実現。 Comment

元ポスト:

Loading…

mid-training(より高品質なデータ)に転換したタイミングにおいて、**バッチサイズを**Drop (mid-trainingではノイズが小さいため、バッチサイズを小さくより多くの勾配ステップを踏むことで、学習シグナルを蓄積)し、その後Stable(しばらく最小バッチサイズを維持し、学習シグナル獲得を最大化)、最終的にRampup(バッチサイズを線形に拡大(学習率の減衰と等価)することで、最終的な収束に向けて蓄積されたノイズを抑制する)といった、学習データの品質に合わせたバッチサイズのスケジューリング Drop-Stable-Rampupを提案

image

ポイント解説:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #Scheduler-free Issue Date: 2026-05-27 GPT Summary- Schedule-Free Learningは、任意の時点で効果的に訓練できる手法として、高い成果を挙げているが、これまで小規模なスケールでの適用に限られていた。私たちは、この手法を大規模モデルとバッチサイズに拡張するための修正を行い、学習率やスケジュールが不要なScheduleFree+を提案。これにより、従来のWSDスケジュールを上回る訓練が実現され、長時間の訓練で特に効果を発揮することが示された。パラメータあたりのトークン数が1000で、先端技術よりも31%の性能向上を達成した。さらに、この手法はモデル平均化とチェックポイントのマージ利用の理論的基盤も提供する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #mid-training #PostTraining #One-Line Notes #DownstreamTasks Issue Date: 2026-03-20 GPT Summary- 学習率スケジューリングが大規模言語モデルの事前学習とSFT後の性能に与える影響を調査。特に、ウォームアップ後に学習率を一定に保つWarmup-Stable-Only(WSO)スケジューラが、減衰ベースのスケジューラよりも一貫してSFT後の性能を向上させることを示す。分析によれば、WSOは平坦な極小値を維持し、訓練戦略としての有用性を強調。これにより、モデルの適応性を高める指針を提供。 Comment

元ポスト:

Loading…

事前学習中にweight decayを実施しない方が、(事前学習終了時点での性能は劣化するが)SFT後のdownstreamタスクの性能を高める。




Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #mid-training #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #Data Issue Date: 2026-03-07 GPT Summary- ターゲット領域向けの言語モデルの構築には、汎用ウェブテキストでの事前学習とターゲットデータでのファインチューニングが行われる。驚くべきことに、ファインチューニング中に汎用データをリプレイすることで、ターゲットタスクの性能が向上することが確認された。具体的には、4百万トークンのターゲットデータを使用した場合、汎用リプレイによりデータ効率が最大1.87倍、ミッドトレーニングで2.06倍向上した。また、事前学習中にターゲットデータが少ないほどリプレイ効果が高いことが分かった。80億パラメータのモデルでの実験により、エージェントのウェブナビゲーション成功率やバスク語の質問応答精度が向上したことを示した。 Comment

元ポスト:

Loading…

事前学習以後の中間学習やファインチューニング(事後学習)において、特定のドメインやタスクに特化させるための追加の学習を行う際に、破壊的忘却を防ぐために一定量の事前学習データを混ぜることはよく行われていたが、実際には破壊的忘却を防ぐだけでなく、ターゲットドメインの学習効率を大幅に高める(1.5Bモデルの実験ではファインチューニングでは1.87倍、中間学習では2.06倍)ことがわかり、これは70B級の大規模なモデルでも同様に生じることが明らかになった、という話らしい。興味深い。

解説:

Loading…




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Optimizer #Scaling Laws #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-12 GPT Summary- 深層学習の最適化ダイナミクスを分析し、凸性とリプシッツ連続性の観点から損失の制御を探求。弱凸的な挙動を示し、学習率スケジュールによる損失の予測可能性を提供。学習率と損失のスケーリング法則を提案し、トレーニング期間で80倍、モデルサイズで70倍の外挿が可能であることを実証。 Comment

元ポスト:

Loading…

深層学習モデルにおけるモデルサイズNと学習ステップ数Tを変数としたときに、最適ピーク学習率η_peakと最終損失のそれぞれについてスケーリング則を導出しているようである(1/sqrt(T)にスケールする)。実用上は、式5.1に示されているように小規模なモデル、小規模なステップ数の学習から得られた最適ピーク学習率から、より大規模かつlongrunの学習時の最適なピーク学習率を推定でき、これか分かるとsqrt(T)倍することで基準値η_refを得る。この基準値η_refと
L_inf(N)(モデルパラメータNの元での損失の加減)とQ(N)(なんらかの定数q_1, q_2に基づいて定義されるようだがよくわかっていない)を線形回帰で予測することで、最終損失も予測できる、という感じのようである。




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws Issue Date: 2026-02-09 GPT Summary- FSLフレームワークを用いて最適学習率スケジュールを研究。損失ダイナミクスは信号学習速度源指数とノイズ忘却容量指数で支配され、固定トレーニングホライズンに基づく最適スケジュールを導出。易しいタスクでは指数減衰、難しいタスクではウォームアップ安定減衰の構造を示す。ピーク学習率のみを調整する固定スケジュールの強みと限界を評価し、一般的なスケジュールの原則的評価を行う。また、パワー減衰LRSをSGDに適用し、ミニマックス最適率を達成することを示した。実験が理論予測を支持。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws Issue Date: 2026-02-09 GPT Summary- 学習率の設定は深層学習モデルのトレーニングにおいて重要だが、経験的な試行錯誤が多い。本研究では、SGDによるパワーロウランダムフィーチャーモデルに対する最適学習率スケジュールを探求し、簡単なフェーズと難しいフェーズが存在することを明らかにした。簡単なフェーズでは多項式的減衰が最適であり、難しいフェーズではウォームアップ安定減衰になる。学習率とバッチサイズの共同最適化を検討し、計算最適なスケーリング法則を予測。また、運動量の最適スケジュールも考慮し、モデルの性能向上を図った。実験により、提案スケジュールが他のベンチマークより優れた結果を示すことを確認した。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay, Binghui Li+, arXiv'26, 2026.02




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #In-ContextLearning #PostTraining #Stability #Routing #Initial Impression Notes #BudgetAllocation Issue Date: 2026-02-05 GPT Summary- GRPOを用いた訓練において、$V_0$という新たなバリューモデルを提案。これはパラメータ更新を必要とせず、モデルの期待パフォーマンスを推定し、能力の変化を捉える。$V_0$は成功率を予測し、効率的なサンプリングを実現。結果、LLMルーティングタスクにおいて、コストとパフォーマンスのバランスで優れた結果を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Actor-Critiqueの枠組みにおいてValueモデル(のポリシーに追従するための逐次的な更新が)重すぎる問題をGRPOはValueモデルを無くすことで回避したが今度はロールアウトのサンプリングコストがでかすぎる問題があるので、学習無しで汎用的に利用可能なValueモデル(パラメータ更新ではなくICLとして定義する)を用いて、ロールアウト前から成功率を予測し無駄なロールアウトを削減したり、クエリをどのモデルに投げるかといったルーティングをするなどの計算機リソースの配分を決めるといったことをやるらしい。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #train-inference-gap #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- 強化学習における言語モデルの訓練は不安定であり、その原因は訓練と推論の不一致にあるとされる。従来の対策では効果が薄いことが指摘され、本研究では勾配ノイズとミスマッチの連動を示し、更新サイズの縮小が効果的であることを発見。ミスマッチは動的な失敗と考え、動的に学習率を調整する新たな手法を提案。これにより、RL訓練を安定化し、不一致を抑制することができることが実証された。 Comment

元ポスト:

Loading…

Importance SamplingやFP16に設定することによるミスマッチの解決方法でも依然として(長期の訓練などにおいて)安定性の問題が出ることをAblationで確認し、提案手法がより安定することを示しているように見える。




Paper/Blog Link My Issue
#Pretraining #MachineLearning #NLP #LanguageModel #read-later #Batch #CriticalBatchSize Issue Date: 2026-01-09 GPT Summary- WSD学習率スケジューラに特化した改訂版E(S)関係を導出し、事前学習中のトレーニングデータ消費とステップのトレードオフを分析。最小バッチサイズと最適バッチサイズを特定し、動的バッチサイズスケジューラを提案。実験により、提案したスケジューリング戦略がトレーニング効率とモデル品質を向上させることを示した。 Comment

元ポスト:

Loading…

Critical batch sizeが提案された研究:
- [Paper Note] An Empirical Model of Large-Batch Training, Sam McCandlish+, arXiv'18, 2018.12




Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #Transformer #TMLR Issue Date: 2025-09-03 GPT Summary- WSD学習率スケジューラのクールダウンフェーズを分析し、異なる形状がモデルのバイアス-バリアンスのトレードオフに与える影響を明らかに。探索と活用のバランスが最適なパフォーマンスをもたらすことを示し、特に$\beta_2$の値が高いと改善が見られる。損失のランドスケープを視覚化し、クールダウンフェーズの最適化の重要性を強調。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #SmallModel #COLM #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-08-25 GPT Summary- 急成長する大規模言語モデル(LLMs)の開発におけるコストの懸念から、小規模言語モデル(SLMs)の可能性が注目されている。本研究では、MiniCPMという1.2Bおよび2.4Bの非埋め込みパラメータバリアントを紹介し、これらが7B-13BのLLMsと同等の能力を持つことを示す。モデルのスケーリングには広範な実験を、データのスケーリングにはWarmup-Stable-Decay(WSD)学習率スケジューラを導入し、効率的なデータ-モデルスケーリング法を研究した。MiniCPMファミリーにはMiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kが含まれ、優れたパフォーマンスを発揮している。MiniCPMモデルは公開されている。 Comment

Warmup-Stable-Decay (WSD)

openreview: https://openreview.net/forum?id=3X2L2TFr0f¬eId=QvwPc5chyd