Scheduler-free
[Paper Note] Anytime Training with Schedule-Free Spectral Optimization, Anuj Apte+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Pretraining #NLP #Optimizer Issue Date: 2026-05-27 GPT Summary- SF-NorMuonを提案し、スケジュールフリーのスペクトル最適化法として、既存のSF-AdamWを上回る性能を実現。125Mおよび772Mパラメータのモデルにおいて、調整済みAdamWに匹敵または優越。定常性保証を証明し、ウェイト減衰が長期的安定に不可欠であることを示した。これにより、任意の時点で高品質なチェックポイントを取得可能にし、ホライゾンなしの最適化を実用化。 Comment
元ポスト:
[Paper Note] ScheduleFree+: Scaling Learning-Rate-Free & Schedule-Free Learning to Large Language Models, Aaron Defazio, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #Scheduler Issue Date: 2026-05-27 GPT Summary- Schedule-Free Learningは、任意の時点で効果的に訓練できる手法として、高い成果を挙げているが、これまで小規模なスケールでの適用に限られていた。私たちは、この手法を大規模モデルとバッチサイズに拡張するための修正を行い、学習率やスケジュールが不要なScheduleFree+を提案。これにより、従来のWSDスケジュールを上回る訓練が実現され、長時間の訓練で特に効果を発揮することが示された。パラメータあたりのトークン数が1000で、先端技術よりも31%の性能向上を達成した。さらに、この手法はモデル平均化とチェックポイントのマージ利用の理論的基盤も提供する。 Comment
元ポスト:
[Paper Note] AMUSE: Anytime Muon with Stable Gradient Evaluation, Jueun Kim+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #Optimizer #Finetuning #Stability #Backbone #One-Line Notes #Author Thread-Post Issue Date: 2026-05-26 GPT Summary- Muonの直交化は、勾配の振動を引き起こす高曲率部分空間の影響を受けつつ、訓練の進展を加速する。一方、Anytime Muon(AMUSE)は、迅速な適応を図るために時間変化する補間係数を利用し、安定した平均化を通じて振動を抑制する。AMUSEは学習率スケジュールを排除し、視覚タスクと大規模言語モデルの事前トレーニングにおいて、性能を一貫して向上させる。 Comment
元ポスト:
以下、上記著者ポストからの要約である。
MuonとScheduler-freeなoptimiserでの過去のtrajectoryの平均的な方向へ更新する考え方を組み合わせて、Muonの学習を安定させ、かつSchduler-freeを実現した模様。具体的には学習初期にはMuonの軌道を重視し、学習後半になるにつれ、ノイズの影響を低減するためにtrajectoryの平均方向に最適化する(時間変化する補完係数によって挙動が制御される)といったイメージのようである。
Muonがなぜうまくいくかの理論的な分析も実施されている。近年は損失関数の幾何構造をriver/valleyのようにたとえて表現するらしく、(Figure 1)、SGDは曲率の高い(勾配が急)な方向への更新される傾向があり振動をしながら川方向へ進むようだが、Muonはriver方向(曲率は小さいがモデルが最も学習が進捗する方向)への更新を増幅する働きがあるようである。しかし、ノイズとなる高曲率な谷方向への更新も増幅してしまいそれが振動や不安定さを生むため、それを是正するためにSchedule Freeな手法を組み合わせている、という気持ちのようである。また、先行研究に記載がある通り、WSDスケジューラをriver-valleyで説明する、Stableフェーズが川に沿った更新を促進し、Decayフェーズはパラメータを谷の底へ収束させる役割を果たしている、というイメージのようである。
