LearningRate
[Paper Note] How to Set the Learning Rate for Large-Scale Pre-training?, Yunhua Zhou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #Pretraining #Pocket #NLP #LanguageModel Issue Date: 2026-01-09 GPT Summary- 学習率の最適設定は大規模事前学習において重要な課題であり、本研究では「フィッティング」と「トランスファー」の2つのパラダイムを用いて調査。フィッティングでは探索因子のスケーリング法則を導入し、複雑さを削減。トランスファーでは$μ$TransferをMixture of Expertsアーキテクチャに拡張し、適用範囲を広げる。実証結果は$μ$Transferのスケーラビリティに疑問を投げかけ、トレーニングの安定性と特徴学習の観点から分析を行い、モジュールごとのパラメータ調整の劣位を明らかにする。産業レベルの事前学習最適化に向けた実践ガイドラインと理論的視点を提供。 Comment
元ポスト:
[Paper Note] Weight Decay may matter more than muP for Learning Rate Transfer in Practice, Atli Kosson+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NeuralNetwork #Analysis #MachineLearning #Pocket #Optimizer #ZeroshotHyperparameterTransfer Issue Date: 2025-10-28 GPT Summary- 学習率の転送は、ニューラルネットワークの効率的なトレーニングを可能にする。Maximal Update Parameterization(muP)は、内部表現の更新を安定させる学習率スケーリングを提案するが、その仮定は実際のトレーニングでは短期間しか維持されないことが示された。トレーニングの後半では、重み減衰が内部表現の安定に寄与し、学習率の転送を促進する。これにより、muPは主に学習率のウォームアップとして機能し、修正されたウォームアップスケジュールで置き換え可能であることが示唆される。これらの結果は、学習率の転送に関する従来の考え方に挑戦し、muPの成功には独立した重み減衰が必要であることを示す。 Comment
元ポスト:
[Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24
Paper/Blog Link My Issue
#Analysis #Pretraining #Pocket #NLP #Transformer #Optimizer #ICML #read-later #ZeroshotHyperparameterTransfer Issue Date: 2025-08-31 GPT Summary- モデルのスケーリングには、パラメータ化やオプティマイザの選択が重要である。本研究では、パラメータとデータの整合性に関する新しい視点を提案し、広範なオプティマイザと学習率の組み合わせで数万のモデルを訓練した結果、最適な学習率スケーリングが重要であることを発見。新しい層ごとの学習率の処方は従来の方法を上回る性能を示し、Adamのイプシロンパラメータの適切なスケーリングが必要であることを明らかにし、数値的に安定した新しいAdamバージョンであるAdam-atan2を提案した。