HyperparameterTransfer
[Paper Note] Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate, Dayal Singh Kalra+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Embeddings #Analysis #Pretraining #NLP #LanguageModel #read-later Issue Date: 2026-05-27 GPT Summary- ハイパーパラメータ転送は、小規模から大規模モデルへの最適化に不可欠で、特にスケーリング則の適合や適切なパラメータ化の選択が重要です。本研究では、ハイパーパラメータ転送をスケーリング則適合の品質、外挿誤差のロバスト性、パラメータ化による損失ペナルティの三つの指標で定量化する枠組みを提案。また、μPがSPに比べて高品質な学習率転送を提供する理由を解明し、埋め込み層の学習率最大化が訓練の安定性とハイパーパラメータ転送を向上させることを示しました。さらに、ウェイト減衰はスケーリング則の適合を促進する一方で、固定トークン設定が外挿ロバスト性を損なう可能性も指摘しました。 Comment
関連:
- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24
- [Paper Note] A Theory on Adam Instability in Large-Scale Machine Learning, Igor Molybog+, arXiv'23, 2023.04
元ポスト:
[Paper Note] Learning Rate Transfer in Normalized Transformers, Boris Shigida+, arXiv'26, 2026.04
Paper/Blog Link My Issue
Issue Date: 2026-05-06 GPT Summary- nGPTは、トレーニング速度が向上し、ウェイト減衰や学習率のウォームアップを不要とするが、モデルサイズに応じた学習率の転送を示さなかった。これを修正するため、数値実験とアラインメント指数の活用を基にハイパーパラメータ転送への新アプローチμPを再考し、νGPTと呼ばれる新しいパラメータ化を導入。広範な実証検証により、νGPTは学習率の幅・深さ・トークンホライゾンへの転送を成功させた。 Comment
元ポスト:
[Paper Note] Rethinking Language Model Scaling under Transferable Hypersphere Optimization, Liliang Ren+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Selected Papers/Blogs Issue Date: 2026-04-04 GPT Summary- HyperPは、Muonsオプティマイザを使用した超球面パラメータ化フレームワークで、スケーリング時の安定性を向上させる。最適学習率を幅や深さ、トレーニングトークンに跨って転送可能とし、計算効率を1.58倍向上。監視指標は有界で非増加を維持し、MoEゲーティング機構SqrtGateにより粒度スケーリングを改善。トレーニングコードは公開されている。 Comment
元ポスト:
[Paper Note] Deriving Hyperparameter Scaling Laws via Modern Optimization Theory, Egor Shulgin+, Sci4DL'26, 2026.03
Paper/Blog Link My Issue
#Pretraining #MachineLearning #NLP #LanguageModel #Scaling Laws Issue Date: 2026-03-24 GPT Summary- ハイパーパラメータ転送の重要性を論じ、特にモデルサイズ間の転送に焦点を当てる従来の方法に対抗して、Linear Minimization Oracle(LMO)に基づく新たなハイパーパラメータスケーリング法則を提案。学習率、モメンタム、バッチサイズの閉形式のべき法則スケジュールを導出し、文献の洞察を再現。モメンタムとバッチサイズのスケーリングの相互作用を強調し、最適な性能は多様なスケーリング戦略により達成可能であることを示す。 Comment
元ポスト:
[Paper Note] Weight Decay may matter more than muP for Learning Rate Transfer in Practice, Atli Kosson+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NeuralNetwork #Analysis #MachineLearning #Optimizer #LearningRate Issue Date: 2025-10-28 GPT Summary- 学習率の転送は、ニューラルネットワークの効率的なトレーニングを可能にする。Maximal Update Parameterization(muP)は、内部表現の更新を安定させる学習率スケーリングを提案するが、その仮定は実際のトレーニングでは短期間しか維持されないことが示された。トレーニングの後半では、重み減衰が内部表現の安定に寄与し、学習率の転送を促進する。これにより、muPは主に学習率のウォームアップとして機能し、修正されたウォームアップスケジュールで置き換え可能であることが示唆される。これらの結果は、学習率の転送に関する従来の考え方に挑戦し、muPの成功には独立した重み減衰が必要であることを示す。 Comment
元ポスト:
[Paper Note] $μ$-Parametrization for Mixture of Experts, Jan Małaśnicki+, arXiv'25
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #MoE(Mixture-of-Experts) Issue Date: 2025-08-14 GPT Summary- 本研究では、Mixture-of-Experts(MoE)モデルに対する$\mu$-Parameterization($\mu$P)を提案し、ルーターとエキスパートの特徴学習に関する理論的保証を提供します。また、エキスパートの数と粒度のスケーリングが最適な学習率に与える影響を実証的に検証します。 Comment
元ポスト:
関連: mu transfer, muP
- [Paper Note] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer, Greg Yang+, NeurIPS'21
- [Paper Note] Feature Learning in Infinite-Width Neural Networks, Greg Yang+, ICML'21
[Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #Transformer #Optimizer #ICML #read-later #LearningRate Issue Date: 2025-08-31 GPT Summary- モデルのスケーリングには、パラメータ化やオプティマイザの選択が重要である。本研究では、パラメータとデータの整合性に関する新しい視点を提案し、広範なオプティマイザと学習率の組み合わせで数万のモデルを訓練した結果、最適な学習率スケーリングが重要であることを発見。新しい層ごとの学習率の処方は従来の方法を上回る性能を示し、Adamのイプシロンパラメータの適切なスケーリングが必要であることを明らかにし、数値的に安定した新しいAdamバージョンであるAdam-atan2を提案した。
[Paper Note] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer, Greg Yang+, NeurIPS'21
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #NeurIPS #read-later #One-Line Notes Issue Date: 2025-08-28 GPT Summary- ハイパーパラメータチューニングは高コストであり、特に大規模なニューラルネットワークにおいて負担が大きい。新たに提案するmuTransferは、最大更新パラメータ化(muP)を利用し、小さなモデルでチューニングしたHPをフルサイズモデルにゼロショットで転送する手法である。実験により、1300万パラメータのモデルからBERT-largeを超える性能を達成し、4000万パラメータからはGPT-3を上回る結果を得た。チューニングコストはそれぞれ事前学習コストの同等または7%に抑えられた。 Comment
openreview: https://openreview.net/forum?id=Bx6qKuBM2AD
小規模なモデルに対してハイパーパラメータのチューニングを実施し、同様のベースモデルで、**各layerのwidthが大きいもの**に対しても、小規模モデルで最適であったハイパーパラメータをzero-shotで転移することで near optimalなハイパーパラメータで学習できるmu Transferを提案。
モデルの深さ(以外にも下表中の*印のパラメータ)に対しても限定的に転移可能な模様。Post-Layer NormのTransformerやではあまりうまくいかないことが11節に記述されている(実験はpre-Layer Norm Transformer, ResNetに対して行われている模様)。
また、6.1節では、(実験的に)利用する小規模モデルのスケールとして幅256, 深さ4, バッチサイズ32, sequence長128, 訓練ステップ数5000を最低満たしており、かつスケールさせる幅が妥当な範囲内である必要がある、といった話が記述されている。
前提知識(muP)や条件が多そうな気がするので、しっかり確認した方がよさそう。
たとえば、muPで初期化されている必要があることや、転送可能なハイパーパラメータに限りがある(e.g. 学習率)、異なるデータに対するfinetuningなどは転送できないなど。
muP:
- [Paper Note] Feature Learning in Infinite-Width Neural Networks, Greg Yang+, ICML'21
