ZeroshotHyperparameterTransfer
#Pretraining
#Pocket
#NLP
#LanguageModel
#MoE(Mixture-of-Experts)
Issue Date: 2025-08-14 [Paper Note] $μ$-Parametrization for Mixture of Experts, Jan Małaśnicki+, arXiv'25 Summary本研究では、Mixture-of-Experts(MoE)モデルに対する$\mu$-Parameterization($\mu$P)を提案し、ルーターとエキスパートの特徴学習に関する理論的保証を提供します。また、エキスパートの数と粒度のスケーリングが最適な学習率に与える影響を実証的に検証します。 Comment元ポスト:https://x.com/gm8xx8/status/1956103561126789339?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連: mu transfer, muP
・2582
・2583 #EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #Transformer #NeurIPS #read-later
Issue Date: 2025-08-28 [Paper Note] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer, Greg Yang+, NeurIPS'21 Summaryハイパーパラメータチューニングは高コストであり、特に大規模なニューラルネットワークにおいて負担が大きい。新たに提案するmuTransferは、最大更新パラメータ化(muP)を利用し、小さなモデルでチューニングしたHPをフルサイズモデルにゼロショットで転送する手法である。実験により、1300万パラメータのモデルからBERT-largeを超える性能を達成し、4000万パラメータからはGPT-3を上回る結果を得た。チューニングコストはそれぞれ事前学習コストの同等または7%に抑えられた。 Commentopenreview: https://openreview.net/forum?id=Bx6qKuBM2AD小規模なモデルに対してハイパーパラメータのチューニングを実施し、同様のベースモデルで、各layerのwidthが大きいものに対しても、小規模モデルで最適であったハイパーパラメータをzero-shotで転移することで near optimalなハイパーパラメータで学習できるmu Transferを提案。
モデルの深さ(以外にも下表中の印のパラメータ)に対しても限定的に転移可能な模様。Post-Layer NormのTransformerやではあまりうまくいかないことが11節に記述されている(実験はpre-Layer Norm Transformer, ResNetに対して行われている模様)。
また、6.1節では、(実験的に)利用する小規模モデルのスケールとして幅256, 深さ4, バッチサイズ32, sequence長128, 訓練ステップ数5000を最低満たしており、かつスケールさせる幅が妥当な範囲内である必要がある、といった話が記述されている。
前提知識(muP)や条件が多そうな気がするので、しっかり確認した方がよさそう。
たとえば、muPで初期化されている必要があることや、転送可能なハイパーパラメータに限りがある(e.g. 学習率)、異なるデータに対するfinetuningなどは転送できないなど。
muP:
・2583
Issue Date: 2025-08-14 [Paper Note] $μ$-Parametrization for Mixture of Experts, Jan Małaśnicki+, arXiv'25 Summary本研究では、Mixture-of-Experts(MoE)モデルに対する$\mu$-Parameterization($\mu$P)を提案し、ルーターとエキスパートの特徴学習に関する理論的保証を提供します。また、エキスパートの数と粒度のスケーリングが最適な学習率に与える影響を実証的に検証します。 Comment元ポスト:https://x.com/gm8xx8/status/1956103561126789339?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連: mu transfer, muP
・2582
・2583 #EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #Transformer #NeurIPS #read-later
Issue Date: 2025-08-28 [Paper Note] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer, Greg Yang+, NeurIPS'21 Summaryハイパーパラメータチューニングは高コストであり、特に大規模なニューラルネットワークにおいて負担が大きい。新たに提案するmuTransferは、最大更新パラメータ化(muP)を利用し、小さなモデルでチューニングしたHPをフルサイズモデルにゼロショットで転送する手法である。実験により、1300万パラメータのモデルからBERT-largeを超える性能を達成し、4000万パラメータからはGPT-3を上回る結果を得た。チューニングコストはそれぞれ事前学習コストの同等または7%に抑えられた。 Commentopenreview: https://openreview.net/forum?id=Bx6qKuBM2AD小規模なモデルに対してハイパーパラメータのチューニングを実施し、同様のベースモデルで、各layerのwidthが大きいものに対しても、小規模モデルで最適であったハイパーパラメータをzero-shotで転移することで near optimalなハイパーパラメータで学習できるmu Transferを提案。
モデルの深さ(以外にも下表中の印のパラメータ)に対しても限定的に転移可能な模様。Post-Layer NormのTransformerやではあまりうまくいかないことが11節に記述されている(実験はpre-Layer Norm Transformer, ResNetに対して行われている模様)。
また、6.1節では、(実験的に)利用する小規模モデルのスケールとして幅256, 深さ4, バッチサイズ32, sequence長128, 訓練ステップ数5000を最低満たしており、かつスケールさせる幅が妥当な範囲内である必要がある、といった話が記述されている。
前提知識(muP)や条件が多そうな気がするので、しっかり確認した方がよさそう。
たとえば、muPで初期化されている必要があることや、転送可能なハイパーパラメータに限りがある(e.g. 学習率)、異なるデータに対するfinetuningなどは転送できないなど。
・2583