DataRepetition


Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws #One-Line Notes Issue Date: 2026-05-08 GPT Summary- 高品質なデータが限られる中、計算資源の最適配分が重要になる。従来のChinchillaスケーリング則は、一意なトレーニングトークンを前提としており、データ制約下の効果的な学習を妨げる。私たちは過剰損失を加法的な過学習ペナルティでモデル化し、最適な資源配分に関する新たな指針を提案する。一定のポイントを超えると、繰り返しは逆効果になり、モデル容量への投資が望ましいことを示す。さらに、この法則を用いることで、データ制約下での性能向上が明らかになり、過学習の影響を一つの係数に分離することで、トレーニング設定間の比較を可能にする。特に、強いウェイト減衰が過学習係数を約70%減少させ、最適なウェイト減衰が標準実践を上回ることを示すケーススタディも含む。 Comment

元ポスト:

Loading…

所見:

Loading…


Data Repetitionはデータの効率を改善するが、同時に過学習コストが生じており、これはモデルサイズと繰り返しが増えるほど増大する。強めの正則化を導入することで過学習コストが緩和される。




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws #Reference Collection Issue Date: 2026-05-08 GPT Summary- InfoLawを導入し、大規模言語モデルのデータ混合ウェイトと反復の影響を評価。スケーリング時の最適なデータレシピ選択を信頼性高く予測し、事前学習の情報蓄積をモデル化。未見データや大規模環境での性能予測を高精度で行い、効率的なデータレシピ選択を可能に。 Comment

元ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #NeurIPS #Scaling Laws #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-03-23 GPT Summary- 言語モデルのスケーリングにおいて、データ制約下でのトレーニングを調査。9000億トークンと90億パラメータのモデルを用いた実験で、繰り返しデータを使用しても損失に大きな変化は見られず、繰り返しの価値が減少することを確認。計算最適性のスケーリング法則を提案し、データ不足を軽減するアプローチも実験。得られたモデルとデータセットは公開。 Comment

OpenReview: https://openreview.net/forum?id=j5BuTrEj35

チンチラ則のようなScaling Lawsはパラメータとデータ量の両方をスケールさせた場合の前提に立っており、かつデータは全てuniqueである前提だったが、データの枯渇が懸念される昨今の状況に合わせて、データ量が制限された状況で、同じデータを繰り返し利用する(=複数エポック学習する)ことが一般的になってきた。このため、データのrepetitionに関して性能を事前学習による性能の違いを調査して、repetitionとパラメータ数に関するスケーリング則を提案($3.1)しているようである。

Takeawayとしては、データが制限された環境下では、repetitionは上限4回までが効果的(コスパが良い)であり(左図)、小さいモデルを複数エポック訓練する方が固定されたBudgetの中で低いlossを達成できる右図)。
image

学習データの半分をコードにしても性能の劣化はなく、様々なタスクの性能が向上しパフォーマンスの分散も小さくなる、といったことが挙げられるようだ。
image