DataRepetitionに関する論文・技術記事メモの一覧

DataRepetition

[Paper Note] Train Smarter, Not Longer: Memorization-Guided Data Reuse for Efficient LLM Training, Jingwei Zuo+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel Issue Date: 2026-07-12 GPT Summary- 大型言語モデルのトレーニングパラダイムは、データの再利用においてマルチエポック訓練が推奨される一方、過学習のリスクが伴う。新たな「Memorization Window」信号を基に「Memorization-guided Data Reuse」を提案し、データ再利用の最適なタイミングと方法を決定。予備実験では、従来の4エポック制限を超えることで性能が向上することを示し、memorization-awareなトレーニングスケジュールの基盤を提供。 Comment

元ポスト:

Loading…

[Paper Note] Internal Data Repetition Destroys Language Models, Jessica Chudnovsky+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#Pretraining Issue Date: 2026-07-08 GPT Summary- 言語モデルは高品質な訓練データの反復に関する課題に直面しており、反復による性能の損失を体系的に調査。中間の反復回数で評価損失がピークに達し、モデルサイズによる影響も確認。特に、ノーリピート実行と同等の損失が生じる回数を明示し、重複が基盤に与える無駄な計算量を定量化。これにより、言語モデルの反復研究が進展し、実務者が重複の影響を評価できるようになることを示す。 Comment

元ポスト:

Loading…

[Paper Note] Repetition Mismatch: Why Data Mixture Experiments Don't Scale and How to Fix Them, Kevin Zhou+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws #DataMixture Issue Date: 2026-06-11 GPT Summary- 事前学習データの混合調整には、高品質データの不足が影響し、繰り返しの不一致が主な原因であると示す。高品質データセットの繰り返しレートは、トレーニング予算が拡大するにつれて変化し、最適な混合比を小規模実験で予測できない。サブサンプリング手法を用いることで、この効果を制御可能で、759Mパラメータのモデルにおいて、繰り返し制御により最適解に近づくことを証明。繰り返し制御を行わず同等の精度を達成するには、多くのリソースが必要になる。結果は、繰り返しが混合最適化の重要な要素であることを示唆。 Comment

元ポスト:

Loading…

[Paper Note] Prescriptive Scaling Laws for Data Constrained Training, Justin Lovelace+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws #One-Line Notes Issue Date: 2026-05-08 GPT Summary- 高品質なデータが限られる中、計算資源の最適配分が重要になる。従来のChinchillaスケーリング則は、一意なトレーニングトークンを前提としており、データ制約下の効果的な学習を妨げる。私たちは過剰損失を加法的な過学習ペナルティでモデル化し、最適な資源配分に関する新たな指針を提案する。一定のポイントを超えると、繰り返しは逆効果になり、モデル容量への投資が望ましいことを示す。さらに、この法則を用いることで、データ制約下での性能向上が明らかになり、過学習の影響を一つの係数に分離することで、トレーニング設定間の比較を可能にする。特に、強いウェイト減衰が過学習係数を約70%減少させ、最適なウェイト減衰が標準実践を上回ることを示すケーススタディも含む。 Comment

元ポスト:

Loading…

所見:

Loading…

Data Repetitionはデータの効率を改善するが、同時に過学習コストが生じており、これはモデルサイズと繰り返しが増えるほど増大する。強めの正則化を導入することで過学習コストが緩和される。

[Paper Note] InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition, Fengze Liu+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws #Reference Collection Issue Date: 2026-05-08 GPT Summary- InfoLawを導入し、大規模言語モデルのデータ混合ウェイトと反復の影響を評価。スケーリング時の最適なデータレシピ選択を信頼性高く予測し、事前学習の情報蓄積をモデル化。未見データや大規模環境での性能予測を高精度で行い、効率的なデータレシピ選択を可能に。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #NeurIPS #Scaling Laws #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-03-23 GPT Summary- 言語モデルのスケーリングにおいて、データ制約下でのトレーニングを調査。9000億トークンと90億パラメータのモデルを用いた実験で、繰り返しデータを使用しても損失に大きな変化は見られず、繰り返しの価値が減少することを確認。計算最適性のスケーリング法則を提案し、データ不足を軽減するアプローチも実験。得られたモデルとデータセットは公開。 Comment

OpenReview: https://openreview.net/forum?id=j5BuTrEj35

チンチラ則のようなScaling Lawsはパラメータとデータ量の両方をスケールさせた場合の前提に立っており、かつデータは全てuniqueである前提だったが、データの枯渇が懸念される昨今の状況に合わせて、データ量が制限された状況で、同じデータを繰り返し利用する（＝複数エポック学習する）ことが一般的になってきた。このため、データのrepetitionに関して性能を事前学習による性能の違いを調査して、repetitionとパラメータ数に関するスケーリング則を提案（$3.1)しているようである。

Takeawayとしては、データが制限された環境下では、repetitionは上限4回までが効果的（コスパが良い）であり（左図）、小さいモデルを複数エポック訓練する方が固定されたBudgetの中で低いlossを達成できる右図）。

学習データの半分をコードにしても性能の劣化はなく、様々なタスクの性能が向上しパフォーマンスの分散も小さくなる、といったことが挙げられるようだ。