CriticalBatchSize


Paper/Blog Link My Issue
#Pretraining #MachineLearning #Pocket #NLP #LanguageModel #read-later #Batch #Scheduler Issue Date: 2026-01-09 GPT Summary- WSD学習率スケジューラに特化した改訂版E(S)関係を導出し、事前学習中のトレーニングデータ消費とステップのトレードオフを分析。最小バッチサイズと最適バッチサイズを特定し、動的バッチサイズスケジューラを提案。実験により、提案したスケジューリング戦略がトレーニング効率とモデル品質を向上させることを示した。 Comment

元ポスト:

Loading…

Critical batch sizeが提案された研究:
- An Empirical Model of Large-Batch Training, Sam McCandlish+, arXiv'18




Paper/Blog Link My Issue
#NeuralNetwork #Pretraining #MachineLearning #Pocket #NLP #LanguageModel #ICLR #Batch #One-Line Notes Issue Date: 2024-11-25 GPT Summary- 大規模モデルの訓練には、クリティカルバッチサイズ(CBS)を考慮した並列化戦略が重要である。CBSの測定法を提案し、C4データセットで自己回帰型言語モデルを訓練。バッチサイズや学習率などの要因を調整し、CBSがデータサイズに比例してスケールすることを示した。この結果は、ニューラルネットワークの理論的分析によって支持され、ハイパーパラメータ選択の重要性も強調されている。 Comment

Critical Batch Sizeはモデルサイズにはあまり依存せず、データサイズに応じてスケールする
image
image

Critical batch sizeが提案された研究:
- An Empirical Model of Large-Batch Training, Sam McCandlish+, arXiv'18




Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #MachineLearning #Pocket #read-later #Selected Papers/Blogs #Batch Issue Date: 2024-12-16 GPT Summary- 勾配ノイズスケールを用いて、さまざまな分野での最適なバッチサイズを予測する方法を提案。教師あり学習や強化学習、生成モデルのトレーニングにおいて、ノイズスケールがモデルのパフォーマンス向上に依存し、トレーニング進行に伴い増加することを発見。計算効率と時間効率のトレードオフを説明し、適応バッチサイズトレーニングの利点を示す。 Comment

Critical Batchsize(バッチサイズをこれより大きくすると学習効率が落ちる境界)を提唱した論文

日本語解説: https://iwiwi.hatenadiary.jp/entry/2023/04/11/134316