Batchに関する論文・技術記事メモの一覧

Batch

#Analysis #Pocket #NLP #ReinforcementLearning #CurriculumLearning #On-Policy #One-Line Notes
Issue Date: 2025-10-04 [Paper Note] Prompt Curriculum Learning for Efficient LLM Post-Training, Zhaolin Gao+, arXiv'25, 2025.10 GPT Summary- Prompt Curriculum Learning (PCL)を提案し、中程度の難易度のプロンプトを選択してLLMをポストトレーニングする軽量な強化学習アルゴリズムを紹介。最適なバッチサイズとプロンプト選択の重要性を実験で確認し、PCLは情報豊富なプロンプトに焦点を当てることで高いパフォーマンスを達成。ロールアウトを回避し、MATHおよびDeepScaleRでそれぞれ$12.1\times$および$16.9\times$の速度向上を実現。結果は、推論におけるRLの効率とパフォーマンスのトレードオフを改善する新たな方法論を示す。 Comment

元ポスト:

Loading…

（ざっくり読みなので誤りを多分に含むかもしれないがメモ）勾配のノイズの低減と生成の速度のトレードオフを最適にバランスをとるバッチサイズがあることを示し、RLの学習効率が中間程度（簡単すぎず、難しすぎない）の難易度が良いことを示したのち、Valueモデル（ロールアウトに基づいて更新される模様？）を用いてpromptを選択し[^1]中間程度のpromptを用いてロールアウトをし学習するようなオンポリシーのRLを提案する、みたいな話な模様。

[^1]:既存手法のロールアウトによって求める方法（計算コストが高すぎる）や、事前に決めておいた辞書ベースの手法（現在のポリシーからみた時の難易度が反映されておらず効率が悪い）の双方に比べて、適度にオンポリシーさを残したpromptの選び方となっている

#NeuralNetwork #MachineLearning #Pocket #ReinforcementLearning #Scaling Laws #read-later
Issue Date: 2025-09-04 [Paper Note] Compute-Optimal Scaling for Value-Based Deep RL, Preston Fu+, arXiv'25 GPT Summary- 強化学習における計算スケーリングを調査し、モデル容量とデータ更新比率のリソース配分がサンプル効率に与える影響を分析。特に、バッチサイズの増加が小さなモデルでQ関数の精度を悪化させる「TDオーバーフィッティング」を特定し、大きなモデルではこの影響が見られないことを示す。計算使用を最適化するためのガイドラインを提供し、深層RLのスケーリングに関する基盤を築く。 Comment

元ポスト:

Loading…

#Analysis #Pocket #NLP #LanguageModel #Prompting #Reasoning
Issue Date: 2025-07-16 [Paper Note] REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once, Zhuoshi Pan+, arXiv'25 GPT Summary- RESTという新しい評価フレームワークを提案し、LRMsを同時に複数の問題にさらすことで、実世界の推論能力を評価。従来のベンチマークの限界を克服し、文脈優先配分や問題間干渉耐性を測定。DeepSeek-R1などの最先端モデルでもストレステスト下で性能低下が見られ、RESTはモデル間の性能差を明らかにする。特に「考えすぎの罠」が性能低下の要因であり、「long2short」技術で訓練されたモデルが優れた結果を示すことが確認された。RESTはコスト効率が高く、実世界の要求に適した評価手法である。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #One-Line Notes #Reference Collection Issue Date: 2025-07-12 [Paper Note] Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful, Martin Marek+, arXiv'25 GPT Summary- 小さなバッチサイズに対するAdamのハイパーパラメータをスケーリングする新しいルールを提案。これにより、小さなバッチサイズでも安定したトレーニングが可能で、大きなバッチサイズと同等以上のパフォーマンスを達成。勾配蓄積は推奨せず、実用的なハイパーパラメータ設定のガイドラインを提供。 Comment

元ポスト:

Loading…

論文中のFigure1において、AdamWにおいてbatchsizeが1の方が512の場合と比べてlearning_rateの変化に対してロバストである旨が記述されている。

https://github.com/user-attachments/assets/0c1efb5d-6eeb-4fd7-ba06-e4296e988a6c" />

似たような話でMTでバッチサイズ小さいほうが性能良いです、みたいな話が昔あったような

（追記）
気になって思い出そうとしていたが、MTではなく画像認識の話だったかもしれない（だいぶうろ覚え）
- [Paper Note] Revisiting Small Batch Training for Deep Neural Networks, Dominic Masters+, arXiv'18

参考:

Loading…

解説:

Loading…

実際に8Bモデルの事前学習においてβ2を0.99にしたところ、学習が不安定になり、かつ最終的なPerplexityも他の設定に勝つことができなかったとのこと:

Loading…

#NeuralNetwork #Pretraining #MachineLearning #Pocket #NLP #LanguageModel #ICLR Issue Date: 2024-11-25 How Does Critical Batch Size Scale in Pre-training?, Hanlin Zhang+, ICLR'25 GPT Summary- 大規模モデルの訓練には、クリティカルバッチサイズ（CBS）を考慮した並列化戦略が重要である。CBSの測定法を提案し、C4データセットで自己回帰型言語モデルを訓練。バッチサイズや学習率などの要因を調整し、CBSがデータサイズに比例してスケールすることを示した。この結果は、ニューラルネットワークの理論的分析によって支持され、ハイパーパラメータ選択の重要性も強調されている。 Comment

Critical Batch Sizeはモデルサイズにはあまり依存せず、データサイズに応じてスケールする

#NeuralNetwork #ComputerVision #Analysis #MachineLearning #Pocket Issue Date: 2025-07-12 [Paper Note] Revisiting Small Batch Training for Deep Neural Networks, Dominic Masters+, arXiv'18 GPT Summary- ミニバッチサイズが深層ニューラルネットワークのトレーニング性能に与える影響を実験的に比較。大きなミニバッチは計算の並列性を向上させるが、小さなミニバッチは一般化性能を高め、安定したトレーニングを実現。最良の性能はミニバッチサイズ$m = 2$から$m = 32$の範囲で得られ、数千のミニバッチサイズを推奨する研究とは対照的。 Comment

{Res, Reduced Alex}Netにおいて、バッチサイズを大きくすると、学習が安定しかつ高い予測性能を獲得できる学習率のrangeが小さくなる。一方、バッチサイズが小さいと有効な学習率のrangeが広い。また、バッチサイズが小さい場合は、勾配計算とパラメータのアップデートがより頻繁に行われる。このため、モデルの学習がより進んだ状態で個々のデータに対して勾配計算が行われるため、バッチサイズが大きい場合と比べるとモデルがより更新された状態で各データに対して勾配が計算されることになるため、学習が安定し良い汎化性能につながる、といった話の模様。

#Article #Tutorial #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)

- P：パラメータ数（単位は10億）
- Q：ビット精度（例：16、32）、8で割ることでビットをバイトに変換
- オーバーヘッド（％）：推論中の追加メモリまたは一時的な使用量（例：KVキャッシュ、アクティベーションバッファ、オプティマイザの状態）
```

↑これ、忘れがちなのでメモ…

すごいメモだ…勉強になります