LowPrecision


Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #train-inference-gap Issue Date: 2026-01-21 GPT Summary- 強化学習(RL)はLLMの推論能力を向上させるが、既存のトレーニングは非効率で、ロールアウトに多くの時間を要する。FP8精度による量子化RLトレーニングがボトルネック解消の有力候補であるが、BF16トレーニング + FP8ロールアウトの戦略は不安定さを招く。我々はJet-RLを提案し、トレーニングとロールアウトに統一されたFP8フローを採用することで数値的ミスマッチを減少させる。実験により最大33%のロールアウト速度向上と41%のトレーニング速度向上を達成し、安定した収束を実証した。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

関連:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

こちらはFP16だが。




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Stability #Reference Collection #train-inference-gap Issue Date: 2025-11-01 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment

元ポスト:

Loading…

RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

解説:

Loading…

verlはFP16での学習をサポートしていないので著者がパッチを出した模様:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel Issue Date: 2025-09-30 GPT Summary- 本研究では、NVFP4フォーマットを用いた大規模言語モデル(LLMs)の安定かつ正確なトレーニング手法を提案。ランダムハダマード変換や二次元量子化スキームを取り入れ、偏りのない勾配推定を実現。10兆トークンでのトレーニングにより、FP8と同等の性能を達成し、狭い精度のLLMトレーニングにおける進展を示した。 Comment

元ポスト:

Loading…

解説:

Loading…