LowPrecision
[Paper Note] HiFloat4 Format for Language Model Pre-training on Ascend NPUs, Mehran Taghian+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #mid-training #PostTraining Issue Date: 2026-04-17 GPT Summary- 大型基盤モデルのトレーニングには高コストが伴うため、低精度トレーニング手法が求められている。本研究では、HiFloat4 FP4フォーマットを使用し、MXFP4と比較して4ビット精度での計算スループットとメモリ効率を最大4倍向上させる。全結合モデルとエキスパート混合モデルをFP4で評価し、安定化技術により数値的劣化を抑えつつ高精度を維持する結果を示した。 Comment
元ポスト:
[Paper Note] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling, Yitong Li+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #On-Policy #One-Line Notes Issue Date: 2026-04-11 GPT Summary- 強化学習ベースのポストトレーニングを用いたテキストから画像への拡散モデルの最適化において、FP4量子化を組み込んだ二段階強化学習フレームワーク「Sol-RL」を提案。第一段で高スループットのロールアウトを行い、高コントラストのサブセットを生成、第二段でこれを高精度で再生成してポリシーを最適化。これにより、ロールアウトの効率を高めつつ訓練整合性を維持。実験により約4.64倍の収束加速を達成し、高性能な整合性を示す。 Comment
pj page: https://nvlabs.github.io/Sana/Sol-RL/
元ポスト:
FP4でまずロールアウトを生成し、rewardモデルを用いて生成結果のスコアを得て、top/worst-Kのサンプルに絞ってBF16で(該当ノイズから)サンプルを再生成しGRPOで活用する。
探索がFP4で実施されるため高速になり、2*K件のサンプルにのみ絞って学習が行われるため2段階の高速化になっている。
[Paper Note] Adaptive Block-Scaled Data Types, Jack Cook+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes #needs-revision Issue Date: 2026-04-01 GPT Summary- NVFP4は、4ビット量子化形式として人気ですが、誤差分布の問題を抱えています。本研究では、入力値の分布に適応できる新しいデータ型、IF4(Int/Float 4)を提案します。IF4は、各16値のグループに対しFP4とINT4を選択し、NVFP4のスケールファクターでスケールします。この方法により、量子化訓練時の損失を低減し、精度を向上させることが確認されました。また、IF4のハードウェア実装も評価されています。 Comment
元ポスト:
NVFP4と同様に、4bitで表現される16個のデータをひとつのグループとして扱い[^1]、FP8でのスケールファクターを共有するような浮動小数点フォーマットで[^2]、
グループ内の16個のデータに対して、INT4/FP4どちらを適用するかを、(NVFP4では常に正となっていた;未使用だった)スケールファクターを表現している8bitの先頭である符号ビットを用いて制御する新たな低精度浮動小数点フォーマット、IF4を提案、という話らしい。符号ビットをINT4, FP4を制御するIndicatorとして扱うため、NVFP4と比較してメモリ使用量は増えない。Indicatorはどちらがより量子化誤差が小さくなるかによって選択される、という感じらしい?
[^1]: グループとは単に0/1のバイナリ値が4bit分並んでいるデータのことであり、たとえばFP4で4bitの羅列を解釈すると、FP4は{±0, ±0.5, ±1, ±1.5, ±2, ±3, ±4, ±6}の16個の数値で解釈するようルールづけられている。
[^2]: スケールファクターを乗じることで、値を元々のデータのスケールに変換する。
この辺は勉強不足だなぁ、、、。
- NVFP4解説:
https://licensecounter.jp/engineer-voice/blog/articles/20260317_nvfp4.html
- 本研究日本語解説:
https://note.com/shimmyo_lab/n/n693c4d0da45f
[Paper Note] FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning, Zhaopeng Qiu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-01-27 GPT Summary- 強化学習におけるLLMのロールアウトは、長いシーケンス長のためにボトルネックが発生するが、FP8を用いることで計算コストとメモリトラフィックを削減できる。FP8適用にはポリシーの重みの変化や低精度のロールアウトによる不安定性の課題がある。本研究では、veRLエコシステム内で実用的なFP8ロールアウトスタックを実装し、具体的には(i) FP8量子化によるロールアウトの実現、(ii) QKVの再キャリブレーション、(iii) 重要度サンプリングを用いた不一致の軽減を提案。これにより、BF16ベースラインと比較して、最大44%のロールアウトスループット向上が達成された。 Comment
元ポスト:
[Paper Note] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow, Haocheng Xi+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #train-inference-gap Issue Date: 2026-01-21 GPT Summary- 強化学習(RL)はLLMの推論能力を向上させるが、既存のトレーニングは非効率で、ロールアウトに多くの時間を要する。FP8精度による量子化RLトレーニングがボトルネック解消の有力候補であるが、BF16トレーニング + FP8ロールアウトの戦略は不安定さを招く。我々はJet-RLを提案し、トレーニングとロールアウトに統一されたFP8フローを採用することで数値的ミスマッチを減少させる。実験により最大33%のロールアウト速度向上と41%のトレーニング速度向上を達成し、安定した収束を実証した。 Comment
元ポスト:
関連:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
こちらはFP16だが。
[Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Stability #Reference Collection #train-inference-gap #Author Thread-Post Issue Date: 2025-11-01 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment
元ポスト:
RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。
ポイント解説:
所見:
解説:
解説:
verlはFP16での学習をサポートしていないので著者がパッチを出した模様:
[Paper Note] Pretraining Large Language Models with NVFP4, NVIDIA+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel Issue Date: 2025-09-30 GPT Summary- 本研究では、NVFP4フォーマットを用いた大規模言語モデル(LLMs)の安定かつ正確なトレーニング手法を提案。ランダムハダマード変換や二次元量子化スキームを取り入れ、偏りのない勾配推定を実現。10兆トークンでのトレーニングにより、FP8と同等の性能を達成し、狭い精度のLLMトレーニングにおける進展を示した。 Comment
元ポスト:
解説:
[Paper Note] Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv'24
Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Japanese #read-later #One-Line Notes Issue Date: 2024-11-17 GPT Summary- 大規模言語モデル(LLMs)は、その言語理解能力と適用可能性から注目を集めており、特にLlama 3シリーズは4050億パラメータを持つ。トレーニングの効率化が求められる中、NVIDIAのH100 GPUはFP8フォーマットを導入し、トレーニング時間を短縮する可能性がある。初期研究ではFP8が性能を損なわずに効率を向上させることが示唆されているが、トレーニングの安定性や下流タスクへの影響はまだ不明である。本研究は、LLMsのトレーニングにおけるBF16とFP8のトレードオフを探る。 Comment
元ポスト:
FP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よりも低下したりする(日本語と英語の両方)との報告のようである。現状アブストと付録しか記載がないが、内容はこれから更新されるのだろうか。
Defeating the trainer-generator precision mismatch in TRL, HuggingFace, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #reading #train-inference-gap #Author Thread-Post Issue Date: 2026-04-20 Comment
元ポスト:
関連:
- Making RL Fast, Finbarr Timbers, 2026.04
こーーれは必読では
NVIDIA Nemotron 3 Super, NVIDIA, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #SSM (StateSpaceModel) #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #Hybrid #LinearAttention Issue Date: 2026-03-12 Comment
元ポスト:
解説:
artificial analysisによる評価:
Swallow LVM Leaderboardに性能が掲載:
解説:
アーキテクチャ:
- NVFP4で学習して gpt-ossより2.2倍高速だが性能も向上
- 88 Layer: 40 Latent MoE / 40 Mamba-2 / 8 GQA Attention
- GQA Attentiom Layerは非常に少なく、ほとんどがMamba-2 (linear attention)となっている
- Latent MoEは入力をそのまま変換するshared expertsと、入力を1/4のlatent vectorに変換した潜在空間上で処理をするLatext expertsの組み合わせによって出力を得る。
- 具体的には、RouterによってTop-22のexpertsを選択し、inputを1/4のlatent vectorに圧縮した上でExpertsに入力。Expertsの出力を加算して4倍のvectorに変換し次元を戻して、別ルートでshared expertsに元の入力次元から変換されたベクトルと組み合わせて出力するようなアーキテクチャ
Latent MoE解説:
要はMoEに必要なmatrixが、latent vectorを扱うことで小さくなるのでMoEのWeightのメモリロードのボトルネックが緩和されるだけでなく、
各MoE Laverは異なるGPUやマシンに分散されて配置されるため計算のためにはベクトルのバッチを通信しなければならないがそのコストが削減されスループットの向上につながるので嬉しい、ということだと思われる。
ポイント解説:
technical reportが出た:
- [Paper Note] Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'26, 2026.04
Using NVFP4 Low-Precision Model Training for Higher Throughput Without Losing Accuracy, NVIDIA, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #read-later Issue Date: 2026-03-12 Comment
元ポスト:
FP8 trainingを支える技術 1, Kazuki Fujii, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #LanguageModel #Blog #mid-training #PostTraining #Selected Papers/Blogs Issue Date: 2026-03-01
Qwen3-Next-series-FP8, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Quantization #Reasoning #OpenWeight Issue Date: 2025-09-23 Comment
元ポスト:
