Stability
[Paper Note] Arcee Trinity Large Technical Report, Varun Singh+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Sparse Issue Date: 2026-02-21 GPT Summary- Arcee Trinity Largeは4000億パラメータを持ち、130億のスパースMoEとして設計されている。Trinity Nano(60億パラメータ)とTrinity Mini(260億パラメータ)も報告されており、各モデルには局所的およびグローバルな注意機構、ゲート付き注意、深さスケールされた正規化、MoEのシグモイド・ルーティングが採用されている。Trinity Largeには新しいMoEロードバランシング戦略のSMEBUが導入され、Muonオプティマイザーで訓練された。すべてのモデルは損失のスパイクなしで訓練を完了し、Trinity NanoとTrinity Miniは10兆トークン、Trinity Largeは17兆トークンで事前学習された。モデルのチェックポイントはHugging Faceで利用可能。 Comment
[Paper Note] MoEEdit: Efficient and Routing-Stable Knowledge Editing for Mixture-of-Experts LLMs, Yupu Gu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #KnowledgeEditing #Routing #One-Line Notes Issue Date: 2026-02-12 GPT Summary- MoEモデルに対する知識編集のための新たなルーティング安定フレームワークMoEEditを提案。エキスパート更新を再パラメータ化し、ルーター入力を不変に保つことで、計算およびメモリ効率を向上させつつ、高い特異性とルーティングの安定性を実現。実験により、最新の効果と一般化を達成したことが示された。 Comment
元ポスト:
MoEにKnowledge Editingを単純に適用するとexpertsへのroutingがシフトして不安定になったり、expertの数に応じて計算量が増大するだけでなく、expert間でcouplingされて知識が活用される場合に独立性がないといったMoE特有の課題があり、それらに対処するような手法を提案している模様。
[Paper Note] DIRMOE: DIRICHLET-ROUTED MIXTURE OF EXPERTS, ICLR'26
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #ICLR #Routing #One-Line Notes Issue Date: 2026-02-08 GPT Summary- Dirichlet-Routed MoE(DirMoE)は、MoEモデルの性能を向上させる新しい微分可能ルーティングメカニズムです。エキスパートの選択とその貢献の配分を明確に分け、Gumbel-Sigmoid緩和とDirichlet再パラメータ化により訓練過程を完全に微分可能にします。さらに、スパースペナルティを通じてアクティブなエキスパート数を管理し、専門性を高めつつ、他の手法と同等以上の成果を達成しています。 Comment
openreview: https://openreview.net/forum?id=a15cDnzr6r
元ポスト:
MoEのルーティングの選択と配分をモデル化して、微分可能にした上で最適化する
[Paper Note] Rethinking the Trust Region in LLM Reinforcement Learning, Penghui Qi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PPO (ProximalPolicyOptimization) #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes #train-inference-gap Issue Date: 2026-02-06 GPT Summary- 強化学習におけるPPOの限界を指摘し、低確率トークンの更新が過剰に罰せられる問題を解決するため、ダイバージェンス近似ポリシー最適化(DPPO)を提案。DPPOは、ポリシーの逸脱を直接推定することで学習ダイナミクスの非最適性を改善し、効率的なバイナリおよびトップK近似を導入することでトレーニングの安定性と効率を向上させる。 Comment
元ポスト:
PPOはトークン単位の確率比をrefと現在のポリシーからの算出しrefから離れすぎないようにクリッピングをするが、この場合非常に低確率で出現するトークンは過剰にクリッピングされる傾向にある。しかしその低確率トークンを調べると実はReasoningにおいて重要なトークンであったり(Wait, Thus, Next)、数学での重要なシンボル(+,-,=)、数値トークンであり、結果的にこれらReasoning系のタスクで重要なトークンの学習を阻害してしまっており(実際にこれらの低確率トークンをクリッピングされないようにしたら学習効率が大幅に改善)、語彙数が多いLLMの学習においては相性が悪い(別の視点として高確率トークンに対して過剰にペナルティを与えるという傾向もある)。これを改善するために、確率比をクリッピングするのではなく、ポリシーとrefのDivergenceの上界を直接制約することで解決し(語彙数が大きすぎてDivergenceを計算できないので近似的な計算方法も提案されている模様)、実際に適用すると学習が非常に安定し、かつ学習効率が既存手法と比較して高まりました、という話にみえる。
解説:
一言解説:
[Paper Note] Conflict-Resolving and Sharpness-Aware Minimization for Generalized Knowledge Editing with Multiple Updates, Duy Nguyen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #KnowledgeEditing #FactualKnowledge #Generalization Issue Date: 2026-02-05 GPT Summary- LLMsが最新情報に依存する中、コスト高な再訓練の代わりに、CoRSAというパラメータ効率的な知識編集フレームワークを提案。これにより、一般化や安定性を向上させつつ、新旧知識の対立を解決。3つのベンチマークで大幅な一般化改善を示し、LoRAと比較して更新効率と忘却軽減を達成。さらに、コードドメインにも適用可能で、強力なベースラインを上回る性能を発揮。 Comment
元ポスト:
ベンチマーク:
- [Paper Note] Zero-Shot Relation Extraction via Reading Comprehension, Omer Levy+, CoNLL'17, 2017.06
- [Paper Note] CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models, Yuefei Chen+, arXiv'25, 2025.02
[Paper Note] $V_0$: A Generalist Value Model for Any Policy at State Zero, Yi-Kai Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #In-ContextLearning #PostTraining #Scheduler #Routing #Initial Impression Notes #BudgetAllocation Issue Date: 2026-02-05 GPT Summary- GRPOを用いた訓練において、$V_0$という新たなバリューモデルを提案。これはパラメータ更新を必要とせず、モデルの期待パフォーマンスを推定し、能力の変化を捉える。$V_0$は成功率を予測し、効率的なサンプリングを実現。結果、LLMルーティングタスクにおいて、コストとパフォーマンスのバランスで優れた結果を示した。 Comment
元ポスト:
ポイント解説:
Actor-Critiqueの枠組みにおいてValueモデル(のポリシーに追従するための逐次的な更新が)重すぎる問題をGRPOはValueモデルを無くすことで回避したが今度はロールアウトのサンプリングコストがでかすぎる問題があるので、学習無しで汎用的に利用可能なValueモデル(パラメータ更新ではなくICLとして定義する)を用いて、ロールアウト前から成功率を予測し無駄なロールアウトを削減したり、クエリをどのモデルに投げるかといったルーティングをするなどの計算機リソースの配分を決めるといったことをやるらしい。
[Paper Note] An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence, Qizhen Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs #DataFiltering #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- ノイズデータがLLMの事前学習に与える影響を体系的に分析。合成ノイズを注入した実験で、ノイズがトレーニングロスの発散を引き起こすことを実証し、依存関係を特定。高学習率による発散とは異なるパターンも観察し、診断手法を提案。ノイズの影響に関する制御された洞察を提供。 Comment
元ポスト:
- [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25
のようにアーキテクチャの改善によって学習の安定性を担保する取り組みもあるが、アーキテクチャ側で解決した場合にノイズはどのような影響を与えるのだろうか?
takeawayが論文中にQAの形でまとめられている。
[Paper Note] A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training, Zihan Qiu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Normalization #AttentionSinks #read-later #One-Line Notes Issue Date: 2026-02-03 GPT Summary- 大規模言語モデルにおける外れ値の機能を調査し、注意の沈みと残差の沈みのメカニズムを明らかにする。外れ値は正規化と共に機能し、再スケーリングを通じてトレーニングの安定性を向上させ、パフォーマンスを改善。これにより、外れ値が寄与者ではなく再スケール要因であることを示し、学習可能なパラメータとの関係性を明らかにした。 Comment
元ポスト:
Attention Sinksにならい、Residual Sinksと命名されている
Attention Sinksや本研究で命名されているResidual Sinks(activationの特定の次元がほとんどのトークンで過剰に大きくなる現象)は正規化を排除するとなくなり(i.e., 正規化とセットで出現する)、これらがなくなると学習の安定性と性能が低下する。これらはTransformerアーキテクチャ内の外れ値として見ることができるが、この外れ値が存在することによってnormalizationにおいてrescalingが実施され安定性やパフォーマンスが向上している、という感じらしい。
[Paper Note] Probing RLVR training instability through the lens of objective-level hacking, Yiming Dong+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #MoE(Mixture-of-Experts) #RewardHacking #PostTraining #RLVR #train-inference-gap Issue Date: 2026-02-03 GPT Summary- RLVRは大規模言語モデルの性能向上に寄与するが、MoEアーキテクチャでのトレーニングは不安定になる。本研究では、RLVRの不安定性を客観的レベルのハッキングの観点から考察し、トークンレベルの不整合による最適化目的のスプリアス信号を特定。30B MoEモデルの実験を通じて、トレーニングと推論の不一致の成長を追跡し、不安定性のメカニズムを解明。この研究はMoEモデルの安定性に関する具体的な指針を提供する。 Comment
元ポスト:
[Paper Note] Training LLMs with Fault Tolerant HSDP on 100,000 GPUs, Omkar Salpekar+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Infrastructure #SoftwareEngineering #mid-training #PostTraining Issue Date: 2026-02-03 GPT Summary- FT-HSDPという新しいトレーニングパラダイムを提案し、故障耐性を持つデータ並列レプリカを活用。故障時には影響を受けたレプリカのみがオフラインとなり、他のレプリカはトレーニングを継続。FTARプロトコルと非ブロッキングキャッチアップを用いることで、故障回復時間を短縮し、有効なトレーニング時間を大幅に増加。精度への悪影響もないことを確認。 Comment
元ポスト:
100k GPU🤯
[Paper Note] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep, Chen Chen+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Transformer #Architecture #Normalization #read-later #ResidualStream Issue Date: 2026-01-29 GPT Summary- LLMのスケーリングには限界があり、モデルの大きさやコンテキスト長の延長が表現力を向上させない一方、深さのスケーリングは有望だが訓練の安定性に課題がある。本研究では、Post-LayerNormの問題を再検討し、残差経路をハイウェイスタイルの接続に置き換えた「Keel」トランスフォーマーを提案。これにより勾配消失を防ぎ、1000層以上でも安定した訓練を可能にし、Pre-LNよりも性能を向上させる。Keelは、今後の深層アーキテクチャ構築の新たな基盤を提供する。 Comment
元ポスト:
PostLNと言えばOlmo 2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
1000 layerを超えるネットワークを安定して学習、、だと、、
関連:
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards
[Paper Note] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders, Shengbang Tong+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #DiffusionModel #TextToImageGeneration #PostTraining #read-later #Selected Papers/Blogs #2D (Image) #KeyPoint Notes #ImageSynthesis #Scalability #AutoEncoder Issue Date: 2026-01-24 GPT Summary- RAEsは高次元セマンティック空間での成果を活かし、自由形式のテキストから画像生成にスケール可能かを検証。デコーダーを用いてImageNetを超えたスケールアップを行い、特定ドメインの重要性を発見。スケーリングによりフレームワークが単純化される一方、ノイズスケジューリングは依然重要。また、RAEsは全てのモデルスケールでVAEsを上回り、安定した性能を確保し、生成品質の向上を示した。これにより、多モーダルモデルの新たな可能性を切り開く。 Comment
元ポスト:
この研究はざっくり言うとRAE[^1]がスケールするか否かを調査し、スケールするための条件を調査し、事前学習(GenEval, DPGEvalでVAEと比較して4倍早く収束)、ダウンストリームタスクの双方でVAEベースのtext2imageモデルをoutperformすることを示しており、
スケールさせる際の最初の課題はデコーダにあり、web-scale, syntheticデータをただ増やすだけではfidelityは向上するが特定のドメイン(e.g., text reconstruction)の能力は伸びず、text renderingデータなどの、dataの構成が必要不可欠で、
続いてオリジナルのRAEではアーキテクチャに工夫(decoder入力にノイズを足す、ヘッドをwideにする、その他安定化の工夫)をしていたが、モデル、データがスケールした場合シンプルなアーキテクチャ(次元依存のノイズスケジューリング)のみが必須で他は不要となったという知見が得られており、
RAEでは視覚理解と生成が同じ潜在空間の上で行われることがVAEとは異なる強みで、生成のための学習をしても理解能力が損なわれないことを示し、そして、潜在空間上で(VAEの潜在表現は生成に特化しているが、RAEは視覚理解と生成の双方を扱われており同じ空間上で操作可能なので)LLMが直接test time scalingすることを可能にする、
と言ったことが著者ポストで解説されている。
まだ完璧に理解できていないのでRAEの論文から読みたい、が非常にインパクトの大きな話に見える。
[^1]:encoderをSigLIPなどの強力なvision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。
[Paper Note] Controlled LLM Training on Spectral Sphere, Tian Xie+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #Pretraining #MachineLearning #NLP #LanguageModel #Optimizer Issue Date: 2026-01-23 GPT Summary- 大規模モデルの最適化には、安定性と迅速な収束を保証する戦略が不可欠。新たに導入したスペクトルスフィアオプティマイザー(SSO)は、重みと更新に厳密なスペクトル制約を適用し、完全に安定した最適化プロセスを実現。多様なモデルアーキテクチャでの事前トレーニングにより、SSOはAdamWやMuonよりも一貫して高い性能を示し、安定性の向上も確認された。
[Paper Note] STEM: Scaling Transformers with Embedding Modules, Ranajoy Sadhukhan+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Embeddings #EfficiencyImprovement #Pretraining #NLP #Transformer #LongSequence #Architecture #read-later #Selected Papers/Blogs #Inference #Latency #Interpretability Issue Date: 2026-01-17 GPT Summary- STEMは、Transformersに埋め込みモジュールを用いてスパーシティを効果的に処理し、安定したトレーニングを実現します。FNNのアッププロジェクションを埋め込みのルックアップに置き換え、トークンごとの計算を削減しつつ、性能を向上させます。知識の保存や解釈性を向上させ、長いコンテキストでも効果を発揮。350Mおよび1Bモデルで約3~4%の精度向上を達成し、知識や推論のベンチマークで優れた結果を示しました。 Comment
元ポスト:
著者ポスト:
[Paper Note] JustRL: Scaling a 1.5B LLM with a Simple RL Recipe, Bingxiang He+, ICLR'26, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ICLR #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-12-20 GPT Summary- JustRLという最小限のアプローチを提案し、固定ハイパーパラメータを用いた単一ステージのトレーニングで最先端のパフォーマンスを達成。計算リソースは洗練されたアプローチの2倍を使用し、トレーニングは滑らかに改善。標準的なトリックの追加が探索を崩壊させる可能性があることを示し、シンプルで検証されたベースラインの重要性を強調。モデルとコードを公開。 Comment
元ポスト:
ICLR'26 blog post track にアクセプト:
著者ポスト:
[Paper Note] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention, Haiquan Qiu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Transformer #read-later #Selected Papers/Blogs Issue Date: 2026-01-03 GPT Summary- 低精度フォーマットのトランスフォーマーモデルのトレーニングにおける不安定性の原因を分析し、フラッシュアテンションが損失の爆発を引き起こすメカニズムを明らかにした。具体的には、低ランク表現の出現と丸め誤差の累積がエラーの悪循環を生むことを示した。これを受けて、丸め誤差を軽減する修正を加えることでトレーニングの安定性を向上させ、実用的な解決策を提供した。 Comment
元ポスト:
[Paper Note] mHC: Manifold-Constrained Hyper-Connections, Zhenda Xie+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#MachineLearning #NLP #Transformer #Architecture #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #ResidualStream Issue Date: 2026-01-02 GPT Summary- Manifold-Constrained Hyper-Connections(mHC)を提案し、残差接続の多様化による訓練の不安定性やメモリアクセスのオーバーヘッドに対処。mHCは残差接続空間を特定の多様体に射影し、恒等写像特性を回復しつつ効率を確保。実証実験により、大規模訓練での性能向上とスケーラビリティを示し、トポロジーアーキテクチャ設計の理解を深めることを期待。 Comment
元ポスト:
所見:
先行研究:
- [Paper Note] Hyper-Connections, Defa Zhu+, ICLR'25, 2024.09
- [Paper Note] Deep Residual Learning for Image Recognition, Kaiming He+, CVPR'16, 2015.12
所見:
ポイント解説:
解説:
従来のHCがResidual Streamに対してH_resを乗じて幾何的変換を実施する際に、H_resに制約がないため、Layerを重ねるごとにResidual Streamの大きさが指数的に発散、あるいは収縮していき学習が不安的になる課題を、二重確率行列(行と列の成分の合計が1.0となるような正規化をする)を用いた変換を用いることで、Residual Streamのノルムが変化しないようにし安定化させた、といった感じの話に見える。
[Paper Note] Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction, Huanxin Sheng+, EMNLP'25 SAC Highlights, 2025.09
Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #LLM-as-a-Judge #EMNLP #read-later #Selected Papers/Blogs Issue Date: 2025-11-10 GPT Summary- LLMを用いた自然言語生成の評価における不確実性を分析するためのフレームワークを提案。適合予測を通じて予測区間を構築し、中央値に基づくスコアを低バイアスの代替手段として提示。実験により、適合予測が有効な予測区間を提供できることを示し、判断の向上に向けた中央値や再プロンプトの有用性も探求。 Comment
元ポスト:
実用上非常に重要な話に見える
[Paper Note] DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization, Gang Li+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #PostTraining #On-Policy Issue Date: 2025-11-01 GPT Summary- 本研究では、GRPOの二項報酬設定における制限を分析し、識別的制約最適化(DisCO)フレームワークを提案。DisCOは、識別的目的を採用し、非クリッピングRL代理目的を使用することで、難易度バイアスを排除し、トレーニングの安定性を向上させる。実験結果では、DisCOがGRPOおよびそのバリエーションを大幅に上回り、数学的推論能力を向上させることが示された。 Comment
元ポスト:
[Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Reference Collection #train-inference-gap #LowPrecision Issue Date: 2025-11-01 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment
元ポスト:
RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。
ポイント解説:
所見:
解説:
解説:
verlはFP16での学習をサポートしていないので著者がパッチを出した模様:
[Paper Note] Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts, Di Zhang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #MoE(Mixture-of-Experts) Issue Date: 2025-10-28 GPT Summary- MoEアーキテクチャにおけるRLトレーニングの不安定性に対処するため、重要度サンプリング重みを最適化する新しいルーター認識アプローチを提案。ルーターのロジットに基づく再スケーリング戦略により、勾配の分散を減少させ、トレーニングの安定性を向上。実験結果は、提案手法がMoEモデルの収束と性能を大幅に改善することを示し、効率的な大規模専門モデルのトレーニングに向けた新たな可能性を示唆。 Comment
元ポスト:
[Paper Note] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping, Zhiheng Xi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #Off-Policy #On-Policy #One-Line Notes #Entropy #PartialRollout Issue Date: 2025-10-24 GPT Summary- 強化学習におけるオフポリシー設定の課題を解決するため、BAPO(Balanced Policy Optimization with Adaptive Clipping)を提案。ポジティブとネガティブな寄与を再バランスし、エントロピーを保持することで最適化を安定化。多様なシナリオでデータ効率の高いトレーニングを実現し、AIME 2024およびAIME 2025のベンチマークで最先端の結果を達成。 Comment
pj page: https://github.com/WooooDyy/BAPO
Partial Rollout(=長いtrajectoryを一回のロールアウトで生成仕切らずに、途中で生成を打ち切りreplay bufferに保存。次のロールアウト時に続きを生成する。しかし更新されたポリシーによって続きをロールアウトするためオフポリシーデータとなる)の設定で、GRPOよりも学習効率が良いことが示されているように見える。
[Paper Note] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning, Wujiang Xu+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #AIAgents #Entropy Issue Date: 2025-10-21 GPT Summary- マルチターン環境でのLLMエージェント訓練における探索-活用カスケード失敗を特定し、エントロピー正則化ポリシー最適化(EPO)を提案。EPOは、探索を強化し、ポリシーエントロピーを制限することで、訓練の安定性を向上させる。実験により、ScienceWorldで152%、ALFWorldで19.8%の性能向上を達成。マルチターンスパース報酬設定には新たなエントロピー制御が必要であることを示す。 Comment
元ポスト:
[Paper Note] GVPO: Group Variance Policy Optimization for Large Language Model Post-Training, Kaichen Zhang+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#LanguageModel #ReinforcementLearning #NeurIPS #PostTraining Issue Date: 2025-10-16 GPT Summary- GVPO(グループ分散ポリシー最適化)は、ポストトレーニングにおける不安定性を解決する新手法で、KL制約付き報酬最大化の解析的解を勾配重みに組み込むことで最適ポリシーとの整合性を保つ。これにより、ユニークな最適解を保証し、柔軟なサンプリング分布をサポート。GVPOは信頼性の高いLLMポストトレーニングの新たなパラダイムを提供する。 Comment
元ポスト:
ベースライン:
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open
Language Models, Zhihong Shao+, arXiv'24
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03
[Paper Note] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers, Wenhan Ma+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #MoE(Mixture-of-Experts) #PostTraining #One-Line Notes Issue Date: 2025-10-14 GPT Summary- 強化学習(RL)を用いたMixture-of-Experts(MoE)モデルのトレーニングと推論の不一致を分析し、Rollout Routing Replay(R3)を提案。R3は推論時のルーティング分布を記録し、トレーニング中に再生することで、トレーニングと推論のポリシー間のKLダイバージェンスを減少させ、安定性を向上。実験により、R3がRLトレーニングの崩壊を防ぎ、他の手法を上回る性能を示した。 Comment
元ポスト:
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
のMoE版の話。Inference EngineとTraining Engine側でExpertsの選択が一致しないことが不安定につながるので、それを一致させるようにする、という話な模様。
[Paper Note] Instability in Downstream Task Performance During LLM Pretraining, Yuto Nishida+, EMNLP'25 Findings, 2025.10
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #EMNLP #Findings #DownstreamTasks Issue Date: 2025-09-24 GPT Summary- LLMの訓練中に下流タスクのパフォーマンスが大きく変動する問題を分析し、チェックポイントの平均化とアンサンブル手法を用いて安定性を向上させることを提案。これにより、訓練手順を変更せずにパフォーマンスの変動を減少させることが実証された。 Comment
元ポスト:
[Paper Note] Geometric-Mean Policy Optimization, Yuzhong Zhao+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #GRPO #On-Policy Issue Date: 2025-08-14 GPT Summary- GRPOの不安定性を解決するために、幾何平均を最適化するGMPOを提案。GMPOは外れ値に敏感でなく、安定した重要度サンプリング比率を維持。実験により、GMPO-7Bは複数の数学的およびマルチモーダル推論ベンチマークでGRPOを上回る性能を示した。 Comment
元ポスト:
ポイント解説:
[Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training, Changxin Tian+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #ModelMerge Issue Date: 2025-08-02 GPT Summary- 学習率スケジューリングの新たなアプローチとして、Warmup-Stable and Merge(WSM)を提案。WSMは、学習率の減衰とモデルマージの関係を確立し、さまざまな減衰戦略を統一的に扱う。実験により、マージ期間がモデル性能において重要であることを示し、従来のWSDアプローチを上回る性能向上を達成。特に、MATHで+3.5%、HumanEvalで+2.9%、MMLU-Proで+5.5%の改善を記録。 Comment
元ポスト:
Weight Decayを無くせるらしい
エッセンスの解説:
チェックポイントさえ保存しておいて事後的に活用することだで、細かなハイパラ調整のための試行錯誤する手間と膨大な計算コストがなくなるのであれば相当素晴らしいのでは…?
解説:
[Paper Note] Group Sequence Policy Optimization, Chujie Zheng+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #MoE(Mixture-of-Experts) #On-Policy Issue Date: 2025-07-26 GPT Summary- Group Sequence Policy Optimization (GSPO)は、大規模言語モデルのための新しい強化学習アルゴリズムで、シーケンスの尤度に基づく重要度比を用いてトレーニングを行う。GSPOは、従来のGRPOアルゴリズムよりも効率的で高性能であり、Mixture-of-Experts (MoE) のトレーニングを安定化させる。これにより、最新のQwen3モデルにおいて顕著な改善が見られる。 Comment
元ポスト:
公式ポスト:
GRPOとGSPOの違いのGIF:
[Paper Note] SingLoRA: Low Rank Adaptation Using a Single Matrix, David Bensaïd+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) Issue Date: 2025-07-12 GPT Summary- SingLoRAは、LoRAの低ランク適応を再定式化し、単一の低ランク行列とその転置の積を用いることで、トレーニングの安定性を向上させ、パラメータ数をほぼ半減させる手法です。実験により、常識推論タスクでLLama 7Bを用いたファインチューニングで91.3%の精度を達成し、LoRAやLoRA+を上回る結果を示しました。また、画像生成においてもStable Diffusionのファインチューニングで高い忠実度を実現しました。 Comment
元ポスト:
LoRAは低ランク行列BAの積を計算するが、オリジナルのモデルと同じ挙動から学習をスタートするために、Bをzeroで初期化し、Aはランダムに初期化する。このAとBの不均衡さが、勾配消失、爆発、あるいはsub-optimalな収束の要因となってしまっていた(inter-matrix scale conflicts)。特に、LoRAはモデルのwidthが大きくなると不安定になるという課題があった。このため、低ランク行列を2つ使うのではなく、1つの低ランク行列(とその転置)およびoptimizationのstep tごとにtrainableなパラメータがどの程度影響を与えるかを調整する度合いを決めるscalar function u(t)を導入することで、低ランク行列間の不均衡を解消しつつ、パラメータ数を半減し、学習の安定性と性能を向上させる。たとえばu(t)を学習開始時にzeroにすれば、元のLoRAにおいてBをzeroに初期化するのと同じ挙動(つまり元のモデルと同じ挙動から学習スタートができたりする。みたいな感じだろうか?
関連:
- LoRA: Low-Rank Adaptation of Large Language Models, Edward J. Hu+, ICLR'22
- LoRA+: Efficient Low Rank Adaptation of Large Models, Soufiane Hayou+, N/A, ICML'24
[Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #COLM #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-07-11 GPT Summary- 大規模言語モデルの事前学習中に発生する損失のスパイクは性能を低下させるため、避けるべきである。勾配ノルムの急激な増加が原因とされ、サブレイヤーのヤコビ行列の分析を通じて、勾配ノルムを小さく保つための条件として小さなサブレイヤーと大きなショートカットが必要であることを示した。実験により、これらの条件を満たす手法が損失スパイクを効果的に防ぐことが確認された。 Comment
元ポスト:
small sub-layers, large shortcutsの説明はこちらに書かれている。前者については、現在主流なLLMの初期化手法は満たしているが、後者はオリジナルのTransformerの実装では実装されている[^1]が、最近の実装では失われてしまっているとのこと。
下図が実験結果で、条件の双方を満たしているのはEmbedLN[^2]とScaled Embed[^3]のみであり、実際にスパイクが生じていないことがわかる。
[^1]:オリジナル論文 [Paper Note] Attention Is All You Need, Ashish Vaswani+, NeurIPS'17, 2017.07
の3.4節末尾、embedding layersに対してsqrt(d_model)を乗じるということがサラッと書いてある。これが実はめちゃめちゃ重要だったという…
[^2]: positional embeddingを加算する前にLayer Normalizationをかける方法
[^3]: EmbeddingにEmbeddingの次元数d(i.e., 各レイヤーのinputの次元数)の平方根を乗じる方法
前にScaled dot-product attentionのsqrt(d_k)がめっちゃ重要ということを実験的に示した、という話もあったような…
(まあそもそも元論文になぜスケーリングさせるかの説明は書いてあるけども)
著者ポスト(スライド):
非常に興味深いので参照のこと。初期化の気持ちの部分など勉強になる。
[Paper Note] StableMoE: Stable Routing Strategy for Mixture of Experts, Damai Dai+, arXiv'22
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) Issue Date: 2025-09-02 GPT Summary- StableMoEは、ルーティングの変動問題に対処するために2つのトレーニングステージを持つMixture-of-Experts手法を提案。最初のステージで一貫したルーティング戦略を学習し、軽量ルーターに蒸留。第二のステージでそのルーターを用いてエキスパートへの割り当てを固定。言語モデリングと多言語機械翻訳での実験により、StableMoEは収束速度と性能で既存手法を上回ることが示された。 Comment
元ポスト:
Beyond MuP: 2. Linear Layers and Steepest Descent, Scientific Spaces, 2026.02
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog #Optimizer Issue Date: 2026-02-16 Comment
元ポスト:
Trinity Large, Arcee, 2026.01
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection #Sparse #Initial Impression Notes Issue Date: 2026-01-29 Comment
テクニカルレポート:
https://github.com/arcee-ai/trinity-large-tech-report/
HF:
https://huggingface.co/arcee-ai
GLM4.7やDeepSeekV3と比較してスループットやTTFTが二倍以上。
非常にsparseなMoE(400B-A13B, 4/256のexpertsにルーティング)であるため学習を安定させるためにDense layerを増やし、モメンタムを考慮したexpertのバランシングや、z-lossと呼ばれるlogitのスケールをコントロールするような手法を導入することで安定した学習を実現。2048 Nvidia B300 GPUsで、17Tトークンの事前学習33日で完了
元ポスト:
これほどsparseなMoEをここまで安定させて学習できるのは非常に興味深いと思われる。
インタビュー:
やると決めてチームビルディングも含めて非常に短期間(6ヶ月)で達成したとのことだが、気になる。
解説:
所見(風刺):
ポイント解説:
アーキテクチャ解説:
A well known important feature to stabilize RL training is implementing the LM head in fp32 precision to help with gradients ... , Nathan Lambert, X, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Post #PostTraining #One-Line Notes Issue Date: 2026-01-24 Comment
関連:
- MiniMax-M1, MiniMax, 2025.06
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning
Attention, MiniMax+, arXiv'25, 2025.06
RLを安定化するためのtipsとそれによりMiniMax M1のplotが再現できたという話な模様。RLはこういった細かいテクニックが大事だと思うので、共有して頂けるのは大変ありがたい。
関連:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
- train-inference-gap && ReinforcementLearning ラベルが紐づいたissueも参照のこと
No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL, vLLM Blog, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #Tokenizer #RetokenizationDrift Issue Date: 2025-10-24 Comment
推論時のトークン化と、結果として返される文字列の再トークン化の際に異なるcontextの元トークン化がされることで(e.g., 異なるテンプレートが利用されるなど)、トークン化の結果が異なりgapが生まれるという問題。この違いがオンポリシーRLなどで学習に不安定にするよ、という話で、vLLMがトークンIDそのものを返せるように仕様変更したよ、といった話らしい。
トークン化の不一致という文脈で言うと下記のような研究もある
- [Paper Note] Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models, Ruiyi Yan+, EMNLP'25
When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs #train-inference-gap Issue Date: 2025-09-27 Comment
元ポスト:
訓練時のエンジン(fsdp等)とロールアウト時のエンジン(vLLM等)が、OOVなトークンに対して(特にtooluseした場合に生じやすい)著しく異なる尤度を割り当てるため学習が崩壊し、それは利用するGPUによっても安定性が変化し(A100よりもL20, L20よりもH20)、tokenレベルのImporttance Weightingでは難しく、Sequenceレベルのサンプリングが必要、みたいな話な模様。
関連:
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
- [Paper Note] Group Sequence Policy Optimization, Chujie Zheng+, arXiv'25
FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:
そもそもFlashAttnention-2 kernelにバグがあり、A100/L20で特定のカーネルが呼ばれるとミスマッチが起きるのだとか。vLLM Flashattentionリポジトリのissue 87によって解決済み。~~具体的にどのカーネル実装なのだろうか。~~ (vLLM Flashattentionリポジトリだった模様)
https://github.com/vllm-project/flash-attention
disable_cascade_attnの設定値を何回も変えたけどうまくいかないよという話がある:
Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Optimizer #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-07-12 Comment
元ポスト:
1T-A32Bのモデル。さすがに高性能。
(追記) Reasoningモデルではないのにこの性能のようである。
1T-A32Bのモデルを15.5Tトークン訓練するのに一度もtraining instabilityがなかったらしい
元ポスト:
量子化したモデルが出た模様:
仕事早すぎる
DeepSeek V3/R1とのアーキテクチャの違い:
MLAのヘッドの数が減り、エキスパートの数を増加させている
解説ポスト:
利用されているOptimizer:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
2つほどバグがあり修正された模様:
chatbot arenaでOpenLLMの中でトップのスコア
元ポスト:
テクニカルペーパーが公開:
https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
元ポスト:
テクニカルレポートまとめ:
以下のような技術が使われている模様
- [Paper Note] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, ICLR'26, 2025.05
- MLA MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- MuonCip
- MuonOptimizer [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- QK-Clip
- 参考(こちらはLayerNormを使っているが): [Paper Note] Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, CVPR'24, 2023.12
- RLVR
- DeepSeek-R1, DeepSeek, 2025.01
- Self-Critique
- 関連: [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25
- [Paper Note] Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards, Xun Lu, arXiv'25
- Temperature Decay
- 最初はTemperatureを高めにした探索多めに、後半はTemperatureを低めにして効用多めになるようにスケジューリング
- Tool useのためのSynthetic Data
Reward Hackingに対処するため、RLVRではなくpairwise comparisonに基づくself judging w/ critique を利用きており、これが非常に効果的な可能性があるのでは、という意見がある:
