Entropy
Issue Date: 2025-10-30 [Paper Note] Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning, Aman Sharma+, arXiv'25, 2025.10 GPT Summary- エントロピーに基づく新しいフレームワークを提案し、推論タスクにおける大規模言語モデルのトークン効率を向上。シャノンエントロピーを信頼度信号として利用し、早期停止を実現することで、計算コストを25-50%削減。モデルごとに異なるエントロピー閾値を用いて、正しい答えを早期に得ることを認識し、トークン節約とレイテンシ削減を可能にする。精度を維持しつつ一貫したパフォーマンスを示し、現代の推論システムの特徴を明らかに。 Comment
元ポスト:
デコード時のエントロピーに応じて、reasoningを打ち切るか否か判定してコスト削減しつつ推論する話な模様
vLLMとかでデフォルトでサポートされてスループット上がったら嬉しいなあ
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #Diversity
Issue Date: 2025-10-24 [Paper Note] Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning, Jiashun Liu+, arXiv'25, 2025.10 GPT Summary- 非対称近似ポリシー最適化(AsyPPO)を提案し、批評者の役割を復元しつつ大規模言語モデルの強化学習を効率化。軽量なミニ批評者を用いて多様性を促進し、価値推定のバイアスを減少。5,000サンプルでトレーニング後、従来のPPOに対してパフォーマンスを向上させ、学習の安定性を一貫して改善。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining #Off-Policy #On-Policy #Stability #One-Line Notes #PartialRollout
Issue Date: 2025-10-24 [Paper Note] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping, Zhiheng Xi+, arXiv'25, 2025.10 GPT Summary- 強化学習におけるオフポリシー設定の課題を解決するため、BAPO(Balanced Policy Optimization with Adaptive Clipping)を提案。ポジティブとネガティブな寄与を再バランスし、エントロピーを保持することで最適化を安定化。多様なシナリオでデータ効率の高いトレーニングを実現し、AIME 2024およびAIME 2025のベンチマークで最先端の結果を達成。 Comment
pj page: https://github.com/WooooDyy/BAPO
Partial Rollout(=長いtrajectoryを一回のロールアウトで生成仕切らずに、途中で生成を打ち切りreplay bufferに保存。次のロールアウト時に続きを生成する。しかし更新されたポリシーによって続きをロールアウトするためオフポリシーデータとなる)の設定で、GRPOよりも学習効率が良いことが示されているように見える。
元ポスト:
#Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2025-10-17 [Paper Note] SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization, Minghan Chen+, arXiv'25, 2025.05 GPT Summary- SEED-GRPOは、LLMの不確実性を考慮したポリシー更新手法であり、入力プロンプトの意味的エントロピーを測定してポリシー更新の大きさを調整する。これにより、高い不確実性の質問には慎重な更新を行い、自信のある質問には元の学習信号を維持する。実験結果は、5つの数学的推論ベンチマークで新たな最先端のパフォーマンスを達成したことを示している。 Comment
元ポスト:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning
Attention, MiniMax+, arXiv'25, 2025.06
との比較を見てみたいなあ
#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #Quantization #PEFT(Adaptor/LoRA) Issue Date: 2025-10-14 [Paper Note] QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs, Wei Huang+, arXiv'25, 2025.10 GPT Summary- QeRLは、LLMs向けの量子化強化学習フレームワークで、NVFP4量子化とLoRAを組み合わせてRLのロールアウトを加速し、メモリ使用量を削減します。量子化ノイズがポリシーエントロピーを増加させ、探索を強化することを示し、AQNメカニズムでノイズを動的に調整します。実験により、ロールアウトフェーズで1.5倍のスピードアップを達成し、32B LLMのRLトレーニングを単一のH100 80GB GPUで可能にしました。QeRLは、報酬の成長と最終精度で優れた結果を示し、LLMsにおけるRLトレーニングの効率的なフレームワークとしての地位を確立しました。 Comment
pj page: https://github.com/NVlabs/QeRL
元ポスト:
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
のようなロールアウトする際のエンジンと学習のエンジンのgapによる問題は生じたりしないのだろうか。
解説:
#Analysis #Pocket #NLP #Dataset #LanguageModel #AIAgents #Reasoning Issue Date: 2025-10-14 [Paper Note] Demystifying Reinforcement Learning in Agentic Reasoning, Zhaochen Yu+, arXiv'25, 2025.10 GPT Summary- エージェント的強化学習(agentic RL)を用いて、LLMsの推論能力を向上させるための調査を行った。重要な洞察として、合成軌道の実際のツール使用軌道への置き換えや、多様なデータセットの活用がRLのパフォーマンスを向上させることが示された。また、探索を促進する技術や、ツール呼び出しを減らす戦略がトレーニング効率を改善することが確認された。これにより、小型モデルでも強力な結果を達成し、実用的なベースラインを提供する。さらに、高品質なデータセットを用いて、困難なベンチマークでのエージェント的推論能力の向上を示した。 Comment
元ポスト:
ポイント解説:
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #RLVR Issue Date: 2025-10-13 [Paper Note] Rethinking Entropy Regularization in Large Reasoning Models, Yuxian Jiang+, arXiv'25, 2025.09 GPT Summary- RLVRはLRMの推論能力を向上させるが、エントロピーの崩壊と早期収束の問題に直面している。これに対処するため、SIREN(選択的エントロピー正則化)を提案し、探索を意味のある行動と状態のサブセットに制限する二段階のエントロピーマスキングメカニズムを導入。SIRENは数学的ベンチマークで優れたパフォーマンスを示し、トレーニングの安定性を高め、早期収束の問題を軽減することが確認された。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #RLVR Issue Date: 2025-10-03 [Paper Note] ExGRPO: Learning to Reason from Experience, Runzhe Zhan+, arXiv'25, 2025.10 GPT Summary- RLVRは大規模言語モデルの推論能力を向上させる新しい手法ですが、標準的な訓練方法は計算効率が悪い。本研究では、推論経験の価値を調査し、ExGRPOフレームワークを提案。これにより、経験の整理と優先順位付けを行い、探索と経験活用のバランスを取る。実験結果では、ExGRPOが推論性能を向上させ、訓練の安定性を高めることが示された。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2025-09-29 [Paper Note] Quantile Advantage Estimation for Entropy-Safe Reasoning, Junkang Wu+, arXiv'25, 2025.09 GPT Summary- 強化学習における検証可能な報酬(RLVR)のトレーニングは、エントロピー崩壊と爆発の問題に直面する。これを解決するために、分位アドバンテージ推定(QAE)を提案し、平均ベースラインをK-分位ベースラインに置き換える。QAEは、難しいクエリで稀な成功を強化し、簡単なクエリで失敗をターゲットにする。これにより、エントロピーの安定化とクレジット割り当てのスパース化が実現し、AIME 2024/2025およびAMC 2023での性能向上が確認された。結果は、ベースライン設計がRLVRのスケーリングにおいて重要であることを示している。 Comment
元ポスト:
ポイント解説:
#Analysis #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #read-later Issue Date: 2025-09-10 [Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, arXiv'25 GPT Summary- 強化学習(RL)は大規模言語モデル(LLMs)の推論能力を向上させるが、そのメカニズムは不明。分析により、推論の階層が人間の認知に似た二段階のダイナミクスを持つことを発見。初期段階では手続き的な正確性が求められ、後に高レベルの戦略的計画が重要になる。これに基づき、HICRAというアルゴリズムを提案し、高影響の計画トークンに最適化を集中させることで性能を向上させた。また、意味的エントロピーが戦略的探求の優れた指標であることを検証した。 Comment
pj page: https://tiger-ai-lab.github.io/Hierarchical-Reasoner/
元ポスト:
ポイント解説:
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #RLVR Issue Date: 2025-08-20 [Paper Note] Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration, Zhicheng Yang+, arXiv'25 GPT Summary- 強化学習における検証可能な報酬(RLVR)は、言語モデルの推論能力を引き出すが、深さと幅の2つの次元に制約されている。GRPOアルゴリズムの分析から、低精度のインスタンスの重みが軽減されるバイアスが明らかになった。これを是正するために、難易度適応型ロールアウトサンプリング(DARS)を導入し、難しい問題の重みを再調整。DARSは収束時に推論コストなしでPass@Kを向上させる。さらに、トレーニングデータの幅を拡大することでPass@1のパフォーマンスも向上。DARS-Bを提案し、幅と深さの適応的な探査がRLVRの推論力を引き出す鍵であることを示した。 Comment
元ポスト: