EntropyCollapse
[Paper Note] Entropy-Preserving Reinforcement Learning, Aleksei Petrenko+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ICLR #PostTraining #Selected Papers/Blogs #Stability #needs-revision #Author Thread/Post Issue Date: 2026-04-01 Comment
元ポスト:
openreview: https://openreview.net/forum?id=E8MR8jgEeZ
PPO/GRPOなどのアルゴリズムではRL中にポリシーの多様性が低下し、ポリシーがdeterministicになり探索をしなくなり、パフォーマンスが停滞するか低下する(あるいはベースモデルでもともと高い尤度を持っていた解のPass@1が改善するが、ポリシーの出力が狭くなるため、Pass@kが犠牲になる)現象が生じる(= entropy collapse)ので、それを是正したいという話。
後ほど追記
[Paper Note] The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models, Ganqu Cui+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-03-22 GPT Summary- ポリシーエントロピーの崩壊を克服するために、LLMを用いた強化学習の手法を提案。エントロピーとポリシー性能の関係を示す経験的法則を確立し、エントロピーの管理が重要であることを示唆。共分散の理解を通じて、高共分散トークンの更新を制限する方法(Clip-CovとKL-Cov)を提案し、探索を促進しつつ、ポリシーエントロピーの減少を回避する実験結果を示した。 Comment
openreview: https://openreview.net/forum?id=vXoksdcfqC
[Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Reasoning #Distillation #NeurIPS #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-05 GPT Summary- 検証可能な報酬を用いた強化学習(RLVR)は、LLMsの推論性能を向上させるが、現在の設定では新しい推論パターンを引き出せていない。小さなkではベースモデルを上回るが、大きなkではベースモデルが優位。RLVRアルゴリズムは類似の性能を示し、ベースモデルの潜在能力を活用できていない。蒸留は新しい推論パターンを導入し、モデルの能力を拡張できる。これにより、RLの改善が必要であることが示唆される。 Comment
pj page: https://limit-of-rlvr.github.io/
元ポスト:
所見:
上記所見では、「RLVRがバッチサイズ256、トークン長8192(および8つのプロンプト)で約400ステップ実行されており、何かを学ぶにはトークン量が少なすぎるのでは」という指摘があるが、著者がリプ欄でそれはablation studyでの実験のものであり、4.6節でより大規模なモデル・計算量で学習されたモデルで実験をしたが(著者が訓練したというよりも、ベースモデルとRLVR後のモデルでPass@kの性能を比較したということだと思われる)結論は変わらなかった、と反論をしている。ただし、4.6節ではstep数が言及されていない、という指摘もあり、それに対して、著者は公表されているstep数の数値を返答しているように見える。
openreview: https://openreview.net/forum?id=4OsgYD7em5
RLVRによって、サンプル効率は改善するが(= Pass@1は改善する)、モデルのreasoning能力のboundaryは狭まる(= Pass@kはRL後のモデルよりもベースモデルの方が高い。つまり、ベースモデルの方が推論可能な範囲 (reasoning boundary) が広いということ)。言い換えると、RLはベースモデルによって既に獲得されているreasoning pathを引き出すが、新たな戦略を発見しない。このことを多様なデータセット、モデル群に対するシステマチックな実験によって示した。
openreview中のweaknessにおいて、解決策の提案がlimitedであると指摘されているが、それに対して以下のようにrebuttalが記述されている:
> 1. Finer-grained reward structures: step-wise rewards guide intermediate reasoning and reduce exploration bottlenecks.
> 2. Improved exploration: Instead of naive softmax sampling, introduce structured or hierarchical search to enhance exploration efficiency.
> 3. Better long-horizon credit assignment: Use techniques to propagate reward more effectively over long CoT chains and enabling the model to assign credit to crucial intermediate steps instead the whole response
> 4. Scaling up RL training: Match RLVR compute and data scale to that of pre-training
> 5. Multi-turn tool use & external knowledge: Allow the agent to interact with tools or retrieve external facts, broadening the reasoning space beyond single-pass generation
openreview中のrebuttalに記載の通り解決策の一つとして「RLVRのスケールを事前学習並みにスケールさせる」というものがあり、理論的にRLVRがreasoning boundaryを広げないということを示したわけではなく、たとえばより多くの計算量とデータを投入した場合に関しては明らかではなさそう、という点には注意。
[Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models, Zhipeng Chen+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #read-later #RLVR #Diversity Issue Date: 2025-08-19 GPT Summary- 検証可能な報酬を用いた強化学習(RLVR)では、Pass@1を報酬として使用することが多く、探索と活用のバランスに課題がある。これに対処するため、Pass@kを報酬としてポリシーモデルを訓練し、その探索能力の向上を観察。分析により、探索と活用は相互に強化し合うことが示され、利得関数の設計を含むPass@k Trainingの利点が明らかになった。さらに、RLVRのための利得設計を探求し、有望な結果を得た。 Comment
元ポスト:
関連:
- [Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12
openreview: https://openreview.net/forum?id=eslxxopXTF
[Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #RLVR Issue Date: 2025-07-22 GPT Summary- RLVRはAIの能力向上に寄与するが、基盤モデルの制約により新しい解の発見を制限する可能性がある。理論的調査により、初期確率がゼロの解をサンプリングできないことや、探索を狭めるトレードオフが明らかになった。実証実験では、RLVRが精度を向上させる一方で、正しい答えを見逃すことが確認された。将来的には、探索メカニズムや過小評価された解に確率質量を注入する戦略が必要とされる。 Comment
元ポスト:
RLVRの限界に関する洞察
openreview: https://openreview.net/forum?id=qGhFl1SiPX
