<h2 id=Off-Policy> Off-Policy</h2><div class="visible-content"> #Pocket #NLP #LanguageModel #ReinforcementLearning #read-later
Issue Date: 2025-10-08 [Paper Note] Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?, Haizhong Zheng+, COLM’25, 2025.10 GPT Summary- 強化学習における新しいアプローチM2POを提案。古いデータを効果的に活用し、オンポリシー学習の効率性を向上。M2POは重要度重みの二次モーメントを制約し、外れ値を抑制しつつ安定した最適化を実現。広範な評価により、古いデータでもオンポリシーに匹敵する性能を示した。 Comment<p>元ポスト:
</p><p>本当だとしたらすごいが果たして</p></span>
#ComputerVision
#Pocket
#ReinforcementLearning
#read-later
#WorldModels
Issue Date: 2025-10-02 [Paper Note] Training Agents Inside of Scalable World Models, Danijar Hafner+, arXiv’25, 2025.09 GPT Summary- 「Dreamer 4」は、ビデオゲーム「Minecraft」において物体の相互作用を正確に予測し、強化学習を用いて制御タスクを解決するスケーラブルなエージェントです。このワールドモデルは、ショートカット強制目的と効率的なトランスフォーマーアーキテクチャを活用し、リアルタイムのインタラクティブ推論を実現します。さらに、少量のデータから一般的な行動を学習し、オフラインデータのみでダイヤモンドを取得するタスクを成功させました。Dreamer 4は、環境との相互作用なしに学ぶ能力を持つ初のエージェントであり、知能エージェントへの新たな道を示しています。 Comment<p>解説:
</p></span>
#Pocket
#ReinforcementLearning
#NeurIPS
Issue Date: 2025-09-24 [Paper Note] A Clean Slate for Offline Reinforcement Learning, Matthew Thomas Jackson+, arXiv’25, 2025.04 GPT Summary- オフライン強化学習の課題に対処するため、透明な評価プロトコルを導入し、シンプルな実装を提供。これにより、さまざまな手法を統一したハイパーパラメータ空間にカプセル化する「Unifloral」を提案。新しいアルゴリズムTD3-AWRとMoBRACを開発し、既存のベースラインを上回る性能を達成。実装は公開済み。 Comment<p>元ポスト:
</p></span>
</div>
画像は元ポストより。off-policy RLでもlong contextで高い性能が出るようになったのだろうか
元ポスト:
関連:
- Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06
#Analysis #Pocket #NLP #LanguageModel #ReinforcementLearning #TransferLearning #DPO #GRPO #VerifiableRewards #On-Policy #Non-VerifiableRewards Issue Date: 2025-06-30 [Paper Note] Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv'25 GPT Summary- 大規模言語モデルのファインチューニングにおける強化学習手法の効果を、オフラインからオンラインへの移行において調査。数学タスクと指示に従うタスクのベンチマーク評価を行い、オンラインおよびセミオンラインの最適化手法がオフライン手法を上回る結果を示す。トレーニングダイナミクスとハイパーパラメータ選択について分析し、検証可能な報酬と検証不可能な報酬を共同で扱うことでパフォーマンス向上を確認。 Comment
元ポスト:
#Article #Library #ReinforcementLearning #Blog #Selected Papers/Blogs #On-Policy Issue Date: 2025-08-26 Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08 Comment
元ポスト:
元々
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
のスレッド中にメモっていたが、アップデートがあったようなので新たにIssue化
アップデートがあった模様:
- Parallelismのミスマッチでロールアウトと学習のギャップを広げてしまうこと(特にsequence parallelism)
- Longer Sequenceの方が、ギャップが広がりやすいこと
- Rolloutのためのinferenceエンジンを修正する(SGLang w/ deterministic settingすることも含む)だけでは効果は限定的
といった感じな模様。
#Article #Tutorial #ReinforcementLearning #Blog #On-Policy Issue Date: 2025-06-19 Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06 Comment
元ポスト:
on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の(Q関数で)Q値が最大となるアクションを選択した場合に得られる価値はどんなもん?というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう(=バイアス)ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい?
#Article #Tutorial #Pocket #ReinforcementLearning #Blog Issue Date: 2021-06-07 ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05