ReinforcementLearningに関する論文・技術記事メモの一覧

ReinforcementLearning

[Paper Note] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models, Zanlin Ni+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #DiffusionModel Issue Date: 2026-01-22 GPT Summary- dLLMsは任意の順序でトークンを生成できるが、この柔軟性が推論の境界を狭める可能性があることを示す。dLLMsは高不確実性トークンを回避し、解空間の早期崩壊を引き起こす傾向があり、既存のRLアプローチの前提に挑戦する。効果的な推論は、任意の順序を放棄し、GRPOを適用することで実現され、JustGRPOはその実例で、GSM8Kで89.1％の精度を達成した。 Comment

元ポスト:

Loading…

[Paper Note] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow, Haocheng Xi+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #train-inference-gap #LowPrecision Issue Date: 2026-01-21 GPT Summary- 強化学習（RL）はLLMの推論能力を向上させるが、既存のトレーニングは非効率で、ロールアウトに多くの時間を要する。FP8精度による量子化RLトレーニングがボトルネック解消の有力候補であるが、BF16トレーニング + FP8ロールアウトの戦略は不安定さを招く。我々はJet-RLを提案し、トレーニングとロールアウトに統一されたFP8フローを採用することで数値的ミスマッチを減少させる。実験により最大33％のロールアウト速度向上と41％のトレーニング速度向上を達成し、安定した収束を実証した。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

[Paper Note] RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation, Sunzhu Li+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #RewardModel #GenerativeVerifier #Rubric-based Issue Date: 2026-01-20 GPT Summary- 強化学習における検証可能な報酬（RLVR）は、論理的思考が求められるが、評価の欠如が生成の最適化を難しくしている。ルーブリック評価は構造的手段を提供するが、既存手法はスケーラビリティや粗い基準に課題がある。これに対処するため、自動評価基準の生成フレームワークを提案し、微妙なニュアンスを捉える高識別力基準を作成。約11万件のデータセット「RubricHub」を紹介し、二段階ポストトレーニングでその有用性を検証。結果、Qwen3-14BがHealthBenchで69.3の最先端結果を達成し、他のモデルを上回った。 Comment

pj page: https://huggingface.co/datasets/sojuL/RubricHub_v1

元ポスト:

Loading…

[Paper Note] Reasoning Models Generate Societies of Thought, Junsol Kim+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning #read-later #Probing #Diversity #Selected Papers/Blogs #SparseAutoEncoder Issue Date: 2026-01-19 GPT Summary- 大規模言語モデルは、複雑な認知タスクにおいて優れた性能を発揮するが、そのメカニズムは不明瞭である。本研究では、強化された推論は計算の拡張だけでなく、異なる人格特性や専門知識を持つ内部認知視点の間のマルチエージェント相互作用によって生じることを示す。これにより、推論モデルはより広範な対立を引き起こし、視点の多様性が向上することを発見した。制御された強化学習実験により、会話行動の増加が推論精度を向上させることが明らかになり、思考の社会的組織が問題解決を効果的に行う可能性を示唆する。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge, Yao Tang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Reasoning #Architecture #read-later #Initial Impression Notes Issue Date: 2026-01-19 GPT Summary- Multiplex Thinkingは、K個の候補トークンをサンプリングし、単一のマルチプレックストークンに集約することで、柔軟な推論を実現。モデルの自信に応じて標準的なCoTの挙動と複数の妥当なステップをコンパクトに表現。難易度の高い数学的推論ベンチマークで一貫して優れた結果を示す。 Comment

pj page: https://gmlr-penn.github.io/Multiplex-Thinking/

元ポスト:

Loading…

reasoningに関する新たなアーキテクチャ

[Paper Note] PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning, Jingcheng Hu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2026-01-19 GPT Summary- PaCoReというフレームワークを提案し、固定されたコンテキストウィンドウの制約を超え、テスト時の計算能力（TTC）を拡張する。従来の逐次的な推論から離れ、大規模な並列探索を通じてTTCを促進。このモデルは、複数のラウンドでメッセージを調整、集約し最終的な答えを生成。強化学習によって効果的にトレーニングされ、数学関連の推論でも高パフォーマンスを発揮。8BモデルがHMMT 2025で94.5%を達成し、約200万トークンを扱い、GPT-5を上回る結果を示した。 Comment

元ポスト:

Loading…

- [Paper Note] STEP3-VL-10B Technical Report, Ailin Huang+, arXiv'26, 2026.01

で活用されているRLでtest time scalingを学習する手法

[Paper Note] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking, Qiang Zhang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#LearningToRank #PairWise #Pocket #NLP #LanguageModel #PostTraining #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-16 GPT Summary- 強化学習はLLMエージェントのパフォーマンスを向上させたが、オープンエンドのタスクでは依然として課題が残る。報酬モデルが得点をスカラーで割り当てるため、識別が難しく、最適化が停滞する。これに対抗するために、ArenaRLを提案し、相対ランキングに基づく新しいアプローチを導入。プロセス意識の対評価メカニズムを用いて、安定した利点信号を得るためのトーナメント方式を採用。実験結果は、この手法が効率性と精度のバランスを保ちながら、従来のベースラインを超えることを示す。また、オープンエンドエージェント向けの高品質ベンチマークOpen-TravelとOpen-DeepResearchも構築された。 Comment

元ポスト:

Loading…

pj page: https://tongyi-agent.github.io/blog/arenarl/

従来のRLが各ロールアウトごとにpoint-wiseなrewardを付与していたとみなしたときに、定量化が困難なタスクにおいてrewardのsignalがノイジーでうまくいかないという現象が生じ、それに対し相対的な指標であるpairwiseなrankingを導入するというのは直感的に非常に有効で、さまざまなタスクに適用しうるため、インパクトが大きく重要論文に見える。

[Paper Note] Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents, Yi Yu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #memory #One-Line Notes Issue Date: 2026-01-14 GPT Summary- AgeMemは、LTMとSTMをエージェントのポリシーに統合し、メモリ操作を自律的に管理できるフレームワークを提案。3段階の強化学習で訓練し、5つのベンチマークでメモリ拡張性能が向上。タスクパフォーマンスと効率的なコンテキスト使用を実現。 Comment

元ポスト:

Loading…

従来のAI Agentsにおけるメモリ管理は、short / long term memory [^1] の観点で見ると、双方を別々のコンポーネントとして扱われてきたが（short term memoryはRAGコンポーネント, long term memoryはagentic memoryの文脈で別々に研究され、trigger-based（決められたタイミングで決められた操作を実行する）、agent-based（何を・どのように格納するかを管理するエージェントを構築する））これらはヒューリスティックなルール (Figure1 left) や異なるexpertなモデルを必要とする(Figure1 (middle))ことからシステムのアーキテクチャを複雑にしているし(Figure1 left and middle)、それぞれが独立に構築され疎結合であるため、sub-optimalな性能しか出せておらず、long-horizonな実行を考えたときに双方を統合的に扱う枠組みが必要不可欠であると考えられるためそれが可能な枠組みを提案した、という話に見える。

[^1]: short memoryは現在のinput context全体を指し、long term memoryは永続的に保持されるユーザやtask specificなメモリのこと

[Paper Note] Dr. Zero: Self-Evolving Search Agents without Training Data, Zhenrui Yue+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Search #LanguageModel #QuestionAnswering #AIAgents #SelfImprovement #On-Policy #KeyPoint Notes Issue Date: 2026-01-14 GPT Summary- データフリー自己進化が注目される中、大規模言語モデル（LLM）のための「Dr. Zero」フレームワークを提案。多様な質問を生成し、自己進化フィードバックループで解決者をトレーニング。HRPOを導入し、類似質問のクラスタリングを行うことで計算効率を向上。実験結果は、データフリーの検索エージェントが監視型と同等以上の性能を達成することを示す。 Comment

元ポスト:

Loading…

（検索とReasoningを通じてSolver用の学習データとしてのverifiableな）QAを生成するProposerと、それを（検索とReasoningを通じて）解決するSolverの双方をRLするような枠組みで、ProposerはSolverからのDifficulty Reward (QAのverifiabilityとSolverの成功率（自明でなく難しすぎもしない丁度良い難易度か, 式(4)）として受けとりHRPOと呼ばれる手法で改善、SolverはGRPOでRLVRする、といった枠組みに見える。QAはProposerが合成するので事前にデータを用意する必要がない、ということだと思われる。

HRPOはGRPO同様にon policyなRL手法であり、従来のself-evolving手法ではsingle hopなQuestionに合成結果が偏りやすく、かつon policyな手法でProposerを学習しようとしたときに、naiveにやるとm個のクエリに対して、クエリごとにsolverのn個のロールアウトが必要な場合、(m+1)*n回のロールアウトがpromptごとに必要となるため、計算コストが膨大になりスケーリングさせる際に深刻なボトルネックとなる問題を解決したものである。
具体的には、単一のpromptに対して複数のsolverによるロールアウトからadvantageを計算するのではなく、同じhop数の合成されたQAでクラスタリングを実施しておき、そのグループ内の（構造や複雑度がhop数の観点で類似した）QAに対するロールアウトに基づいてadvantageを計算する（3.2切に明記されていないが、おそらくロールアウトはQAごとに少数（1つ））。似たようなhop数を要するQAによってadvantageが正規化されるためadvantageの分散を小さくとることが期待され、かつロールアウトの回数を減らせるため計算効率が良い、という利点がある(3.2節）。

解説:

Loading…

[Paper Note] RoboReward: General-Purpose Vision-Language Reward Models for Robotics, Tony Lee+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #read-later #Selected Papers/Blogs #VisionLanguageModel #RewardModel #Robotics #EmbodiedAI Issue Date: 2026-01-09 GPT Summary- 強化学習における報酬設計の重要性を踏まえ、実ロボティクスでの自動報酬モデルとしてのビジョン・ランゲージモデル（VLM）の効果を探求。新たに「RoboReward」データセットを導入し、成功例の反事実的ラベリングやネガティブ例データ拡張を通じて多様なタスクを網羅した訓練データを構築。評価の結果、既存のVLMには改善の余地があり、4Bおよび8Bパラメータモデルが短期タスクで優れた報酬を提供。最終的に、8Bモデルを実ロボット強化学習に適用し、人間提供の報酬とのギャップを縮小する成果を得た。データセットやモデルは公開されている。 Comment

元ポスト:

Loading…

[Paper Note] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization, Shih-Yang Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #Alignment #PostTraining #One-Line Notes Issue Date: 2026-01-09 GPT Summary- 言語モデルの行動を多様な人間の好みに沿わせるために、複数の報酬を用いた強化学習（RL）が重要である。しかし、Group Relative Policy Optimization（GRPO）を適用すると、報酬が同一のアドバンテージ値に収束し、トレーニング信号の解像度が低下する問題がある。本研究では、報酬の正規化を分離する新手法GDPOを提案し、トレーニングの安定性を向上させる。GDPOはツール呼び出し、数学的推論、コーディング推論のタスクでGRPOと比較し、すべての設定でGDPOが優れた性能を示した。 Comment

元ポスト:

Loading…

pj page: https://nvlabs.github.io/GDPO/

multiple rewardを用いたRLにおいて、GRPOを適用すると異なるrewardのsignalが共通のadvantageに収束してしまう問題を改善する手法を提案。
advantageのnormalizationをrewardごとに分離することによって、異なるrewardのsignalが共通のadvantageの値に埋もれてしまう問題を解決することでmultiple rewardの設定における学習効率を改善する、といった話に見える。下記例は2つのbinary rewardの例でGRPOではadvantageが2種類の値しかとらないが、GDPOでは3種類の異なるadvantageをとり、rewardの解像度が向上していることがわかる。

[Paper Note] LightAgent: Mobile Agentic Foundation Models, Yangqin Jiang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #OpenWeight #ComputerUse #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment

pj page: https://github.com/HKUDS/OpenPhone

3Bで10B級の性能を誇る低lavencyのedge device向けSVLM

元ポスト:

Loading…

[Paper Note] Self-Aligned Reward: Towards Effective and Efficient Reasoners, Peixuan Han+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #PostTraining #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-17 GPT Summary- 自己調整報酬（SAR）は、強化学習における検証可能な報酬を補完し、推論の正確性と効率を向上させる新たな信号。SARは、クエリに応じた簡潔で特定の回答を促進し、分析からはその質を信頼できる形で区別できることが示された。4つのモデルを7つのベンチマークで評価し、SARを強化学習アルゴリズムと統合することで精度が4%向上、推論コストが30%削減されることが確認。また、SARは正確性と効率のパレート最適なトレードオフを達成し、冗長性を抑えつつ重要な推論を保持することを示した。これにより、SARがLLMのトレーニングにおいて重要な役割を果たす可能性が示唆された。 Comment

code: https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners

元ポスト:

Loading…

様々なRLの報酬にplug-and-playで適用可能なreward signalで、現在のRLにおける課題である計算効率において、性能を犠牲にせず（推論時のトークン効率の観点から）効率向上が期待できインパクトが大きいように見えるため、重要研究に見える。

[Paper Note] Persona Features Control Emergent Misalignment, Miles Wang+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Safety #PostTraining #SparseAutoEncoder #EmergentMisalignment Issue Date: 2026-01-15 GPT Summary- 言語モデルの行動一般化はAIの安全性にとって重要であり、Betleyらの研究により、GPT-4oのファインチューニングが新たな不一致を引き起こすことが判明。これを拡張し、強化学習や合成データセットのファインチューニングでも同様の不一致を確認。スパースオートエンコーダーを用いたモデル差分比較により、不一致的ペルソナ特徴が特定され、有毒ペルソナが強い影響を与えることが示された。さらに、数百の無害なサンプルでファインチューニングすることで新たな不一致を緩和し、整合性を回復できることが発見された。 Comment

元ポスト:

Loading…

[Paper Note] Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting, Howard Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Catastrophic Forgetting #PostTraining #On-Policy Issue Date: 2026-01-12 GPT Summary- ポストトレーニングにおける「破滅的忘却」を軽減するためのガイドラインを提案。監視付きファインチューニング（SFT）と強化学習（RL）の忘却パターンを比較した結果、RLはSFTよりも忘却が少なく、同等以上のパフォーマンスを示すことが判明。RLの特性が以前の知識を保持する理由を探り、オンポリシーデータの使用がその要因であることを確認。近似的なオンポリシーデータの利用が忘却を軽減する可能性を示唆。 Comment

元ポスト:

Loading…

[Paper Note] Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training, Song Lai+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Catastrophic Forgetting #PostTraining Issue Date: 2026-01-12 GPT Summary- 継続的ポストトレーニング（CPT）における監視付きファインチューニング（SFT）と強化ファインチューニング（RFT）の影響を比較。SFTは以前の知識を忘却させるが、RFTは知識を保持し、マルチタスクトレーニングに匹敵する性能を発揮。RFTはモデルの一般的な知識を保護・向上させる一方、SFTは低下させる。RFTの安定性は暗黙の正則化メカニズムによるもので、データ依存の正則化因子として機能。RFTの効率を向上させるアルゴリズムも提案。RFTの優位性を示す研究。 Comment

元ポスト:

Loading…

[Paper Note] ThinkGen: Generalized Thinking for Visual Generation, Siyu Jiao+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #LanguageModel #Chain-of-Thought #MultiModal #DiffusionModel #TextToImageGeneration #read-later #One-Line Notes #ImageSynthesis Issue Date: 2026-01-06 GPT Summary- ThinkGenは、マルチモーダル大規模言語モデル（MLLM）のChain-of-Thought（CoT）推論を活用した初の思考駆動型視覚生成フレームワークである。MLLMが特化した指示を生成し、Diffusion Transformer（DiT）がそれに基づいて高品質な画像を生成する。さらに、MLLMとDiT間で強化学習を行うSepGRPOトレーニングパラダイムを提案し、多様なデータセットに対応した共同トレーニングを可能にする。実験により、ThinkGenは複数の生成ベンチマークで最先端の性能を達成した。 Comment

元ポスト:

Loading…

MLLMとDiTを別々にRLして、MLLMはDiTが好むplan/instructionを生成し、その後DiTとConnectorに対してplan/instructionに従うようなRLをするような手法のようである。図2,3,4を見ると概要がわかる。

[Paper Note] Evaluating Parameter Efficient Methods for RLVR, Qingyu Yin+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Mathematics #PEFT(Adaptor/LoRA) #RLVR #One-Line Notes Issue Date: 2026-01-02 GPT Summary- 本研究では、検証可能な報酬を伴う強化学習（RLVR）におけるパラメータ効率の良いファインチューニング（PEFT）手法を評価し、12以上の手法を比較しました。結果として、DoRAやAdaLoRAなどの構造的変種がLoRAを上回ること、SVDに基づく初期化戦略におけるスペクトル崩壊現象を発見し、極端なパラメータ削減が推論能力を制約することを示しました。これにより、パラメータ効率の良いRL手法の探求に向けたガイドを提供します。 Comment

元ポスト:

Loading…

RLVRにおけるLoRAとLoRAの変種に関する性能を調査した研究のようである。ベースモデルとしてDeepSeekw-R1-Distilled-Qwen系モデルのみ, データのドメインとしてMathでのみ実験されている点には留意した方が良いと思われ、他のモデル・ドメインにも同様の知見が適用できるかは気になる。

[Paper Note] Training AI Co-Scientists Using Rubric Rewards, Shashwat Goel+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #ScientificDiscovery #Science #Rubric-based Issue Date: 2025-12-31 GPT Summary- AI共同科学者は研究計画を生成するツールとして登場しているが、既存の言語モデルは制約に従った計画生成に苦労している。本研究では、研究論文のコーパスを活用し、研究目標と評価基準を自動抽出して訓練コーパスを構築。自己評価による強化学習を用いてモデルを訓練し、専門家による評価でファインチューニングされたモデルが初期モデルよりも好まれる結果を得た。医療論文へのアプローチ拡張でも改善が見られ、スケーラブルな訓練方法の可能性を示唆している。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #Hybrid Issue Date: 2025-12-28 GPT Summary- Nemotron 3 Nano 30B-A3Bは、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであり、25兆のテキストトークンで事前学習され、監視付きファインチューニングと強化学習を経て精度を向上。前世代のNemotron 2 Nanoよりも高精度で、フォワードパスごとに半分未満のパラメータを活性化し、同サイズのオープンモデルと比較して最大3.3倍の推論スループットを達成。エージェント的、推論、チャット能力が向上し、最大1Mトークンのコンテキスト長をサポート。事前学習済みモデルはHugging Faceで公開。 Comment

元ポスト:

Loading…

[Paper Note] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training, Tong Wei+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #ModelMerge #VisionLanguageModel Issue Date: 2025-12-27 GPT Summary- GTR-Turboは、マルチモーダルエージェントのためのマルチターン強化学習を効率化する手法で、教師モデルに依存せずにパフォーマンスを維持。RLトレーニング中に生成されたチェックポイントの重みを統合し、監視付きファインチューニングを通じて後続のRLをガイド。これにより、トレーニングの安定性が向上し、精度が10-30%向上、トレーニング時間を50%、計算コストを60%削減。 Comment

元ポスト:

Loading…

[Paper Note] MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning, Yuanchen Ju+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #GraphBased #Pocket #Dataset #Evaluation #Robotics #SpatialUnderstanding #EmbodiedAI Issue Date: 2025-12-25 GPT Summary- 家庭内のモバイルマニピュレーター向けに、空間的・機能的関係を統合したMomaGraphを提案。これを支えるために、初の大規模データセットMomaGraph-Scenesと評価スイートMomaGraph-Benchを提供。さらに、7Bのビジョン・ランゲージモデルMomaGraph-R1を開発し、タスク指向のシーングラフを予測。実験により、71.6%の精度を達成し、オープンソースモデルの中で最先端の結果を示した。 Comment

pj page: https://hybridrobotics.github.io/MomaGraph/

元ポスト:

Loading…

[Paper Note] QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management, Weizhou Shen+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #SyntheticData #LongSequence #Selected Papers/Blogs #memory #Entropy Issue Date: 2025-12-24 GPT Summary- QwenLong-L1.5は、長文コンテキスト推論能力を向上させるためのポストトレーニング手法を導入したモデルです。主な技術革新には、長文コンテキストデータ合成パイプライン、安定化強化学習、メモリ拡張アーキテクチャが含まれます。これにより、高品質なトレーニングデータを生成し、長距離推論能力を実現。QwenLong-L1.5は、GPT-5やGemini-2.5-Proと同等の性能を達成し、超長文タスクでのパフォーマンスも向上させました。 Comment

元ポスト:

Loading…

long contextの能力を大幅に向上させたQwen。主要OpenWeightモデルでmemoryアーキテクチャを備えたものを見るのは初めてかも・・・？

[Paper Note] AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards, Zihan Lin+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #RLVR Issue Date: 2025-12-24 GPT Summary- 強化学習を用いてツール使用の大規模言語モデルを訓練する新しいフレームワーク、アドバンテージ重み付けポリシー最適化（AWPO）を提案。AWPOは明示的な推論報酬を統合し、安定した最適化を実現。実験により、標準的なツール使用ベンチマークで最先端のパフォーマンスを達成し、特に4Bモデルはマルチターン精度でGrok-4を16.0%上回る結果を示した。 Comment

元ポスト:

Loading…

[Paper Note] Toward Training Superintelligent Software Agents through Self-Play SWE-RL, Yuxiang Wei+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later Issue Date: 2025-12-24 GPT Summary- Self-play SWE-RL（SSR）を提案し、最小限のデータ仮定でソフトウェアエージェントのトレーニングを行う。人間のラベル付けなしで、LLMエージェントが自己対戦でソフトウェアバグを注入・修正し、SWE-bench VerifiedおよびSWE-Bench Proで顕著な自己改善を達成。結果は、エージェントが実世界のリポジトリから自律的に学習し、最終的に超知能システムの実現に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Step-DeepResearch Technical Report, Chen Hu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #Reasoning #Proprietary #mid-training #DeepResearch #KeyPoint Notes #Rubric-based Issue Date: 2025-12-24 GPT Summary- Step-DeepResearchは、LLMを用いた自律エージェントのためのコスト効率の良いエンドツーエンドのシステムであり、意図認識や長期的意思決定を強化するためのデータ合成戦略を提案。チェックリストスタイルのジャッジャーにより堅牢性を向上させ、中国ドメイン向けのADR-Benchを設立。実験では、Step-DeepResearchが高いスコアを記録し、業界をリードするコスト効率で専門家レベルの能力を達成したことを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

ざっくり言うと、シンプルなReAct styleのagentで、マルチエージェントのオーケストレーションや複雑で重たいワークフロー無しで、OpenAI, GeminiのDeepResearchと同等の性能を達成してとり、ポイントとしてこれらの機能をはmid-training段階で学習してモデルのパラメータとして組み込むことで実現している模様。

mid trainingは2段階で構成され、trajectoryの長さは徐々に長いものを利用するカリキュラム方式。
最初のステージでは以下の4つのatomicスキルを身につけさせる:
- Planning & Task Decomposition
- Deep Information Seeking
- Reflection & Verification
- Reporting

これらのatomic skillを身につけさせる際には、next token predictionをnext action predictionという枠組みで学習し、アクションに関するトークンの空間を制限することで効率性を向上（ただし、具体性は減少するのでトレードオフ）という形にしているようだが、コンセプトが記述されているのみでよくわからない。同時に、学習データの構築方法もデータソースとおおまかな構築方法が書かれているのみである。ただし、記述内容的には各atomicmskilvごとに基本的には合成データが作成され利用されていると考えてよい。

たとえばplanningについては論文などの文献のタイトルや本文から実験以後の記述を除外し、研究プロジェクトのタスクを推定させる（リバースエンジニアリングと呼称している）することで、planningのtrajectoryを合成、Deep Information SeekingではDB Pediaなどのknowledge graphをソースとして利用し、字数が3--10程度のノードをseedとしそこから（トピックがドリフトするのを防ぐために極端に次数が大きいノードは除外しつつ）幅優先探索をすることで、30--40程度のノードによって構成されるサブグラフを構成し、そのサブグラフに対してmulti hopが必要なQuestionを、LLMで生成することでデータを合成しているとのこと。

RLはrewardとしてルーブリックをベースにしたものが用いられるが、strong modelを用いての三つ組データを合成し、このデータを用いてSFT, RLVRをすることでRubrics Judgeモデルを学習して利用すると記述されている。Rubricsに基づく報酬では、最初に
- 1: fully satisfied
- 0.5: partially satisfied
- 0: not satisfied

の3値を検討したが、partially satisfiedが人間による評価とのagreementが低かったため設計を変更し、positive/negative rubricsを設定し、positivルーブリックの場合はルーブリックがfully satisfiedの時のみ1, negativeルーブリックの方はnot satisfiedの時のみ0とすることで、低品質な生成結果に基づくrewardを無くし、少しでもネガティブな要素があった場合は強めのペナルティがかかるようにしているとのこと（ルーブリックの詳細は私が見た限りは不明である。Appendix Aに書かれているように一瞬見えたが具体的なcriterionは書かれていないように見える）。

[Paper Note] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning, Jitesh Jain+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #AIAgents #Evaluation #Reasoning #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes #LongHorizon Issue Date: 2025-12-19 GPT Summary- 人間のように異なる長さの動画に柔軟に推論できる動画推論モデルSAGEを提案。SAGEは長い動画に対してマルチターン推論を行い、簡単な問題には単一ターンで対応。Gemini-2.5-Flashを用いたデータ生成パイプラインと強化学習後訓練レシピを導入し、SAGE-Benchで実世界の動画推論能力を評価。結果、オープンエンドのタスクで最大6.1%、10分以上の動画で8.2%の性能向上を確認。 Comment

pj page: https://praeclarumjj3.github.io/sage/

元ポスト:

Loading…

AllenAIの勢いすごいな...

現在のVideo reasoning Modelはlong videoに対するQAに対してもsingle turnで回答応答しようとするが、人間はそのような挙動はせずに、long videoのうち、どこを流し見し、どこを注視するか、ある時は前半にジャンプし、関係ないところは飛ばすなど、情報を選択的に収集する。そのような挙動のエージェントをMolmo2をベースにSFT+RLをベースに実現。

システムデザインとしては、既存のエージェントはtemporal groundingのみをしばしば利用するがこれはlong videoには不向きなので、non-visualな情報も扱えるようにweb search, speech transcription, event grounding, extract video parts, analyze(クエリを用いてメディアの集合を分析し応答する）なども利用可能に。
inferenceは2-stageとなっており、最初はまずSAGE-MMをContext VLMとして扱い、入力された情報を処理し（video contextやツール群、メタデータなど）、single turnで回答するか、ツール呼び出しをするかを判断する。ツール呼び出しがされた場合は、その後SAGE-MMはIterative Reasonerとして機能し、前段のtool callの結果とvideo contextから回答をするか、新たなツールを呼び出すかを判断する、といったことを繰り返す。

long videoのデータは6.6kのyoutube videoと99kのQAペア(Gemini-2.5-Flashで合成）、400k+のstate-action example（Gemini-2.5-Flashによりtool callのtrajectoryを合成しcold start SFTに使う）を利用。

RLのoptimizationでは、openendなvideo QAではverifiableなrewardは難しく、任意の長さのvideoに対するany-horizonな挙動を学習させるのは困難なので、multi rewardなRLレシピ+strong reasoning LLMによるLLM as a Judgeで対処。rewardはformat, 適切なツール利用、ツール呼び出しの引数の適切さ、最終的な回答のAccuracyを利用。

評価データとしては人手でverificationされた1744のQAを利用し、紐づいている動画データの長さは平均700秒以上。

[Paper Note] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning, Zhenwen Liang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #read-later #Diversity #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-12-19 GPT Summary- G2RLは、強化学習においてモデル自身の更新幾何学に基づく勾配誘導フレームワークを提案。これにより、探索が外部ヒューリスティックに依存せず、ポリシーの再形成を測定。G2RLは、数学および一般的な推論ベンチマークで従来手法に対して一貫した性能向上を示し、探索の直交性と意味的な一貫性を維持することが明らかになった。 Comment

元ポスト:

Loading…

entropyによる制約を課すRL手法ではモデルのsemanticな軸でのdiversityを測ることで探索の多様性を高めるが勾配レベルで見た時には実は冗長で無意味な方向になる場合があるため、勾配を直接見て有効な方向に探索されるようにします、実装は簡単で、計算量もあまり必要ないです、といった話に見える。

[Paper Note] RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning, Yucan Guo+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Multi #EfficiencyImprovement #InformationRetrieval #Pocket #NLP #AIAgents #RAG(RetrievalAugmentedGeneration) #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- Retrieval-Augmented Generation (RAG)を用いた新しいRLベースのフレームワーク\model{}を提案。これにより、LLMsがマルチターンのグラフ-テキストハイブリッドRAGを実行し、推論のタイミングや情報取得を学習。二段階のトレーニングフレームワークにより、ハイブリッド証拠を活用しつつリトリーバルのオーバーヘッドを回避。実験結果は、\model{}が既存のRAGベースラインを大幅に上回ることを示し、複雑な推論における効率的なリトリーバルの利点を強調。 Comment

元ポスト:

Loading…

モデル自身が何を、いつ、どこからretrievalし、いつやめるかをするかを動的にreasoningできるようRLで学習することで、コストの高いretrievalを削減し、マルチターンRAGの性能を保ちつつ効率をあげる手法（最大で検索のターン数が20パーセント削減）とのこと。

学習は2ステージで、最初のステージでanswerに正しく辿り着けるよう学習することでreasoning能力を向上させ、次のステージで不要な検索が削減されるような効率に関するrewardを組み込み、accuracyとcostのバランスをとる。モデルはツールとして検索を利用できるが、ツールはpassage, graph, hybridの3つの検索方法を選択できる。

[Paper Note] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models, Boxin Wang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#General #Pocket #NLP #LanguageModel #Alignment #Reasoning #OpenWeight #OpenSource #read-later #RLVR #Selected Papers/Blogs #CrossDomain #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- 一般目的の推論モデルを強化学習（RL）で構築する際の課題に対処するため、カスケードドメイン別強化学習（Cascade RL）を提案。Nemotron-Cascadeは、指示モードと深い思考モードで動作し、異なるドメインのプロンプトを順次調整することで、エンジニアリングの複雑さを軽減し、最先端のパフォーマンスを実現。RLHFを前段階として使用することで推論能力が向上し、ドメイン別RL段階でもパフォーマンスが改善される。14Bモデルは、LiveCodeBenchで優れた結果を示し、2025年国際情報オリンピックで銀メダルを獲得。トレーニングとデータのレシピも共有。 Comment

元ポスト:

Loading…

従来のRLはすべてのドメインのデータをmixすることでおこなれてきたが、個々のドメインのデータを個別にRLし、cascading方式で適用 (Cascade RL) することを提案している（実際は著者らの先行研究でmath->codingのcascadingは実施されていたが、それをより広範なドメイン(RLHF -> instruction following -> math -> coding -> software engineering)に適用した、という研究）。
cascadingにはいくつかのメリットがありRLの学習速度を改善できる（あるいはRLのインフラの複雑性を緩和できる）
- ドメインごとのverificationの速度の違いによって学習速度を損なうことがない（e.g. 数学のrule-basedなverificationは早いがcodingは遅い）
- ドメインごとに出力長は異なるためオンポリシーRLを適用すると効率が落ちる（長いレスポンスの生成を待たなければらないため）

本研究で得られた利点としてはFigure 1を参考に言及されているが
- RLHF, instruction followingを事前に適用することによって、後段のreasoningの性能も向上する（reasoningのwarmupになる）
- 加えて応答の長さの削減につながる
- RLはcatastrophic forgettingに強く、前段で実施したドメインの性能が後段のドメインのRLによって性能が劣化しない
- といってもFigure 2を見ると、codingとsoftware engineeringは結構ドメイン近いのでは・・・？という気はするが・・・。
- RLにおけるカリキュラム学習やハイパーパラメータをドメインごとに最適なものを適用できる

他にもthinking/non-thinking に関することが言及されているが読めていない。

[Paper Note] Motif-2-12.7B-Reasoning: A Practitioner's Guide to RL Training Recipes, Junghwan Lim+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #read-later Issue Date: 2025-12-15 GPT Summary- Motif-2-12.7B-Reasoningは、複雑な推論と長文コンテキスト理解のために設計された12.7Bパラメータの言語モデルです。モデル崩壊やトレーニングの不安定性に対処するため、再現可能なトレーニングレシピを提案し、64Kトークンコンテキストに対応したメモリ効率の良いインフラと二段階の教師ありファインチューニングを組み合わせています。また、強化学習ファインチューニングを通じてトレーニングの安定性を向上させています。実証結果は、Motif-2-12.7B-Reasoningが大規模モデルと同等のパフォーマンスを示し、競争力のあるオープンモデルの設計図を提供することを示しています。 Comment

元ポスト:

Loading…

元ポストのLessons from failures...気になる👀

[Paper Note] Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners, Xin Xu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #PostTraining #RLVR Issue Date: 2025-12-13 GPT Summary- TFPI（Thinking-Free Policy Initialization）は、強化学習における長いコンテキスト長の問題を解決するための手法で、思考内容を破棄する*ThinkFree*操作を用いてトークン使用量を削減します。これにより、トレーニングの効率が向上し、RLの収束を加速し、より高い性能を達成します。TFPIを用いた4Bモデルは、AIME24で89.0%、LiveCodeBenchで65.5%の精度を記録しました。 Comment

openreview: https://openreview.net/forum?id=RKYO6R8Jgb

元ポスト:

Loading…

[Paper Note] Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models, Chen Yang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Reasoning #Distillation #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-12-13 GPT Summary- Nanbeige4-3Bは、23兆の高品質トークンで事前学習し、3000万以上の指示でファインチューニングされた高性能な小規模言語モデルです。FG-WSDトレーニングスケジューラを用いて段階的にデータを洗練し、SFTデータの質向上のために共同メカニズムを設計しました。さらに、DPDメソッドを通じてモデルを蒸留し、強化学習フェーズで推論能力を強化しました。評価結果は、同等のパラメータスケールのモデルを大幅に上回り、より大きなモデルにも匹敵することを示しています。モデルのチェックポイントは、https://huggingface.co/Nanbeige で入手可能です。 Comment

元ポスト:

Loading…

3Bモデルにも関わらず10倍以上大きいモデルと同等以上の性能を発揮し、trainingのstrategyが非常に重要ということが伺える。元ポストにも各学習方法の概要が記載されているが、読みたい。

[Paper Note] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models, Long Lian+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #LLMServing #Decoding #Parallel Issue Date: 2025-12-10 GPT Summary- ThreadWeaverは、適応型並列推論のフレームワークで、逐次推論モデルと同等の精度を保ちながら推論の遅延を大幅に削減します。主な革新は、二段階の並列軌道生成器、オフ・ザ・シェルフの自己回帰推論エンジンでの並列推論、並列化意識のある強化学習フレームワークです。これにより、数学的推論ベンチマークで高い精度を維持しつつ、最大1.53倍のスピードアップを達成しました。 Comment

元ポスト:

Loading…

[Paper Note] RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?, Yiyou Sun+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Grokking #PostTraining #RLVR Issue Date: 2025-12-09 GPT Summary- DELTA-Codeを導入し、LLMの学習可能性と移転可能性を評価する。合成コーディング問題を用いて、RL訓練されたモデルが新しい推論戦略を獲得できるかを探る。実験では、報酬がほぼゼロの後に急激な精度向上が見られ、段階的ウォームアップやカリキュラムトレーニングが重要であることが示された。移転可能性の評価では、ファミリー内での向上が見られる一方、変革的なケースでは弱点が残る。DELTAは新しいアルゴリズムスキルの獲得を理解するためのテストベッドを提供する。

[Paper Note] Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs, Xumeng Wen+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #PostTraining #RLVR Issue Date: 2025-12-09 GPT Summary- RLVRがLLMの推論能力に与える影響を体系的に調査し、数学的およびコーディングタスクでの推論の境界を拡張できることを示す。新しい評価指標CoT-Pass@Kを導入し、正しい推論を促進する理論的枠組みを提示。初期段階での正しい推論の奨励が推論の質を大幅に改善することを確認。RLVRの可能性に関する強力な証拠を提供。

[Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Analysis #Pretraining #Pocket #NLP #LanguageModel #mid-training #PostTraining #read-later #Selected Papers/Blogs #PRM #KeyPoint Notes #Reference Collection Issue Date: 2025-12-09 GPT Summary- 強化学習（RL）が言語モデルの推論能力を向上させるかどうかを検証するため、事前トレーニング、中間トレーニング、RLの因果的寄与を分離する実験フレームワークを開発。RLは事前トレーニングが十分な余地を残す場合にのみ真の能力向上をもたらし、文脈的一般化には適切な事前トレーニングが必要であることを示した。また、中間トレーニングがRLよりもパフォーマンスを向上させ、プロセスレベルの報酬が推論の忠実性を高めることを明らかにした。これにより、推論LMトレーニング戦略の理解と改善に寄与する。 Comment

元ポスト:

Loading…

RLはモデルの能力を精錬させる（＝事前学習時に既に身についているreasoningパターンを（探索空間を犠牲により少ない試行で良い応答に辿り着けるよう）増幅させる;サンプリング効率を向上させる）と主張する研究たちと
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
- [Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05
- [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25

RLは事前学習で身につけたreasoning能力を超えてさらなるgainを得ることができる
- [Paper Note] Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs, Xumeng Wen+, arXiv'25, 2025.06
- From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

という対立する主張がliteratureで主張されているが、これは学習環境が制御されたものでないことに起因しており（＝何が事前学習で既に獲得されていて、事後学習後に新規で獲得された能力なのか、既存の能力の精錬なのか弁別がつかない）、かつ最近のmid-trainingの隆盛([Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25 )を鑑みたときに、事前・中間・事後学習は互いにどのように作用しているのか？という疑問に応えることは重要であり、そのためのフレームワークを提案し分析した、という話な模様。非常に興味深い。takeawayはabstに書かれている通りなようだが、読みたい。

フレームワークは事前・中間・事後学習の個々の貢献を独立して測定できるフレームワークであり、
- 完全に制御された（明示的なアトミックなoperationに基づく）合成reasoningタスク

あとで書く

著者ポスト:

Loading…

takeaway1の話は、最近のRLにおける動的な難易度調整にも絡んでくる知見に見える。
takeaway2,3のRLはatomic skillを追加で学習することはできず、compositional skillを学習しcontextual generalizationを実現する、同等のbadgetの元でmid training+RLがpure RLよりも性能改善する、というのは特に興味深く、事後学習の効用を最大化するためにも事前・中間学習が（以前から言われていた通り）重要であることが示唆される。
takeaway4のPRMがreasoningのfidelityを高めるという話は、DeepSeek-V3.2でも観測されている話であり、本研究によってそれが完全に制御された実験の元示されたことになる。

RQ: 実データにおいて、事前学習時点だとPerplexityかdownstream taskの性能をwatchすると思うのだが、それらを通じてatomic skillをLLMがどれだけ身に付けられているか、というのはどれだけ測れているのだろうか、あるいはより良い方法はあるのだろうか

- [Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, arXiv'25

（＝RLの序盤は低レベルな手続的な実行（計算や公式）を習得し、その後高レベルな戦略的なplanningの学習が生じる）とはどのような関係があるだろうか。

解説:

Loading…

所見:

Loading…

解説:

Loading…

[Paper Note] OneThinker: All-in-one Reasoning Model for Image and Video, Kaituo Feng+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #MultiModal #Reasoning #OpenWeight #VisionLanguageModel #2D (Image) #UMM #4D (Video) #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment

pj page: https://github.com/tulerfeng/OneThinker
HF: https://huggingface.co/OneThink

元ポスト:

Loading…

image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM

Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。

[Paper Note] PretrainZero: Reinforcement Active Pretraining, Xingrun Xing+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel Issue Date: 2025-12-04 GPT Summary- プレトレインゼロという強化学習フレームワークを提案し、ドメイン特化型から一般的なプレトレーニングへと拡張。アクティブプレトレーニングで情報価値のある内容を特定し、自己教師あり学習で一般的なウィキペディアコーパスを用いてモデルをプレトレーニング。検証スケーリングにより推論能力を向上させ、MMLU-ProやSuperGPQAなどのベンチマークで性能を大幅に改善。プレトレーニングされたモデルは下流のタスクにも活用可能。 Comment

元ポスト:

Loading…

[Paper Note] What Makes a Reward Model a Good Teacher? An Optimization Perspective, Noam Razin+, NeurIPS'25 Spotlight, 2025.03

Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #NLP #LanguageModel #Alignment #NeurIPS #read-later #Selected Papers/Blogs #RewardModel #KeyPoint Notes Issue Date: 2025-12-03 GPT Summary- 報酬モデルの質はRLHFの成功に重要であり、精度だけでは不十分であることを示す。低い報酬の分散は平坦な最適化ランドスケープを引き起こし、完全に正確なモデルでも遅い最適化を招く可能性がある。異なる言語モデルに対する報酬モデルの効果も異なり、精度に基づく評価の限界を明らかにする。実験により、報酬の分散と精度の相互作用が確認され、効率的な最適化には十分な分散が必要であることが強調される。 Comment

元ポスト:

Loading…

RLHFにおいてReward Modelが良い教師となれるかどうかは、Accuracy[^1]という単一次元で決まるのではなく、報酬の分散の大きさ[^2]も重要だよという話らしく、分散がほとんどない完璧なRMで学習すると学習が進まず、より不正確で報酬の分散が大きいRMの方が性能が良い。報酬の分散の大きさはベースモデルによるのでRM単体で良さを測ることにはげんかいがあるよ、といあ話らしい。

理想的な報酬の形状は山の頂上がなるべくズレておらず（＝Accuracyが高い）かつ、山が平坦すぎない（＝報酬の分散が高い）ようなものであり、
Accuracyが低いとReward Hackingが起きやすくなり、報酬の分散が低いと平坦になり学習効率が悪くなる（Figure1)。

[^1]: 応答Aが応答Bよりも優れているかという観点
[^2]: 学習対象のLLMがとりそうな出力に対して、RMがどれだけ明確に差をつけて報酬を与えられるかという観点（良い応答と悪い応答の弁別）

[Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #SyntheticData #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Reference Collection #SparseAttention Issue Date: 2025-12-01 GPT Summary- DeepSeek-V3.2は、計算効率と推論性能を両立させたモデルで、主な技術革新として(1) DSAによる効率的な注意メカニズム、(2) スケーラブルな強化学習フレームワークによりGPT-5と同等の性能を実現、(3) 大規模エージェントタスク合成パイプラインを用いてトレーニングデータを生成し、一般化能力と指示遵守を向上させた。特に、DeepSeek-V3.2-SpecialeはGPT-5を超える性能を示し、国際数学オリンピックで金メダルを獲得した。 Comment

HF: https://huggingface.co/deepseek-ai/DeepSeek-V3.2

GPT-5級のスコアを獲得している。なんということだ。

公式ポスト:

Loading…

vLLM recipe:
https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html

元ポスト:

Loading…

所見:

Loading…

事前学習にさらに計算機リソースを投下する見込みとのこと:

Loading…

解説:

Loading…

解説:

Loading…

所見:

Loading…

解説:
https://www.linkedin.com/posts/vinija_deepseek-v32-a-major-leap-for-open-reasoning-activity-7401524268850970624-eAvV?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

artificial analysisによる評価ではOpen Weightモデルの中ではKimi K2 Thinkingに次いで2番目の性能:

Loading…

- Introducing Kimi K2 Thinking, MoonshotAI, 2025.11

所見:

Loading…

[Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #Self-SupervisedLearning #NeurIPS #read-later #Selected Papers/Blogs #Robotics #Locomotion #ContrastiveReinforcementLearning #Manipulation #EmergentAbilities #Depth Issue Date: 2025-12-01 GPT Summary- 自己教師ありRLのスケーラビリティを改善するため、ネットワークの深さを1024層に増加させることで性能向上を実証。無監督の目標条件設定でエージェントが探索し、目標達成を学ぶ実験を行い、自己教師ありコントラストRLアルゴリズムの性能を向上させた。深さの増加は成功率を高め、行動の質的変化ももたらす。 Comment

元ポスト:

Loading…

[Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #OpenWeight #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-11-27 GPT Summary- 106BパラメータのMixture-of-ExpertsモデルINTELLECT-3を発表。強化学習インフラを用いて訓練され、数学や科学のベンチマークで最先端の性能を達成。オープンソースとして公開し、強化学習フレームワークや検証ライブラリを提供。prime-rlを導入し、大規模な非同期強化学習をサポート。GLM-4.5-Air-Baseモデル上での訓練により、高い効率を実現。 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…

完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

in-flight weight updates が利用されている
- PipelineRL, Piche+, ServiceNow, 2025.04

[Paper Note] MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation, Xiaoyu Kong+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#RecommenderSystems #Pocket #LanguageModel #VariationalAutoEncoder #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #Scalability Issue Date: 2025-11-26 GPT Summary- MiniOneRecを提案し、SID構築から強化学習までのエンドツーエンドの生成レコメンデーションフレームワークを提供。実験により、モデルサイズの増加に伴いトレーニング損失と評価損失が減少し、生成アプローチのパラメータ効率が確認された。さらに、SID整合性の強制と強化学習を用いたポストトレーニングパイプラインにより、ランキング精度と候補の多様性が大幅に向上。 Comment

github: https://github.com/AkaliKong/MiniOneRec

元ポスト:

Loading…

興味深い話ではあるが、generativeなRecSysはlatencyの面で厳しいものがあるという認識ではある。読みたい。

[Paper Note] Soft Adaptive Policy Optimization, Chang Gao+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #PostTraining Issue Date: 2025-11-26 GPT Summary- 強化学習（RL）におけるポリシー最適化の課題を解決するために、Soft Adaptive Policy Optimization（SAPO）を提案。SAPOは、ハードクリッピングを温度制御されたゲートに置き換え、オフポリシー更新を適応的に減衰させつつ有用な学習信号を保持。これにより、シーケンス整合性とトークン適応性を向上させ、サンプル効率を改善。実証結果は、SAPOがトレーニングの安定性を向上させ、Qwen3-VLモデルシリーズで一貫したパフォーマンス向上を示すことを確認。SAPOはLLMsのRLトレーニングにおける信頼性の高い最適化戦略を提供。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

[Paper Note] xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning, Cheng Qian+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Reasoning #Routing Issue Date: 2025-11-25 GPT Summary- xRouterは、コストとパフォーマンスのトレードオフを考慮したルーティングシステムで、学習されたルーターが直接回答するか外部モデルを呼び出す。強化学習により訓練され、手動ルールの必要がない。多様なベンチマークでコスト削減とタスク完了率の向上を実現し、LLMオーケストレーションの進展に寄与することを目指す。 Comment

元ポスト:

Loading…

[Paper Note] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe, Kaichen Zhang+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #NLP #Supervised-FineTuning (SFT) #SmallModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング（SFT）で874Kサンプルのデータセットを構築し、強化学習（RL）で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment

pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/

SoTAなVLMを構築するためのオープンなデータとレシピらしい

[Paper Note] Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models, Jiaqi Wang+, NeurIPS'25, 2025.05

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #Reasoning #NeurIPS #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- 強化学習を用いて視覚と言語モデルの推論を強化するために、TONという二段階のトレーニング戦略を提案。簡単な質問には推論をスキップし、必要な時に考える人間の思考プロセスを模倣。実験により、TONは従来の手法に比べて推論ステップを最大90％削減し、性能を向上させることが示された。モデルはトレーニングを通じて不要な推論を回避することを学習。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

いつ思考をするか/しないかを学習することでCoTのtrajectoryを節約する。選択的に思考しないということをモデルは基本的に学習していないのでSFTで模倣学習することでコールドスタートを脱っし、その後RLによって選択的に思考しないことも含めて思考を最適化する、といった話に見える。

[Paper Note] Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter, Qinghao Hu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Reasoning #PostTraining #One-Line Notes Issue Date: 2025-11-21 GPT Summary- 大規模言語モデル（LLMs）の推論能力を向上させるため、TLTを提案。TLTは適応的な推測デコーディングを用いて、強化学習（RL）トレーニングの効率を向上させる。主なコンポーネントは、アイドルGPUでトレーニングされるアダプティブドラフターと、メモリ効率の良いプールを維持するアダプティブロールアウトエンジン。TLTは、最先端システムに対して1.7倍のトレーニング速度向上を実現し、モデルの精度を保持しつつ高品質なドラフトモデルを生成。 Comment

元ポスト:

Loading…

ロングテールのrolloutをする際にspeculative decodingをすることでボトルネックを改善しon-policy RLの速度を改善する話らしいが、Inflight Weight Updatesがもしうまく機能するならこちらの方が簡単な気がするが、果たしてどうなのだろうか。
関連:
- PipelineRL, Piche+, ServiceNow, 2025.04

[Paper Note] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning, Mingyue Cheng+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #read-later Issue Date: 2025-11-20 GPT Summary- 大規模言語モデル（LLMs）を用いたエージェントの構築において、強化学習（RL）の適用は初期段階であり、課題が多い。本論文では、LLMエージェントのためのRL手法を再検討し、マルコフ決定過程（MDP）フレームワークを拡張。さらに、柔軟でユーザーフレンドリーな訓練フレームワーク「Agent-R1」を提案し、Multihop QAタスクでその効果を検証した。 Comment

元ポスト:

Loading…

同じ論文のポストを二回している:

Loading…

[Paper Note] Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning, Ruoyu Qin+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #SoftwareEngineering #read-later #Selected Papers/Blogs #Off-Policy #On-Policy Issue Date: 2025-11-20 GPT Summary- 強化学習における性能ボトルネックを解消するために、新しいオンラインコンテキスト学習システム「Seer」を提案。Seerは、出力の類似性を活用し、分割ロールアウト、コンテキストに基づくスケジューリング、適応的グループ化推測デコーディングを導入。これにより、ロールアウトの待機時間を大幅に短縮し、リソース効率を向上。評価結果では、エンドツーエンドのロールアウトスループットを74%から97%向上させ、待機時間を75%から93%削減した。 Comment

元ポスト:

Loading…

[Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #FoundationModel #DiffusionModel #TextToImageGeneration #SmallModel #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-11-20 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル（Image Lite、Video Lite、Video Pro）から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…

[Paper Note] Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations, Tong Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Hallucination #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-15 GPT Summary- 本研究では、外的幻覚を軽減するために新しいバイナリ検索強化報酬（RAR）を用いたオンライン強化学習手法を提案。モデルの出力が事実に基づいている場合のみ報酬を与えることで、オープンエンド生成において幻覚率を39.3%削減し、短文質問応答では不正解を44.4%減少させた。重要な点は、事実性の向上が他のパフォーマンスに悪影響を及ぼさないことを示した。 Comment

Utilityを維持しつつ、Hallucinationを減らせるかという話で、Binary Retrieval Augmented Reward (Binary RAR)と呼ばれるRewardを提案している。このRewardはverifierがtrajectoryとanswerを判断した時に矛盾がない場合にのみ1, それ以外は0となるbinary rewardである。これにより、元のモデルの正解率・有用性（極論全てをわかりません（棄権）と言えば安全）の両方を損なわずにHallucinationを提言できる。

また、通常のVerifiable Rewardでは、正解に1, 棄権・不正解に0を与えるRewardとみなせるため、モデルがguessingによってRewardを得ようとする（guessingすることを助長してしまう）。一方で、Binary RARは、正解・棄権に1, 不正解に0を与えるため、guessingではなく不確実性を表現することを学習できる（おそらく、棄権する場合はどのように不確実かを矛盾なく説明した上で棄権しないとRewardを得られないため）。

といった話が元ポストに書かれているように見える。

元ポスト:

Loading…

[Paper Note] Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning, Jiayu Wang+, NeurIPS'25, 2025.06

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #NeurIPS #One-Line Notes Issue Date: 2025-11-13 GPT Summary- 強化学習（RL）は言語モデルの推論性能を向上させるが、そのメカニズムは未解明。SPARKLEフレームワークを用いて、RLの効果を計画遵守、知識統合、サブ問題連鎖の3次元で分析。RL調整モデルは外部計画に依存せず、内部戦略の形成を促進し、知識統合能力を向上させることが示された。難しい問題に対しては、SparkleRL-PSSというマルチステージRLパイプラインを提案し、データ生成なしで効果的な探索を実現。これにより、推論タスクのための適応的で効率的なRLパイプライン構築のための洞察が得られる。 Comment

元ポスト:

Loading…

RLを実施したモデルは与えられた計画を実施することに関してよりロバストで、自分でプランニングさせて解かせることもでき、かつ外部・モデル内部のパラメータに内在する知識を統合して応答する能力も向上する。しかし、大きな問題を部分問題に分割して解く能力には課題が残る、みたいな話らしい。

[Paper Note] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs, Renfei Zhang+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Memorization #One-Line Notes Issue Date: 2025-11-13 GPT Summary- 強化学習（RL）は、階層的な知識を必要とするタスクにおいて、基盤モデルや教師あり微調整（SFT）モデルを上回る性能を示す。これは新たなデータからではなく、既存の知識をナビゲートするスキルの向上によるものである。構造化プロンプティングを用いることで、SFTモデルのパフォーマンスギャップを縮小できることが示された。RLモデルは深い検索タスクでの手続き的経路の呼び出しに優れ、知識の表現は変わらないが、知識の遍歴方法が変化することが明らかになった。 Comment

元ポスト:

Loading…

RLはしばしば知識のmemorizationを劣化させると言われているが、むしろ学習データから記憶された知識を階層的に辿るようなタスクに適用した結果RL（が実施されたモデル）の方がSFT（が実施されたモデル）よりも高い性能を達成した。同タスクの階層構造をpromptingで与えることで性能SFT/RLのgapが小さくなることから、知識のナビゲーションが性能に関連していることを示唆している。また、事実表現とクエリの表現においてSFTとRLでは前者に大きな違いはないが、後者は大きな違いを見せており、知識の表現そのものを変えるのではなく、モデル内部の知識を辿る方法が変化していることが示唆される。

といった内容らしいのだが、論文を斜め読みした結果、自分たちでモデルをRL/SFTしたわけではなく既存のオープンなモデルreasoningモデル、instructモデル、distilledモデルで性能を比較する、みたいなことをしているようであり、apple-to-appleの比較になっていないのでは？という感想を抱いたがどうなのだろうか。

[Paper Note] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction, Guoxin Chen+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #ScientificDiscovery #LongHorizon Issue Date: 2025-11-12 GPT Summary- IterResearchという新しい反復的深層研究パラダイムを提案し、長期的な研究をマルコフ決定過程として再定義。進化するレポートをメモリとして維持し、洞察を統合することで一貫した推論能力を保持。効率意識型ポリシー最適化（EAPO）を開発し、探索を促進。実験により、既存のエージェントに対して平均+14.5ポイントの改善を達成し、2048回のインタラクションでパフォーマンスが劇的に向上。IterResearchは長期的な推論のための効果的な解決策として位置づけられる。 Comment

HF: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

元ポスト:

Loading…

[Paper Note] On a few pitfalls in KL divergence gradient estimation for RL, Yunhao Tang+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-11-12 GPT Summary- LLMのRLトレーニングにおけるKLダイバージェンスの勾配推定に関する落とし穴を指摘。特に、KL推定を通じて微分する実装が不正確であることや、逐次的な性質を無視した実装が部分的な勾配しか生成しないことを示す。表形式の実験とLLM実験を通じて、正しいKL勾配の実装方法を提案。 Comment

元ポスト:

Loading…

RLにおけるKL Divergenceによるポリシー正則化の正しい実装方法

[Paper Note] On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning, Yifan Zhang+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs #On-Policy Issue Date: 2025-11-12 GPT Summary- ポリシー勾配アルゴリズムを用いてLLMの推論能力を向上させるため、正則化ポリシー勾配（RPG）を提案。RPGは、正規化されたKLと非正規化されたKLを統一し、REINFORCEスタイルの損失の微分可能性を特定。オフポリシー設定での重要度重み付けの不一致を修正し、RPGスタイルクリップを導入することで安定したトレーニングを実現。数学的推論ベンチマークで最大6%の精度向上を達成。 Comment

元ポスト:

Loading…

pj page: https://complex-reasoning.github.io/RPG/

続報:

Loading…

[Paper Note] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments, Zhiyuan Zeng+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #CurriculumLearning #RLVR #Verification Issue Date: 2025-11-12 GPT Summary- 適応可能な検証可能な環境を用いた強化学習（RLVE）を提案し、動的に問題の難易度を調整することで、言語モデルの強化学習をスケールアップする。RLVE-Gymという400の検証可能な環境からなるスイートを作成し、環境の拡大が推論能力を向上させることを示した。RLVEは、共同トレーニングにより、強力な推論LMで3.37%の性能向上を達成し、従来のRLトレーニングよりも効率的であることを示した。コードは公開されている。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization, Zeng Zhiyuan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SelfImprovement #Catastrophic Forgetting #RLVR #Diversity #Generalization #KeyPoint Notes Issue Date: 2025-11-07 GPT Summary- RLoopは、強化学習における過剰適合の問題を解決するための自己改善フレームワークであり、ポリシーの多様性を保ちながら一般化能力を向上させる。RLを用いて解空間を探索し、成功した軌跡から専門家データセットを作成し、拒否サンプリング微調整を行うことで、次の反復の出発点を洗練する。実験により、RLoopは忘却を軽減し、平均精度を9%、pass@32を15%以上向上させることが示された。 Comment

元ポスト:

Loading…

ポリシーを初期化し、RLを実行しtrajeatory tを取得。tをrejection samplingし成功したtrajectoryでエキスパートデータセットを作成。作成したエキスパートデータセットでポリシーをSFT(=Rejection SamplingしたデータでSFTすることをRFTと呼ぶ）する（これが次iterationの初期化となる）といったことを繰り返す。

RLはAdvantageによって学習されるため、trajectoryの相対的な品質に基づいて学習をする。このため、バッチ内のすべてのtrajectoryが正解した場合などはadvantageが限りなくゼロに近づき学習のシグナルを得られない。

一方RFTは絶対的なRewardを用いており（RLVRの場合は成功したら1,そうでなければ0）、これがバッチ全体のパフォーマンスに依存しない安定した分散の小さい学習のシグナルを与える。

このように両者は補完的な関係にある。ただしRFTは成功したtrajectory全てに均等な重みを与えるため、既にポリシーが解くことができる問題にフォーカスしすぎることによって効率性が悪化する問題があるため、提案手法では成功率が低いhardなサンプルのみにエキスパートデータをフィルタリングする（＝active learning）ことで、モデルが自身に不足した能力を獲得することに効率的に注力することになる。

また、RFTを使うことは単なるヒューリスティックではなく、理論的なgroundingが存在する。すなわち、我々はまだ未知の"expert"な分布 p^*にポリシーが従うように学習をしたいがこれはMLEの観点で言うと式3に示されているような形式になる。p^*から直接データをサンプリングをすることができないが、RLのポリシーから近似的にサンプリングをすることができる。そこでMLEの式をimportance samplingの観点から再度定式化をすると式4のようになり、後はimportance weight wを求められれば良いことになる。これはp^*に近いtrajectoryはRewardが高く、そうでない場合は低い、つまりw \propto Reward な関係であるため近似的に求めることができ、これらを式4のMLEの式に代入するとRFTと同じ式が導出される。

みたいな話のようである。

[Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-11-07 GPT Summary- 強化学習（RL）を用いて大規模言語モデル（LLMs）の推論能力を向上させるための新しいアプローチ、PipelineRLを提案。PipelineRLは非同期データ生成とモデル更新を同時に行い、トレーニングデータの新鮮さを保ちながら、GPUの利用率を最大化。実験では、従来のRL手法に比べて約2倍の学習速度を達成。PipelineRLのオープンソース実装も公開。 Comment

元ポスト:

Loading…

[Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #Metrics #Pocket #NLP #LanguageModel #Evaluation #Conversation #NeurIPS #Personality Issue Date: 2025-11-06 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…

[Paper Note] Beyond the 80_20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning, Shenzhi Wang+, NeurIPS'25, 2025.06

Paper/Blog Link My Issue
#Pocket #LanguageModel #NeurIPS #PostTraining #One-Line Notes #Entropy Issue Date: 2025-11-05 GPT Summary- 強化学習における検証可能な報酬（RLVR）のメカニズムをトークンエントロピーの視点から探求。高エントロピーのトークンが推論の重要な分岐点であることを発見し、RLVRトレーニング中にこれらのトークンのエントロピーが調整されることを示す。トークンの20%を利用することで、フル勾配更新と同等の性能を維持し、他のモデルでの性能向上を実現。低エントロピーのトークンのみでのトレーニングは性能を低下させることが明らかに。高エントロピートークンの最適化がRLVRの効果を生むことを示唆。 Comment

元ポスト:

Loading…

pj page: https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

openreview: https://openreview.net/forum?id=yfcpdY4gMP&referrer=%5Bthe%20profile%20of%20Junyang%20Lin%5D(%2Fprofile%3Fid%3D~Junyang_Lin1)

解説:

Loading…

エントロピーが高いトークンのみから学習シグナルを受け取ることで性能改善する、という話な模様。

[Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Reasoning #Distillation #NeurIPS Issue Date: 2025-11-05 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）は、LLMsの推論性能を向上させるが、現在の設定では新しい推論パターンを引き出せていない。小さなkではベースモデルを上回るが、大きなkではベースモデルが優位。RLVRアルゴリズムは類似の性能を示し、ベースモデルの潜在能力を活用できていない。蒸留は新しい推論パターンを導入し、モデルの能力を拡張できる。これにより、RLの改善が必要であることが示唆される。 Comment

pj page: https://limit-of-rlvr.github.io/

元ポスト:

Loading…

所見:

Loading…

[Paper Note] MMaDA: Multimodal Large Diffusion Language Models, Ling Yang+, NeurIPS'25, 2025.05

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #DiffusionModel #TextToImageGeneration #NeurIPS #2D (Image) #text Issue Date: 2025-11-05 GPT Summary- MMaDAは、テキスト推論やマルチモーダル理解、テキストから画像生成に優れた性能を発揮する新しいマルチモーダル拡散基盤モデルです。主な革新点は、モダリティに依存しない統一された拡散アーキテクチャ、混合長チェーン・オブ・ソートによるファインチューニング戦略、そしてUniGRPOという統一ポリシー勾配ベースのRLアルゴリズムです。実験により、MMaDA-8Bは他のモデルを上回る性能を示し、事前トレーニングと事後トレーニングのギャップを埋める効果が確認されました。コードとトレーニング済みモデルはオープンソースで提供されています。 Comment

ポイント解説:

Loading…

元ポスト:

Loading…

[Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02

Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #Coding #NeurIPS #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-11-05 GPT Summary- SWE-RLは、強化学習を用いて大規模言語モデル（LLMs）の推論能力を向上させる新しいアプローチで、実世界のソフトウェア工学に焦点を当てています。軽量なルールベースの報酬を活用し、LLMがオープンソースソフトウェアの進化データから学習することで、開発者の推論プロセスを自律的に回復します。Llama3-SWE-RL-70Bは、実世界のGitHub問題において41.0%の解決率を達成し、中規模LLMとしては最高のパフォーマンスを示しました。また、一般化された推論スキルを持ち、複数のドメイン外タスクで改善された結果を示しています。SWE-RLは、ソフトウェア工学データに基づく強化学習の新たな可能性を開きます。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning, Fangxun Shu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #NLP #MultiModal #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-05 GPT Summary- SAIL-RLは、マルチモーダル大規模言語モデルの推論能力を向上させる強化学習フレームワークで、二重報酬システムを用いて推論の質を評価します。これにより、過剰思考や不足思考の問題を解決し、推論とマルチモーダル理解のベンチマークを改善。商業モデルに対して競争力のあるパフォーマンスを示し、幻覚を減少させることに成功しました。 Comment

元ポスト:

Loading…

個々のrewardを応答が持つ性質に応じて切り替える（直接回答するか、思考するかのjudgeの正しさなど）JudgeRewardと思考の品質を3つの次元（logical coherence, factual grounding, answer consistency)から（LLMをベースに）評価するThinkingRewardの二つを用いてRLする（=dual reward mechanism)ことで、推論の質を担保しながらoverthinkingを防ぐ。通常のRLVRによるRewardとフォーマットによる報酬も組み合わせ、複数の個別のRewardを乗算して最終的なRewardを決定することで、reward hackingに対して頑健にする（式1）。

[Paper Note] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning, Yuhong Liu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #Self-SupervisedLearning #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #SpatialUnderstanding #One-Line Notes #Pixel-based Issue Date: 2025-11-03 GPT Summary- 空間理解におけるLVLMの弱点を克服するため、自己教師あり強化学習パラダイムSpatial-SSRLを提案。5つの前提タスクを自動定式化し、検証が容易な信号を導出。これにより、空間推論が大幅に改善され、7つのベンチマークでQwen2.5-VLベースラインに対して平均精度が4.63%（3B）および3.89%（7B）向上。シンプルな監視がRLVRを可能にし、LVLMの空間知能向上に寄与することを示した。 Comment

元ポスト:

Loading…

RGB/RGB-D imageがgivenなときに、
- cropped patch inpainting
- flipped patch recognition
- shuffled patch reordering
- regional depth ordering
- relative 3D position prediction

の5つのverifiableなタスクを定義しself supervisedなmannerでRLすることでSpatial Understanding能力を向上させる話らしい

[Paper Note] DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization, Gang Li+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#Pocket #NLP #PostTraining #On-Policy #Stability Issue Date: 2025-11-01 GPT Summary- 本研究では、GRPOの二項報酬設定における制限を分析し、識別的制約最適化（DisCO）フレームワークを提案。DisCOは、識別的目的を採用し、非クリッピングRL代理目的を使用することで、難易度バイアスを排除し、トレーニングの安定性を向上させる。実験結果では、DisCOがGRPOおよびそのバリエーションを大幅に上回り、数学的推論能力を向上させることが示された。 Comment

元ポスト:

Loading…

[Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #PostTraining #Selected Papers/Blogs #Stability #Reference Collection #train-inference-gap #LowPrecision Issue Date: 2025-11-01 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment

元ポスト:

Loading…

RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

解説:

Loading…

verlはFP16での学習をサポートしていないので著者がパッチを出した模様:

Loading…

[Paper Note] Multi-Agent Evolve: LLM Self-Improve through Co-evolution, Yixing Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #SelfImprovement Issue Date: 2025-10-31 GPT Summary- 強化学習（RL）を用いたMulti-Agent Evolve（MAE）フレームワークを提案し、LLMの推論能力を向上させる。MAEは提案者、解決者、審査者の相互作用を通じて自己進化を促進し、数学や一般知識のQ&Aタスクを解決。実験により、MAEは複数のベンチマークで平均4.54%の性能向上を示し、人間のキュレーションに依存せずにLLMの一般的な推論能力を向上させるスケーラブルな手法であることが確認された。 Comment

元ポスト:

Loading…

concurrent work:
- [Paper Note] SPICE: Self-Play In Corpus Environments Improves Reasoning, Bo Liu+, arXiv'25, 2025.10

続報:コードとモデルがオープンに

Loading…

ポイント解説:

Loading…

[Paper Note] SPICE: Self-Play In Corpus Environments Improves Reasoning, Bo Liu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #Hallucination #SelfImprovement #CurriculumLearning #Diversity Issue Date: 2025-10-29 GPT Summary- SPICE（Self-Play In Corpus Environments）は、自己改善システムのための強化学習フレームワークで、単一モデルが「挑戦者」と「推論者」の2役を担う。挑戦者は文書を抽出して多様な推論タスクを生成し、推論者はそれを解決する。これにより、自動カリキュラムが形成され、持続的な改善が促進される。SPICEは、既存の手法に比べて数学的および一般的な推論のベンチマークで一貫した向上を示し、挑戦的な目標の生成が自己改善に重要であることを明らかにした。 Comment

元ポスト:

Loading…

[Paper Note] Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts, Di Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #Stability Issue Date: 2025-10-28 GPT Summary- MoEアーキテクチャにおけるRLトレーニングの不安定性に対処するため、重要度サンプリング重みを最適化する新しいルーター認識アプローチを提案。ルーターのロジットに基づく再スケーリング戦略により、勾配の分散を減少させ、トレーニングの安定性を向上。実験結果は、提案手法がMoEモデルの収束と性能を大幅に改善することを示し、効率的な大規模専門モデルのトレーニングに向けた新たな可能性を示唆。 Comment

元ポスト:

Loading…

[Paper Note] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning, Shih-Yang Liu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-10-27 GPT Summary- 推論言語モデルは長い出力を生成することが多く、応答の長さに対する精度向上が課題である。本研究では、切り捨てを用いた強化学習（RL）の再考を行い、精度低下の原因は不十分なRL最適化にあることを示す。3つの課題（バイアス、エントロピーの崩壊、スパースな報酬信号）に対処するため、DLERというトレーニング手法を提案し、出力の長さを70％以上削減しつつ精度を向上させた。さらに、Difficulty-Aware DLERを導入し、簡単な質問に対して適応的に切り捨てを厳しくすることで効率を向上させる手法も提案した。 Comment

pj page: https://nvlabs.github.io/DLER/

元ポスト:

Loading…

reasoningをトークン数の観点で効率化する話

[Paper Note] RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning, Kun Lei+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #Robotics Issue Date: 2025-10-26 GPT Summary- RL-100は、実世界のロボット操作のための強化学習トレーニングフレームワークで、模倣学習、オフライン強化学習、オンライン強化学習の三段階のパイプラインを採用。多段階サンプリングを単一段階ポリシーに圧縮し、高頻度制御を実現。7つの実ロボットタスクで100%の成功率を達成し、人間の操作に匹敵する効率と堅牢性を示した。 Comment

pj page: https://lei-kun.github.io/RL-100/
blog: https://lei-kun.github.io/blogs/RL100.html

元ポスト:

Loading…

[Paper Note] Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning, Jiashun Liu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #Diversity #Entropy Issue Date: 2025-10-24 GPT Summary- 非対称近似ポリシー最適化（AsyPPO）を提案し、批評者の役割を復元しつつ大規模言語モデルの強化学習を効率化。軽量なミニ批評者を用いて多様性を促進し、価値推定のバイアスを減少。5,000サンプルでトレーニング後、従来のPPOに対してパフォーマンスを向上させ、学習の安定性を一貫して改善。 Comment

元ポスト:

Loading…

[Paper Note] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping, Zhiheng Xi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #PostTraining #Off-Policy #On-Policy #Stability #One-Line Notes #Entropy #PartialRollout Issue Date: 2025-10-24 GPT Summary- 強化学習におけるオフポリシー設定の課題を解決するため、BAPO（Balanced Policy Optimization with Adaptive Clipping）を提案。ポジティブとネガティブな寄与を再バランスし、エントロピーを保持することで最適化を安定化。多様なシナリオでデータ効率の高いトレーニングを実現し、AIME 2024およびAIME 2025のベンチマークで最先端の結果を達成。 Comment

pj page: https://github.com/WooooDyy/BAPO

Partial Rollout（＝長いtrajectoryを一回のロールアウトで生成仕切らずに、途中で生成を打ち切りreplay bufferに保存。次のロールアウト時に続きを生成する。しかし更新されたポリシーによって続きをロールアウトするためオフポリシーデータとなる）の設定で、GRPOよりも学習効率が良いことが示されているように見える。

[Paper Note] Prompt-MII: Meta-Learning Instruction Induction for LLMs, Emily Xiao+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #In-ContextLearning #read-later #One-Line Notes #AutomaticPromptOptimization Issue Date: 2025-10-21 GPT Summary- PROMPT-MIIという新しい指示誘導モデルを提案し、トレーニング例をコンパクトなプロンプトに縮小することで、インコンテキスト学習（ICL）と同等のパフォーマンスを実現。3,000以上の分類データセットでトレーニングし、90の未見タスクで評価した結果、下流モデルの品質を4-9 F1ポイント向上させ、必要なトークン数を3-13倍削減。 Comment

元ポスト:

Loading…

タスクのexamplar/demonstrationからタスクに関するdescription）＝instruction)を生成するモデルを学習し、生成されたinstructionを用いることで、manyshotでICLするよりも、少ないトークン数で同等以上の性能を達成するといった話に見える。どういうinstructionになるのかが非常に興味がある。A.6参照のこと。細かく具体的だがコンパクトな指示が記述されているようなinstructionとなっている。

[Paper Note] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action, Yuhao Yang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #ComputerUse #One-Line Notes Issue Date: 2025-10-21 GPT Summary- ハイブリッドアクションを用いた基盤モデル「UltraCUA」を提案し、GUIの原始的なアクションと高レベルのプログラムツール呼び出しを統合。自動化パイプライン、合成データエンジン、ハイブリッドアクション軌跡コレクション、二段階のトレーニングパイプラインを構成要素とし、実験により最先端エージェントに対して22%の改善と11%の速度向上を達成。エラー伝播を減少させつつ実行効率を維持することが確認された。 Comment

元ポスト:

Loading…

従来のCUAはGUIに対する低レベルの操作（クリック、タイプ、スクロール）を利用する前提に立つが、本研究ではそれらだけではなくより高レベルのprogramatic tool calls(e.g., python関数呼び出し、キーボードショートカット、スクリプト実行、API呼び出し等)をシームレスに統合できるように合成データを作成しAgentをらSFTとRLしましたらよりベンチマークスコア向上した、というような話に見える。

[Paper Note] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning, Wujiang Xu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #AIAgents #Stability #Entropy Issue Date: 2025-10-21 GPT Summary- マルチターン環境でのLLMエージェント訓練における探索-活用カスケード失敗を特定し、エントロピー正則化ポリシー最適化（EPO）を提案。EPOは、探索を強化し、ポリシーエントロピーを制限することで、訓練の安定性を向上させる。実験により、ScienceWorldで152%、ALFWorldで19.8%の性能向上を達成。マルチターンスパース報酬設定には新たなエントロピー制御が必要であることを示す。 Comment

元ポスト:

Loading…

[Paper Note] Agentic Design of Compositional Machines, Wenqian Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #Reasoning #read-later Issue Date: 2025-10-19 GPT Summary- 複雑な機械設計におけるLLMの創造能力を探求し、「構成的機械設計」の視点からアプローチ。テストベッド「BesiegeField」を用いて、LLMの能力をベンチマークし、空間的推論や戦略的組み立ての重要性を特定。オープンソースモデルの限界を受け、強化学習を通じた改善を模索し、関連する課題を明らかにする。 Comment

元ポスト:

Loading…

pj page: https://besiegefield.github.io/

VAGEN Reinforcing World Model Reasoning for Multi-Turn VLM Agents, Wang+, NeurIPS'25

Paper/Blog Link My Issue
#ComputerVision #Reasoning #NeurIPS #VisionLanguageModel #WorldModels Issue Date: 2025-10-19 Comment

元ポスト:

Loading…

[Paper Note] SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models, Chenyu Wang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #DiffusionModel #PostTraining Issue Date: 2025-10-19 GPT Summary- 拡散型大規模言語モデル（dLLMs）は、効率的なデコード能力を持つが、強化学習（RL）による調整が難しい。従来の代理手法はバイアスを引き起こす可能性がある。そこで、真の対数尤度の上限と下限を利用した「サンドイッチポリシー勾配（SPG）」を提案。実験により、SPGはELBOや他のベースラインを大幅に上回り、GSM8Kで3.6%、MATH500で2.6%、Countdownで18.4%、Sudokuで27.0%の精度向上を達成した。 Comment

pj page: https://chenyuwang-monica.github.io/spg/

元ポスト:

Loading…

[Paper Note] Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization, Wengao Ye+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Online/Interactive #Pocket #NLP #LanguageModel #OOD #LatentReasoning #One-Line Notes #Test-time Learning Issue Date: 2025-10-18 GPT Summary- Latent Thought Policy Optimization（LTPO）を提案し、LLMの推論を強化するパラメータフリーのフレームワークを導入。中間的な潜在「思考」ベクトルを動的に最適化し、外部監視なしで報酬信号に基づくオンラインポリシー勾配法を使用。5つの推論ベンチマークで強力な性能を示し、特にAIMEベンチマークで顕著な改善を達成。 Comment

元ポスト:

Loading…

test-time に online-RLを適用することでモデルのパラメータを更新することなく、クエリに応じて動的にlatent reasoningを洗練し、推論能力をロバストにできる、という話な模様？

実験結果を見ると、モデルのパラメータ数が大きい場合にgainが小さくなっていっているように見え、かつ実験中のlargest modelのgainがサンプル数の少ないAIMEのスコアに依存しているように見える。

[Paper Note] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning, Hanyang Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #SmallModel #VisionLanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-18 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment

pj page: https://embodied-reasoning-agent.github.io

元ポスト:

Loading…

[Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #DeepResearch #KeyPoint Notes #LongHorizon #ContextRot #ContextFolding Issue Date: 2025-10-18 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment

pj page: https://context-folding.github.io

元ポスト:

Loading…

エージェントはロールアウト時にサブタスクを別ブランチで分岐させ、分岐させたブランチは独立したコンテキストを持ち、サブタスクを実行し結果を返す。メインブランチは受け取った結果に対してcontext managerを適用してfoldingしてメインブランチのcontextに加えて処理を続行することで、サブタスクを高い性能で実行しつつ、contextの肥大化を抑える。

これらfoldingを実施するはcontext manager（learnable）やポリシーはFoldGRPOと呼ばれるRLで学習され、
- メインブランチのcontextが肥大しない
- サブタスクがout of scopeとならない
- agenticタスクが失敗しない

となるように設計された報酬によって学習される。

所見:

Loading…

[Paper Note] SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization, Minghan Chen+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #PostTraining #Entropy Issue Date: 2025-10-17 GPT Summary- SEED-GRPOは、LLMの不確実性を考慮したポリシー更新手法であり、入力プロンプトの意味的エントロピーを測定してポリシー更新の大きさを調整する。これにより、高い不確実性の質問には慎重な更新を行い、自信のある質問には元の学習信号を維持する。実験結果は、5つの数学的推論ベンチマークで新たな最先端のパフォーマンスを達成したことを示している。 Comment

元ポスト:

Loading…

- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

との比較を見てみたいなあ

[Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-17 GPT Summary- MiniMax-M1は、4560億パラメータを持つ世界初のオープンウェイトのハイブリッドアテンション推論モデルで、Mixture-of-Expertsアーキテクチャとライトニングアテンションを組み合わせています。1百万トークンのコンテキスト長をサポートし、複雑なタスクに適しています。新しいRLアルゴリズムCISPOを提案し、効率的な訓練を実現。標準ベンチマークで強力なオープンウェイトモデルと同等以上の性能を示し、特にソフトウェアエンジニアリングや長いコンテキストタスクで優れた結果を出しています。モデルは公開されています。 Comment

- MiniMax-M1, MiniMax, 2025.06

のテクニカルレポート。

- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

でGSPO, DAPOよりも安定性と最終到達性能でより優れていることが示されたCISPOと呼ばれるRLアルゴリズムが提案されている。

[Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Scaling Laws #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-10-17 GPT Summary- 強化学習（RL）のスケーリングに関する原則的なフレームワークを定義し、40万時間以上のGPU時間を用いた大規模な研究を実施。シグモイド型計算-性能曲線をフィットさせ、設計選択肢の影響を分析。結果として、漸近的性能はレシピによって異なり、計算効率は詳細に依存することを発見。これを基に、ScaleRLというベストプラクティスのレシピを提案し、100,000 GPU時間での成功を示した。この研究は、RLトレーニングの予測可能性を向上させるための科学的フレームワークを提供する。 Comment

元ポスト:

Loading…

> 簡単になったプロンプト（プロンプトの通過率が0.9以上）は再サンプリングしたほうが最終性能が高い

最近はカリキュラムラーニングを導入して、簡単すぎず難しすぎない問題をサンプリングして効率上げる、といったような話があったが、簡単になった問題をリサンプリングしないと最終性能としては低くなる可能性があるのか…意外だった。

CISPO:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] GVPO: Group Variance Policy Optimization for Large Language Model Post-Training, Kaichen Zhang+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#Pocket #LanguageModel #NeurIPS #PostTraining #Stability Issue Date: 2025-10-16 GPT Summary- GVPO（グループ分散ポリシー最適化）は、ポストトレーニングにおける不安定性を解決する新手法で、KL制約付き報酬最大化の解析的解を勾配重みに組み込むことで最適ポリシーとの整合性を保つ。これにより、ユニークな最適解を保証し、柔軟なサンプリング分布をサポート。GVPOは信頼性の高いLLMポストトレーニングの新たなパラダイムを提供する。 Comment

元ポスト:

Loading…

ベースライン:
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03

[Paper Note] Representation-Based Exploration for Language Models: From Test-Time to Post-Training, Jens Tuyls+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #Pocket #NLP #LanguageModel #Test-Time Scaling #PostTraining #Diversity Issue Date: 2025-10-16 GPT Summary- 強化学習（RL）が言語モデルの行動発見に与える影響を調査。事前学習されたモデルの隠れ状態を基にした表現ベースのボーナスを用いることで、多様性とpass@k率が大幅に改善されることを発見。推論時における探索が効率を向上させ、ポストトレーニングにおいてもRLパイプラインとの統合により性能が向上。意図的な探索が新しい行動の発見に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

探索の多様性をあげてRLこ学習効率、test time scalingの効率を上げるという話

[Paper Note] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety, Jingyu Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #Alignment #AIAgents #Safety #One-Line Notes Issue Date: 2025-10-15 GPT Summary- WaltzRLという新しいマルチエージェント強化学習フレームワークを提案し、LLMの有用性と無害性のバランスを取る。会話エージェントとフィードバックエージェントを共同訓練し、応答の安全性と有用性を向上させる。実験により、安全でない応答と過剰な拒否を大幅に減少させることを示し、LLMの安全性を向上させる。 Comment

元ポスト:

Loading…

マルチエージェントを用いたLLMのalignment手法。ユーザからのpromptに応答する会話エージェントと、応答を批評するフィードバックエージェントの2種類を用意し、違いが交互作用しながら学習する。フィードバックエージェント会話エージェントが安全かつ過剰に応答を拒絶していない場合のみ報酬を与え、フィードバックエージェントのフィードバックが次のターンの会話エージェントの応答を改善したら、フィードバックエージェントに報酬が与えられる、みたいな枠組みな模様。

[Paper Note] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers, Wenhan Ma+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #PostTraining #Stability #One-Line Notes Issue Date: 2025-10-14 GPT Summary- 強化学習（RL）を用いたMixture-of-Experts（MoE）モデルのトレーニングと推論の不一致を分析し、Rollout Routing Replay（R3）を提案。R3は推論時のルーティング分布を記録し、トレーニング中に再生することで、トレーニングと推論のポリシー間のKLダイバージェンスを減少させ、安定性を向上。実験により、R3がRLトレーニングの崩壊を防ぎ、他の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08

のMoE版の話。Inference EngineとTraining Engine側でExpertsの選択が一致しないことが不安定につながるので、それを一致させるようにする、という話な模様。

[Paper Note] How Reinforcement Learning After Next-Token Prediction Facilitates Learning, Nikolaos Tsilivis+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #NLP #Transformer #Reasoning #PostTraining #read-later Issue Date: 2025-10-14 GPT Summary- 大規模言語モデルの次のトークン予測を強化学習で最適化するフレームワークを提案。特に、短いおよび長い「思考の連鎖」シーケンスからの学習を通じて、強化学習が次のトークン予測を改善することを理論的に示す。長いシーケンスが稀な場合、強化学習により自己回帰型トランスフォーマーが一般化できることを確認。さらに、長い応答が計算を増加させるメカニズムを説明し、自己回帰型線形モデルが効率的に$d$ビットの偶奇を予測できる条件を理論的に証明。Llamaシリーズモデルのポストトレーニングによる実証も行う。 Comment

元ポスト:

Loading…

[Paper Note] QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs, Wei Huang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Quantization #PEFT(Adaptor/LoRA) #Entropy Issue Date: 2025-10-14 GPT Summary- QeRLは、LLMs向けの量子化強化学習フレームワークで、NVFP4量子化とLoRAを組み合わせてRLのロールアウトを加速し、メモリ使用量を削減します。量子化ノイズがポリシーエントロピーを増加させ、探索を強化することを示し、AQNメカニズムでノイズを動的に調整します。実験により、ロールアウトフェーズで1.5倍のスピードアップを達成し、32B LLMのRLトレーニングを単一のH100 80GB GPUで可能にしました。QeRLは、報酬の成長と最終精度で優れた結果を示し、LLMsにおけるRLトレーニングの効率的なフレームワークとしての地位を確立しました。 Comment

pj page: https://github.com/NVlabs/QeRL

元ポスト:

Loading…

- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08

のようなロールアウトする際のエンジンと学習のエンジンのgapによる問題は生じたりしないのだろうか。

解説:

Loading…

[Paper Note] Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony, Han Lu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #Pocket #NLP #LanguageModel #RLVR Issue Date: 2025-10-14 GPT Summary- 非同期RL後処理をサポートする「ROLL Flash」を提案。細粒度の並列性とロールアウト・トレインのデカップリングに基づき、効率的なトレーニングアーキテクチャを実現。ROLL Flashはリソース利用効率とスケーラビリティを大幅に改善し、RLVRタスクで最大2.24倍、エージェントタスクで最大2.72倍のスピードアップを達成。非同期トレーニングが同期トレーニングと同等のパフォーマンスを示すことを確認。 Comment

元ポスト:

Loading…

RLのロールアウト中のGPUのアイドルタイムを削減します系の話も最近結構見るような
たとえば

- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10

[Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Self-SupervisedLearning #SelfCorrection #mid-training #Selected Papers/Blogs #WorldModels #KeyPoint Notes Issue Date: 2025-10-14 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment

元ポスト:

Loading…

LLM AgentのためのWarmup手法を提案している。具体的にはRLVRやImitation LearningによってRewardが定義できるデータに基づいてこれまではRLが実現されてきたが、これらはスケールせず、Rewardが定義されない環境のtrajectoryなどは学習されないので汎化性能が低いという課題がある。このため、これらのsupervisionつきの方法で学習をする前のwarmup手法として、reward-freeの学習パラダイム Early Experienceを提案している。

手法としてはシンプルな手法が2種類提案されている。
### Implicit World Modeling (IWM, 式(3)):
ある状態s_i において action a_i^{j}を (1 < j < |K|)をとった時の状態をs_i^{j}としたときに、(s_i, a_i^{j}, s_i^{j}) の3つ組を考える。これらはポリシーからのK回のrolloutによって生成可能。
このときに、状態sを全てテキストで表現するようにし、言語モデルのnext-token-prediction lossを用いて、ある状態s_jにおいてaction a_i^{k} をとったときに、s_j^{k} になることを予測できるように学習する。これにより例えばブックフライトのサイトで誤った日時を入れてしまった場合や、どこかをクリックしたときにどこに遷移するかなどの学習する環境の世界知識をimplicitにモデルに組み込むことができる。

### Self-Reflection（式4）
もう一つのパラダイムとして、専門家によるアクション a_i によって得られた状態 s_i と、それら以外のアクション a_i^{j} によって得られた状態 s_i^{j}が与えられたときに、s_iとs_i^{j}を比較したときに、なぜ a_i の方がa_i^{j} よりも好ましいかを説明するCoT C_i^{j}を生成し、三つ組データ(s_i, a_i^{j}, c_i^{j}) を構築する。このデータを用いて、状態s_iがgivenなときに、a_i に c_i^{j} をconcatしたテキストを予測できるようにnext-token-prediction lossで学習する。また、このデータだけでなく汎化性能をより高めるためにexpertによるimitation learningのためのデータCoTなしのデータもmixして学習をする。これにより、expertによるactionだけで学習するよりも、なぜexpertのアクションが良いかという情報に基づいてより豊富で転移可能な学習シグナルを活用し学習することができる。

この結果、downstreamタスクでのperformanceが単にImitation Learningを実施した場合と比較して提案手法でwarmupした方が一貫して向上する。また、5.4節にpost-trainingとして追加でGRPOを実施した場合も提案手法によるwarmupを実施した場合が最終的な性能が向上することが報告されている。

IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。

著者ポスト:

Loading…

[Paper Note] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting, Yunzhen Feng+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #On-Policy Issue Date: 2025-10-14 GPT Summary- 強化学習におけるネガティブグループを活用する新手法LENSを提案。信頼度に基づくペナルティを追加し、誤った応答に対しても報酬を与えることで、無駄なサンプルを有用な勾配更新に変換。MATHベンチマークでGRPOを上回る性能を示し、RLVRの効率と性能向上に寄与。 Comment

元ポスト:

Loading…

DAPOなどのdynamic samplingは全ての応答がnegativeなグループは破棄するが、それらも活用して学習できるような枠組みな模様

[Paper Note] Rethinking Entropy Regularization in Large Reasoning Models, Yuxian Jiang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #RLVR #Entropy Issue Date: 2025-10-13 GPT Summary- RLVRはLRMの推論能力を向上させるが、エントロピーの崩壊と早期収束の問題に直面している。これに対処するため、SIREN（選択的エントロピー正則化）を提案し、探索を意味のある行動と状態のサブセットに制限する二段階のエントロピーマスキングメカニズムを導入。SIRENは数学的ベンチマークで優れたパフォーマンスを示し、トレーニングの安定性を高め、早期収束の問題を軽減することが確認された。 Comment

元ポスト:

Loading…

[Paper Note] General-Reasoner: Advancing LLM Reasoning Across All Domains, Xueguang Ma+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #NeurIPS #mid-training #PostTraining #GenerativeVerifier Issue Date: 2025-10-12 GPT Summary- 強化学習を用いた新しいトレーニングパラダイム「General-Reasoner」を提案し、LLMの推論能力を向上させる。大規模な高品質データセットを構築し、生成モデルベースの回答検証器を開発。物理学や化学などの多様な分野で評価し、既存手法を上回る性能を示す。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/General-Reasoner/

[Paper Note] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels, Zhepeng Cen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #mid-training #PostTraining Issue Date: 2025-10-12 GPT Summary- Webscale-RLパイプラインを導入し、大規模な事前学習文書から数百万の多様な質問-回答ペアを生成。これにより、120万の例を含むWebscale-RLデータセットを構築。実験結果、RLトレーニングは継続的な事前トレーニングよりも効率的で、パフォーマンスを大幅に向上させることを示した。研究は、RLを事前学習レベルにスケールアップする道筋を示し、より高性能な言語モデルの実現を可能にする。 Comment

元ポスト:

Loading…

Dataset: https://huggingface.co/datasets/Salesforce/Webscale-RL

以下の研究が関連研究でNeurIPSですでに発表されているが引用も議論もされていないという指摘がある:
- [Paper Note] General-Reasoner: Advancing LLM Reasoning Across All Domains, Xueguang Ma+, arXiv'25, 2025.05

他にも似たようなモチベーションの研究を見たことがあるような…

[Paper Note] Dual Goal Representations, Seohong Park+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#MachineLearning #Pocket Issue Date: 2025-10-11 GPT Summary- 本研究では、目標条件付き強化学習のために二重目標表現を提案し、状態を時間的距離の集合として特徴付ける。この表現は環境の内的ダイナミクスに依存し、外部ノイズをフィルタリングしつつ最適なポリシーを回復するのに十分な情報を提供する。実験により、二重目標表現がOGBenchタスクスイートにおいてオフラインの目標到達性能を向上させることを示した。 Comment

pj page: https://seohong.me/blog/dual-representations/

元ポスト:

Loading…

ゴールを明示的に与えるRLにおいて（Goal conditioned RLと呼ぶらしい, pi(a|s,g)、つまりアクションが状態とゴールから決まる設定)、ゴールgを表現する際に有用なrepresentation方法の提案（ある状態sを定義する際に状態sそのものの情報を使うのではなく、他のとりうる状態からのtemporal distance（何ステップで到達できるか）のベクトルで表現する）らしい。

たとえば、gはロボットであれば到達したい特定の座標であり、sは現在の座標、のようなイメージだろうか。

解説:

Loading…

[Paper Note] Flow-GRPO: Training Flow Matching Models via Online RL, Jie Liu+, NeurIPS'25, 2025.05

Paper/Blog Link My Issue
#ComputerVision #Pocket #TextToImageGeneration #NeurIPS #On-Policy #FlowMatching Issue Date: 2025-10-10 GPT Summary- Flow-GRPOは、オンライン強化学習をフローマッチングモデルに統合した新しい手法で、ODEをSDEに変換することでRL探索のための統計的サンプリングを実現し、デノイジングステップを削減してサンプリング効率を向上させる。実験結果では、テキストから画像へのタスクで性能が大幅に向上し、GenEvalの精度が63%から95%に、視覚的テキストレンダリングの精度が59%から92%に改善された。また、報酬ハッキングがほとんど発生せず、画像の質や多様性を損なうことなく報酬が増加した。

[Paper Note] DiffusionNFT: Online Diffusion Reinforcement with Forward Process, Kaiwen Zheng+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#ComputerVision #MachineLearning #Pocket #DiffusionModel #FlowMatching Issue Date: 2025-10-10 GPT Summary- Diffusion Negative-aware FineTuning（DiffusionNFT）は、オンライン強化学習を用いて拡散モデルを最適化する新しい手法で、ポジティブとネガティブな生成を対比させることで強化信号を組み込みます。このアプローチにより、尤度推定が不要になり、クリーンな画像のみでポリシー最適化が可能になります。DiffusionNFTは、FlowGRPOよりも最大25倍効率的で、GenEvalスコアを短期間で大幅に改善し、複数の報酬モデルを活用することでSD3.5-Mediumのパフォーマンスを向上させます。 Comment

元ポスト:

Loading…

ベースライン:
- Introducing Stable Diffusion 3.5, StabilityAI, 2024.10
- [Paper Note] Flow-GRPO: Training Flow Matching Models via Online RL, Jie Liu+, NeurIPS'25, 2025.05
- [Paper Note] Classifier-Free Diffusion Guidance, Jonathan Ho+, arXiv'22, 2022.07

[Paper Note] The Markovian Thinker, Milad Aghajohari+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs Issue Date: 2025-10-09 GPT Summary- 強化学習を用いて長い思考の連鎖を生成するための新しいパラダイム「マルコフ的思考」を提案。これにより、状態を一定のサイズに制限し、思考の長さをコンテキストのサイズから切り離すことで、線形計算を実現。新しいRL環境「Delethink」を構築し、モデルは短い持ち越しで推論を継続することを学習。訓練されたモデルは、長い推論を効率的に行い、コストを大幅に削減。思考環境の再設計が、効率的でスケーラブルな推論LLMの実現に寄与することを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning, Sumeet Ramesh Motwani+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #SyntheticData #LongHorizon Issue Date: 2025-10-09 GPT Summary- 大規模言語モデルは短期的な推論には強いが、長期的な推論では性能が低下する。既存のアプローチはスケールしにくい。本研究では、短期データを用いて長期的な推論能力を向上させるスケーラブルな方法を提案。単純な問題を合成し、複雑な多段階依存チェーンを構成。結果のみの報酬でモデルを訓練し、カリキュラムを通じて精度を向上。実験により、GSM8Kでの訓練がGSM-SymbolicやMATH-500などのベンチマークでの精度を最大2.06倍向上させることを示した。理論的には、カリキュラムRLがサンプルの複雑さにおいて指数的な改善を達成することを示し、既存データを用いた長期的な問題解決の効率的な道を提案。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #TabularData #SyntheticData #ScientificDiscovery #numeric #MajorityVoting Issue Date: 2025-10-09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

[Paper Note] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use, Zhuofeng Li+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #On-Policy Issue Date: 2025-10-09 GPT Summary- AgentFlowは、4つのモジュール（プランナー、エグゼキューター、バリファイア、ジェネレーター）を調整し、マルチターン環境でプランナーを最適化する強化学習フレームワーク。Flow-GRPOを用いて、長いホライズンのスパースリワード問題に対処し、精度を向上。10のベンチマークで、7BスケールのAgentFlowは、検索、エージェンティック、数学、科学タスクでそれぞれ14.9%、14.0%、14.5%、4.1%の精度向上を達成し、GPT-4oを上回る性能を示した。 Comment

元ポスト: https://agentflow.stanford.edu

pj page: https://agentflow.stanford.edu

モデルサイズと推論ターンに対するスケーリング特性

似たような話が以下の研究にもある
- [Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, Akshit Sinha+, arXiv'25

ポイント解説:

Loading…

ポイント解説:

Loading…

[Paper Note] Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?, Haizhong Zheng+, COLM'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #read-later #Off-Policy Issue Date: 2025-10-08 GPT Summary- 強化学習における新しいアプローチM2POを提案。古いデータを効果的に活用し、オンポリシー学習の効率性を向上。M2POは重要度重みの二次モーメントを制約し、外れ値を抑制しつつ安定した最適化を実現。広範な評価により、古いデータでもオンポリシーに匹敵する性能を示した。 Comment

元ポスト:

Loading…

本当だとしたらすごいが果たして

[Paper Note] Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL, Mohammadreza Pourreza+, COLM'25, 2025.03

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #COLM #GRPO #On-Policy #TextToSQL Issue Date: 2025-10-08 GPT Summary- Text-to-SQLタスクにおいて、部分的報酬を用いた強化学習（RL）アプローチを提案。スキーマリンクやAIフィードバックなどの報酬を設計し、LLMsの推論スキルを向上させる。RLトレーニングを受けた14Bパラメータモデルは、他のモデルを上回る精度を達成し、提案手法の有効性を示す。 Comment

openreview: https://openreview.net/forum?id=HbwkIDWQgN#discussion

元ポスト:

Loading…

[Paper Note] Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, Anna Goldie+, COLM'25, 2025.04

Paper/Blog Link My Issue
#Multi #Pocket #NLP #Dataset #LanguageModel #SyntheticData #COLM #One-Line Notes Issue Date: 2025-10-08 GPT Summary- 段階的強化学習（SWiRL）を提案し、複数のテキスト生成や推論ステップを通じて大規模言語モデルの性能を向上させる手法を紹介。SWiRLは、各アクションに対するサブ軌道を生成し、合成データフィルタリングと強化学習最適化を適用。実験では、GSM8KやHotPotQAなどのタスクでベースラインを上回る精度を達成し、タスク間での一般化も示された。 Comment

openreview: https://openreview.net/forum?id=oN9STRYQVa

元ポスト:

Loading…

従来のRLではテキスト生成を1ステップとして扱うことが多いが、複雑な推論やtool useを伴うタスクにおいては複数ステップでの最適化が必要となる。そのために、多段階の推論ステップのtrajectoryを含むデータを作成し、同データを使いRLすることによって性能が向上したという話な模様。RLをする際には、stepごとにRewardを用意するようである。また、現在のstepの生成を実施する際には過去のstepの情報に基づいて生成する方式のようである。

[Paper Note] Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining, Rosie Zhao+, COLM'25, 2025.04

Paper/Blog Link My Issue
#Analysis #Pretraining #Pocket #NLP #LanguageModel #COLM #read-later Issue Date: 2025-10-07 GPT Summary- 強化学習（RL）によるファインチューニングは、数学的推論やコーディングのための言語モデルの性能向上に寄与しているが、そのメカニズムは未解明である。本研究では、オープンなデータセットを用いて、さまざまなスケールのモデルに対するRLファインチューニングの効果を調査し、RLアルゴリズムが出力分布に収束し、事前学習データのパターンを増幅することを明らかにした。また、異なるスケールのモデルが異なる出力分布に収束することや、簡単な質問へのファインチューニングが難しい質問の性能向上に寄与する可能性を示した。これにより、RLの役割に関する新たな洞察が得られた。 Comment

元ポスト:

Loading…

[Paper Note] Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning, Haozhen Zhang+, NeurIPS'25, 2025.06

Paper/Blog Link My Issue
#Multi #Pocket #LanguageModel #NeurIPS #Routing Issue Date: 2025-10-07 GPT Summary- Router-R1は、複数の大規模言語モデル（LLMs）を効果的にルーティングし集約するための強化学習に基づくフレームワークを提案。内部の熟慮と動的なモデル呼び出しを交互に行い、パフォーマンスとコストのトレードオフを最適化。実験では、一般的なQAベンチマークで強力なベースラインを上回る性能を示し、優れた一般化とコスト管理を実現。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] BroRL: Scaling Reinforcement Learning via Broadened Exploration, Jian Hu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #read-later #Selected Papers/Blogs Issue Date: 2025-10-07 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）の新たなアプローチとしてBroR-Lを提案。ロールアウトの数を増やすことで探索を広げ、ProRLの飽和点を超えたパフォーマンス向上を実現。理論的分析に基づき、ロールアウト数の増加が正しいトークンの質量拡大を保証することを示す。BroRLは3KのProRLトレーニングステップでの飽和モデルを復活させ、最先端の結果を達成。 Comment

元ポスト:

Loading…

前回はstep数をこれまでにない規模でスケーリングされRLしたがそれで性能が頭打ちを迎えることがわかったので、今度はロールアウト数をスケーリングさせた時にどうなるかというのを試したっぽい？

[Paper Note] GTA1: GUI Test-time Scaling Agent, Yan Yang+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #Test-Time Scaling #ComputerUse #VisionLanguageModel Issue Date: 2025-10-05 GPT Summary- GTA1というGUIエージェントは、ユーザーの指示を分解し、視覚要素と相互作用しながらタスクを自律的に完了します。計画の選択と視覚ターゲットとの正確な相互作用という2つの課題に対処するため、テスト時スケーリングを用いて最適なアクション提案を選び、強化学習を通じて基づけを改善します。実験により、GTA1は基づけとタスク実行の両方で最先端の性能を示しました。 Comment

元ポスト:

Loading…

[Paper Note] Nudging the Boundaries of LLM Reasoning, Justin Chih-Yao Chen+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #read-later Issue Date: 2025-10-05 GPT Summary- NuRLは、自己生成されたヒントを用いてオンライン強化学習（RL）アルゴリズムの上限を引き上げる手法である。モデルは連鎖的思考を生成し、難しいサンプルに対してヒントを注入することで合格率を向上させ、トレーニング信号を導入する。これにより、分布のシフトを回避しつつ、6つのベンチマークで一貫した改善を達成。特に、最も効果的なヒントは抽象的で高レベルであり、GRPOと比較してモデルの上限を引き上げることができる。 Comment

元ポスト:

Loading…

RLで学習に利用するサンプルの難易度を調整することで性能上げます系の話が溢れている。しかしこの話はどちらかというと上限を押し上げるみたいな話らしい？（RLVRは解決可能な問題しか勾配が流れないという課題）

[Paper Note] Prompt Curriculum Learning for Efficient LLM Post-Training, Zhaolin Gao+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #CurriculumLearning #On-Policy #Batch #One-Line Notes Issue Date: 2025-10-04 GPT Summary- Prompt Curriculum Learning (PCL)を提案し、中程度の難易度のプロンプトを選択してLLMをポストトレーニングする軽量な強化学習アルゴリズムを紹介。最適なバッチサイズとプロンプト選択の重要性を実験で確認し、PCLは情報豊富なプロンプトに焦点を当てることで高いパフォーマンスを達成。ロールアウトを回避し、MATHおよびDeepScaleRでそれぞれ$12.1\times$および$16.9\times$の速度向上を実現。結果は、推論におけるRLの効率とパフォーマンスのトレードオフを改善する新たな方法論を示す。 Comment

元ポスト:

Loading…

（ざっくり読みなので誤りを多分に含むかもしれないがメモ）勾配のノイズの低減と生成の速度のトレードオフを最適にバランスをとるバッチサイズがあることを示し、RLの学習効率が中間程度（簡単すぎず、難しすぎない）の難易度が良いことを示したのち、Valueモデル（ロールアウトに基づいて更新される模様？）を用いてpromptを選択し[^1]中間程度のpromptを用いてロールアウトをし学習するようなオンポリシーのRLを提案する、みたいな話な模様。

[^1]:既存手法のロールアウトによって求める方法（計算コストが高すぎる）や、事前に決めておいた辞書ベースの手法（現在のポリシーからみた時の難易度が反映されておらず効率が悪い）の双方に比べて、適度にオンポリシーさを残したpromptの選び方となっている

[Paper Note] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search, Fang Wu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #Search #LanguageModel #read-later #RLVR #On-Policy #One-Line Notes #ReplayBuffer #TreeSearch Issue Date: 2025-10-04 GPT Summary- DeepSearchは、RLVRトレーニングにMonte Carlo Tree Searchを統合し、体系的な探索を可能にするフレームワーク。これにより、限られたロールアウトに依存せず、重要な推論経路を見逃さない。実験では、62.95%の平均精度を達成し、1.5B推論モデルで新たな最先端を確立。戦略的な探索の重要性を示し、RLVR手法の進展に向けた新たな方向性を提供。 Comment

元ポスト:

Loading…

最近はRL時の探索空間を増やす取り組みが増えてきているように感じる。

- Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03

にもあるように基本的にオンポリシーRLではリプレイバッファを使えないので何らかの工夫が必要、といった話があるが、この研究ではGRPOを前提としつつリプレイバッファを活用する枠組みとなっているようなので、どのような工夫が行われているのだろうか。勉強したい。

所見と解説:

Loading…

[Paper Note] ExGRPO: Learning to Reason from Experience, Runzhe Zhan+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #RLVR #Entropy Issue Date: 2025-10-03 GPT Summary- RLVRは大規模言語モデルの推論能力を向上させる新しい手法ですが、標準的な訓練方法は計算効率が悪い。本研究では、推論経験の価値を調査し、ExGRPOフレームワークを提案。これにより、経験の整理と優先順位付けを行い、探索と経験活用のバランスを取る。実験結果では、ExGRPOが推論性能を向上させ、訓練の安定性を高めることが示された。 Comment

元ポスト:

Loading…

[Paper Note] RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization, Zhaoning Yu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #read-later Issue Date: 2025-10-03 GPT Summary- RESTRAINは、ラベルなしデータを用いた自己抑制型強化学習フレームワークであり、モデルが未ラベルデータから学習し改善することを目指す。過信したロールアウトや一貫性の低い例に罰則を与えつつ、有望な推論を保持する。実験により、RESTRAINは未ラベルデータのみで大幅な性能向上を達成し、金ラベル訓練に匹敵する結果を示した。 Comment

元ポスト:

Loading…

[Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #Conversation #MultiLingual #LLM-as-a-Judge #RewardModel #One-Line Notes Issue Date: 2025-10-03 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

LLMの応答を多言語でよりnativeに近いものにするための取り組み、および評価のフレームワーク（MENLO, データセット含む）な模様。nativeらしさを測るために重要な次元としてFluency, Tone, Localized Tone, Localized Factualityと呼ばれる軸を定義している模様。その上で47言語における6423の人手でアノテーションされたpreference dataを作成し評価をしたところ、既存のLLM-as-a-judgeやSFT/RLされたReward Modelでは、人間による評価にはまだまだ及ばないことが明らかになり、MENLOを用いてRL/SFTすることでLLM JudgeやReward Modelの性能を改善できる、といった話な模様。

4つの次元については以下の表を参照のこと。
それぞれ
- Fluency: 専門家レベルのnative speakerと比較した時のproficiency
- Tone: 全体的なwriting stvleや語り口
- Localized Tone: 文化的、地域的な言葉のニュアンス
- Localized Factuality: 地域固有のコンテキストに沿った事実性や網羅性

[Paper Note] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning, Ruiyi Wang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-10-03 GPT Summary- マルチターン強化学習におけるLLMエージェントの訓練方法を研究し、設計空間を環境、報酬、ポリシーの3つの柱に分解。環境の複雑さがエージェントの一般化能力に与える影響、報酬の希薄性が訓練に与える効果、ポリシー勾配法の相互作用を分析。これらの知見を基に、訓練レシピを提案し、マルチターンエージェント強化学習の研究と実践を支援。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

takeawayが非常に簡潔で分かりやすい。

ベンチマーク:
- [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06
- [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10
- Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25

[Paper Note] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning, Zhepei Wei+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Hallucination #PostTraining #Trustfulness Issue Date: 2025-10-02 GPT Summary- 本研究では、LLMsの真実性を最適化するための強化学習フレームワークTruthRLを提案。三値報酬を用いて正しい回答、幻覚、abstentionを区別し、不確実な場合には控えることを促進。実験により、TruthRLは幻覚を28.9%減少させ、真実性を21.1%向上させることが確認され、従来の手法よりも優れた性能を示した。正確さと真実性のバランスを取る重要性が強調される。 Comment

元ポスト:

Loading…

一般的に利用されるBinary Reward（回答が正しければ1, そうでなければ-1)ではなく、Ternary Reward
- 回答が正しければ1
- 不確実であれば0
- 誤りであれば-1

を利用しGRPOすることで、hallucinationが向上し、trustfulnessも改善する、という話な模様

[Paper Note] Training Agents Inside of Scalable World Models, Danijar Hafner+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#ComputerVision #Pocket #read-later #Off-Policy #WorldModels Issue Date: 2025-10-02 GPT Summary- 「Dreamer 4」は、ビデオゲーム「Minecraft」において物体の相互作用を正確に予測し、強化学習を用いて制御タスクを解決するスケーラブルなエージェントです。このワールドモデルは、ショートカット強制目的と効率的なトランスフォーマーアーキテクチャを活用し、リアルタイムのインタラクティブ推論を実現します。さらに、少量のデータから一般的な行動を学習し、オフラインデータのみでダイヤモンドを取得するタスクを成功させました。Dreamer 4は、環境との相互作用なしに学ぶ能力を持つ初のエージェントであり、知能エージェントへの新たな道を示しています。 Comment

解説:

Loading…

[Paper Note] QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation, Jiazheng Li+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #SmallModel Issue Date: 2025-10-01 GPT Summary- 強化学習（RL）を用いて、難しい推論問題を効果的に解決するための手法QuestAを提案。質問の拡張を通じて部分的な解決策を導入し、学習信号を改善。数学的推論タスクでのRLトレーニングにおいて、pass@1とpass@kの両方を向上させ、DeepScaleRやOpenMath Nemotronの推論能力を強化。1.5Bパラメータモデルで新たな最先端結果を達成。 Comment

元ポスト:

Loading…

RLにおいて、簡単な問題はすぐにoverfitし、かつより困難な問題を学習する妨げになる一方で、困難な問題はサンプル効率が悪く、かつrewardがsparseな場合学習が非常に遅いという問題があったが、困難な問題に対してヒントを与えて学習させる（かつ、モデルがヒントに依存せずとも解けるようになってきたら徐々にヒントを減らしヒントに過剰に依存することを防ぐ）ことで、簡単な問題に対してoverfitせずに困難な問題に対する学習効率も上がり、reasoning能力もブーストしました。困難な問題はベースラインモデルが解くのに苦労するもの（pass rateがゼロのもの)から見つけます、（そしてpromptでhintを与えた上でさらにpass rateが低いものを使う模様？）といった話な模様。

ヒントを使ってなる問題の難易度を調整しながらRLする研究は以下も存在する:
- [Paper Note] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding, Ziheng Li+, arXiv'25

[Paper Note] RecoWorld: Building Simulated Environments for Agentic Recommender Systems, Fei Liu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#RecommenderSystems #Pocket #LanguageModel #AIAgents Issue Date: 2025-09-30 GPT Summary- RecoWorldは、エージェント型レコメンダーシステムのためのシミュレーション環境を提案し、エージェントがユーザーに影響を与えずに学習できる場を提供します。ユーザーシミュレーターとエージェント型レコメンダーがマルチターンのインタラクションを行い、ユーザーの保持を最大化します。ユーザーシミュレーターはユーザーの反応を基に指示を生成し、レコメンダーはそれに応じて推奨を適応させる動的なフィードバックループを形成します。さらに、テキストベースやマルチモーダルなコンテンツ表現を探求し、マルチターン強化学習を通じて戦略を洗練させる方法を議論します。RecoWorldは、ユーザーとエージェントが共同でパーソナライズされた情報を形成する新しいインタラクションパラダイムを提示します。 Comment

元ポスト:

Loading…

[Paper Note] The Era of Real-World Human Interaction: RL from User Conversations, Chuanyang Jin+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #UserBased #Alignment Issue Date: 2025-09-30 GPT Summary- 本研究では、ユーザーとの会話から直接学ぶ「人間の相互作用からの強化学習（RLHI）」を提案。2つの手法を開発し、(1) ユーザーのフィードバックを基にモデル出力を修正する方法と、(2) ユーザーの長期的な相互作用履歴に基づく報酬モデルを用いる方法を採用。これにより、パーソナライズと指示の遵守において強力な性能を示し、有機的な人間の相互作用が効果的な監督を提供することを示唆した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Quantile Advantage Estimation for Entropy-Safe Reasoning, Junkang Wu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #RLVR #Entropy Issue Date: 2025-09-29 GPT Summary- 強化学習における検証可能な報酬（RLVR）のトレーニングは、エントロピー崩壊と爆発の問題に直面する。これを解決するために、分位アドバンテージ推定（QAE）を提案し、平均ベースラインをK-分位ベースラインに置き換える。QAEは、難しいクエリで稀な成功を強化し、簡単なクエリで失敗をターゲットにする。これにより、エントロピーの安定化とクレジット割り当てのスパース化が実現し、AIME 2024/2025およびAMC 2023での性能向上が確認された。結果は、ベースライン設計がRLVRのスケーリングにおいて重要であることを示している。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals, Qinsi Wang+, NeurIPS'25 Spotlight, 2025.06

Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #Pocket #NLP #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-27 GPT Summary- 大規模言語モデル（LLMs）の強化学習微調整（RFT）におけるサンプル効率の低下を改善するため、モデル固有の信号「角度集中」を特定。これに基づき、勾配駆動型角度情報ナビゲート強化学習フレームワーク（GAIN-RL）を提案し、トレーニングデータを動的に選択することで効率を向上。実証評価では、GAIN-RLがトレーニング効率を2.5倍以上向上させ、元のデータの半分でより良いパフォーマンスを達成したことが示された。 Comment

元ポスト:

Loading…

ヒューリスティックや特定の難易度に基づくラベルからRLのサンプルをサンプリングするのではなく、モデル自身の現在の学習の状態に基づいて動的に選択し学習効率を向上させるアプローチな模様。

[Paper Note] Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns, Xuemiao Zhang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Reasoning #mid-training Issue Date: 2025-09-26 GPT Summary- 大規模推論モデルの進展は強化学習によって促進され、CoTデータの利用が推論の深さを向上させることが示されている。しかし、どのデータタイプが最も効果的かは未解決の問題である。本研究では、推論ポテンシャルを独立した試行の数の逆数として定義し、これを拡張するために高価値の推論パターンを用いた多様なデータの利用を提案。具体的には、CoTシーケンスから原子的な推論パターンを抽象化し、コアリファレンスセットを構築。二重粒度アルゴリズムを用いて高価値のCoTデータを効率的に選択し、モデルの推論能力を向上させる。10BトークンのCoTPデータにより、85A6B Mixture-of-ExpertsモデルはAIME 2024および2025で9.58%の改善を達成した。 Comment

元ポスト:

Loading…

細かいところは読めていないのだが、学習データの中から高品質な推論パターンを持つものを選んで学習に使いたいというモチベーション。そのためにまず価値の高い推論パターンを含むコアセットを作り、コアセットと類似した推論パターンや、推論中のトークンのエントロピー列を持つサンプルを学習データから収集するみたいな話な模様。類似度は重みつきDynamic Time Warping (DTW)で、原始的な推論パターンの系列とエントロピー系列のDTWの線型結合によっめ求める。原始的な推論パターンのアノテーションや、CoT sequence中のトークンのエントロピー列はDeepSeek-V3によって生成する。

コアセットを作るためには、問題タイプや問題の難易度に基づいて人手で問題を選び、それらに対してstrong reasoning modelでCoTを生成。各CoTに対して（おそらく）DeepSeek-V3でreasoningのパターン（パターンは原始的なCoTパターンの系列で構成される）をアノテーションし、各パターンに対してTF-IDFによって重要度を決定する。最終的に、問題に正答しているサンプルについて、人手で高品質でdiscriminativeなCoTパターンを持つものを選択し、各CoTパターンに重みをつけた上でコアセットを作成した、みたいな感じに見える。

[Paper Note] Reinforcement Learning on Pre-Training Data, Siheng Li+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Scaling Laws #read-later Issue Date: 2025-09-24 GPT Summary- RLPTという新しいトレーニング手法を導入し、LLMsの最適化を図る。従来の方法に依存せず、事前学習データから直接報酬信号を導出し、次のテキストセグメントを予測することでポリシーに報酬を与える。実験により、複数のベンチマークで性能が向上し、計算リソースの増加によるさらなる改善の可能性が示された。RLPTはLLMsの推論能力を拡張し、RLVRのパフォーマンス向上にも寄与する。 Comment

元ポスト:

Loading…

所見:

Loading…

公式ポスト:

Loading…

[Paper Note] Heimdall: test-time scaling on the generative verification, Wenlei Shi+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Test-Time Scaling #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-09-24 GPT Summary- Heimdallは、長いChain-of-Thought推論における検証能力を向上させるためのLLMであり、数学問題の解決精度を62.5%から94.5%に引き上げ、さらに97.5%に達する。悲観的検証を導入することで、解決策の精度を54.2%から70.0%、強力なモデルを使用することで93.0%に向上させる。自動知識発見システムのプロトタイプも作成し、データの欠陥を特定する能力を示した。

[Paper Note] Soft Tokens, Hard Truths, Natasha Butt+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Chain-of-Thought #LatentReasoning Issue Date: 2025-09-24 GPT Summary- 本研究では、離散CoTからの蒸留なしに強化学習を用いて連続CoTを学習する新しい方法を提案。ソフトトークンを活用し、計算コストを抑えつつ数百のトークンを持つ連続CoTを学習可能。LlamaおよびQwenモデルでの実験により、連続CoTは離散トークンCoTと同等またはそれを上回る性能を示し、特に連続CoTでトレーニング後に離散トークンで推論するシナリオが最良の結果を得ることが確認された。さらに、連続CoTのRLトレーニングは、ドメイン外タスクにおけるベースモデルの予測保持を向上させることが明らかになった。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] A Clean Slate for Offline Reinforcement Learning, Matthew Thomas Jackson+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#Pocket #NeurIPS #Off-Policy Issue Date: 2025-09-24 GPT Summary- オフライン強化学習の課題に対処するため、透明な評価プロトコルを導入し、シンプルな実装を提供。これにより、さまざまな手法を統一したハイパーパラメータ空間にカプセル化する「Unifloral」を提案。新しいアルゴリズムTD3-AWRとMoBRACを開発し、既存のベースラインを上回る性能を達成。実装は公開済み。 Comment

元ポスト:

Loading…

[Paper Note] BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models, Yuming Li+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #GRPO Issue Date: 2025-09-23 GPT Summary- BranchGRPOを提案し、ロールアウトプロセスを分岐ツリーに再構築することで、画像および動画生成モデルの効率を向上。共有プレフィックスを用いてコストを分散し、スパースな報酬を密な信号に変換。HPDv2.1で最大16%の整合性向上と55%のトレーニング時間短縮を実現。BranchGRPO-MixはDanceGRPOより4.7倍速くトレーニング。WanX動画生成でも高いVideo-Alignスコアを達成。 Comment

pj page: https://fredreic1849.github.io/BranchGRPO-Webpage/

元ポスト:

Loading…

[Paper Note] GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models, Min Zeng+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Hybrid Issue Date: 2025-09-23 GPT Summary- GTAフレームワークを提案し、SFTの効率性とRLの能力を統合。モデルは仮の推測を生成し、最終的な回答を導出する。ハイブリッドアプローチにより、収束が速く、性能が向上。損失マスキングと勾配制約を用いて勾配の対立を軽減。実験結果はGTAの優位性を示す。 Comment

元ポスト:

Loading…

[Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #InstructionTuning #Evaluation #NeurIPS #RLVR #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2025-09-21 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習（RLVR）を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment

元ポスト:

Loading…

Instruction Followingのための新たなベンチマークIFBench（多様（58種類の制約）で精緻、かつ複数の出力に関する制約を持つ。Appendix Aを参照のこと)を導入し、RLVRによってInstruction tuningする方法を提案している模様。複数のIFの制約を同時に学習した方がOODに対してロバストになることや、制約ごとのinstance数に対する性能の変化、またSFT, DPOによってInstrtction Tuningを実施したモデルに対して、制約を満たしたか否かのVerifiableなデータから生成した嗜好データを用いて追加のDPOを実施した場合と、RLVRに基づくGRPOを実施した場合のどちらの性能が良いかなども実験されている（一貫してGRPOが良い）。

解説:

Loading…

[Paper Note] ToolRL: Reward is All Tool Learning Needs, Cheng Qian+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #NeurIPS Issue Date: 2025-09-20 GPT Summary- 大規模言語モデル（LLMs）のツール使用能力向上のため、報酬設計に関する初の包括的研究を行い、さまざまな報酬戦略を探求。ツール使用タスクに特化した報酬設計を提案し、GRPOを用いてLLMsを訓練。実証評価により、ベースモデルに対して17%、SFTモデルに対して15%の性能改善を達成。報酬設計の重要性を強調し、コードを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #Reasoning #Biological Issue Date: 2025-09-20 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

[Paper Note] FlowRL: Matching Reward Distributions for LLM Reasoning, Xuekai Zhu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel Issue Date: 2025-09-20 GPT Summary- FlowRLは、LLM強化学習において報酬を最大化するのではなく、フローバランシングを通じて報酬分布を一致させる手法です。従来の報酬最大化手法は多様性を減少させる傾向があるため、FlowRLでは学習可能な分割関数を用いてターゲット分布に変換し、ポリシーとターゲット分布の逆KLダイバージェンスを最小化します。実験の結果、FlowRLは数学ベンチマークでGRPOに対して平均10.0%、PPOに対して5.1%の改善を達成し、コード推論タスクでも優れた性能を示しました。報酬分布の一致が効率的な探索と多様な推論に重要であることが示されました。 Comment

元ポスト:

Loading…

報酬を最大化するのではなく、報酬分布を一致させるように学習するらしい

ポイント解説:

Loading…

[Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25

Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #MachineLearning #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #SmallModel #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-19 GPT Summary- 小型言語モデル（SLMs）は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…

[Paper Note] Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards, Xiaoyuan Liu+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #NeurIPS #read-later #RLVR #Verification #On-Policy Issue Date: 2025-09-19 GPT Summary- RISEという新しいオンラインRLフレームワークを提案し、LLMの問題解決能力と自己検証能力を同時に向上させる。結果検証者からの報酬を活用し、解決策生成と自己検証に即時フィードバックを提供。実験により、RISEは問題解決精度を向上させ、自己検証スキルを育成することが示された。RISEは堅牢で自己認識のある推論者を育成するための効果的な手法である。 Comment

元ポスト:

Loading…

Self-Verificationの能力が大幅に向上するのは良さそう。

[Paper Note] Inpainting-Guided Policy Optimization for Diffusion Large Language Models, Siyan Zhao+, arXiv'25

Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #DiffusionModel #On-Policy #Inpainting Issue Date: 2025-09-19 GPT Summary- dLLMsはインペインティング能力を活用し、強化学習の探索課題を解決するIGPOフレームワークを提案。部分的な真実の推論トレースを挿入し、探索を有望な軌道に導く。これによりサンプル効率が向上し、GSM8K、Math500、AMCの数学ベンチマークで新たな最先端結果を達成。 Comment

元ポスト:

Loading…

部分的にtraceの正解を与えると、正解の方向にバイアスがかかるので多様性が犠牲になる気もするが、その辺はどうなんだろうか。

[Paper Note] Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation, Yujun Zhou+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Diversity #MajorityVoting Issue Date: 2025-09-19 GPT Summary- EVOL-RLは、ラベルなしの強化学習手法であり、モデルの探索能力と一般化能力を維持しつつ、安定性と変動を結びつける。多数決で選ばれた回答を安定したアンカーとして保持し、新規性を意識した報酬を追加することで、生成物の多様性を保ち、思考の連鎖を改善する。実験により、EVOL-RLはTTRLベースラインを上回り、特にラベルなしのAIME24での訓練において顕著な性能向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Reasoning #On-Policy Issue Date: 2025-09-18 GPT Summary- WebSailorは、LLMのトレーニングにおいて人間の認知的限界を超えるためのポストトレーニング手法であり、複雑な情報探索タスクでの性能を向上させる。構造化サンプリングや情報の難読化、DUPOを用いて高不確実性タスクを生成し、オープンソースエージェントの能力を大幅に上回ることを目指す。

[Paper Note] WebDancer: Towards Autonomous Information Seeking Agency, Jialong Wu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData Issue Date: 2025-09-18 GPT Summary- 複雑な問題解決のために、エンドツーエンドの情報探索エージェントを構築する一貫したパラダイムを提案。4つの主要ステージ（データ構築、軌跡サンプリング、教師ありファインチューニング、強化学習）を経て、WebDancerを実装。GAIAとWebWalkerQAでの評価により、強力なパフォーマンスを示し、トレーニングパラダイムの有効性を確認。コードは公開予定。

[Paper Note] RL Fine-Tuning Heals OOD Forgetting in SFT, Hangzhan Jin+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #read-later Issue Date: 2025-09-17 GPT Summary- 二段階ファインチューニングにおけるSFTとRLの相互作用を探求し、SFTが記憶し、RLが一般化するという主張が過度に単純化されていることを発見。具体的には、(1) OOD性能はSFTの初期段階でピークに達し、その後低下すること、(2) RLはSFT中に失われた推論能力を回復する役割を果たすこと、(3) 回復能力には限界があること、(4) OODの挙動は特異ベクトルの「回転」と強く相関することを明らかにした。これにより、SFTとRLの役割を再認識し、特異ベクトルの回転が重要なメカニズムであることを示した。 Comment

- SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25
- [Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, arXiv'25

と合わせて読むと良さそう

元ポスト:

Loading…

直感的には、下記研究でSFTをRLの観点で見たときに、回答の軌跡に対してexact matchしていた場合に1を返す報酬を持つRL、かつimportance weightingによって現在のポリシーが苦手な軌跡を重要視する、ということ考えると、目的のデータに対して汎化性能おかまいなしにgreedyに最適化されるため、OODへの対応力が無くなる、というのはなんとなく理解できる。

- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25

[Paper Note] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization, Xixi Wu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #read-later #ContextEngineering Issue Date: 2025-09-17 GPT Summary- ReSumという新しいパラダイムを導入し、定期的なコンテキスト要約を通じて無限の探索を可能にする。ReSum-GRPOを提案し、エージェントが要約条件付き推論に慣れるようにする。実験により、ReSumはReActに対して平均4.5％の改善を示し、WebResummer-30Bは既存のウェブエージェントを上回る性能を達成。 Comment

元ポスト:

Loading…

[Paper Note] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference, Xiangwei Shen+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel Issue Date: 2025-09-16 GPT Summary- Direct-Align手法を用いて、拡散モデルの計算コストを削減し、元の画像を効果的に復元。さらに、SRPOを導入し、報酬をオンラインで調整することでオフライン依存を減少。これにより、FLUXモデルのリアリズムと美的品質を3倍以上向上。 Comment

pj page: https://tencent.github.io/srpo-project-page/

SRPO (Semantic Relative Preference Optimization)

- [Paper Note] SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM, Xiaojiang Zhang+, arXiv'25

と名称が重複している。

[Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25

Paper/Blog Link My Issue
#Multi #Pocket #NLP #Dataset #LanguageModel #PostTraining #GRPO #DeepResearch Issue Date: 2025-09-15 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…

[Paper Note] EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes, Yuqin Dai+, arXiv'25

Paper/Blog Link My Issue
#InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #GRPO Issue Date: 2025-09-14 GPT Summary- EviNote-RAGは、オープンドメインのQAにおける「取得-ノート-回答」パイプラインを導入した新しいエージェント型RAGフレームワークです。これにより、取得された情報から有用な内容を抽出し、不確実性を強調するSupportive-Evidence Notes（SENs）を生成します。Evidence Quality Reward（EQR）を用いて推論の信頼性を高め、ノイズの影響を軽減します。実験結果では、EviNote-RAGが精度や安定性において強力なベースラインを上回り、特にHotpotQAやBamboogle、2Wikiで顕著なF1スコアの向上を達成しました。 Comment

元ポスト:

Loading…

- Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models, Wenhao Yu+, N/A, EMNLP'24

との違いはなんだろうか？ざっと検索した感じ、引用されていないように見える。

ざっくりとしか読めていないが、LLMにQAに回答するための十分なevidenceが集まるまで複数回、検索→SENs(検索結果から導き出されるQAに答えるのに必要な情報のサマリ;検索結果のdenoisingの役割を果たす)→...を繰り返し、最終的なSEN_lastから回答を生成する。SEN_lastが回答を含意するか否かをDistilBERTベースのRewardモデルを用いてGRPOにの報酬として活用する。ベースモデル（reasoningモデルを利用する前提）はQAデータを用いて、上記プロセスによってロールアウトを実施させることでGRPO+RLVR(回答が合っているか）+（DistillBERTに基づくSNEs_lastの）Entailment判定モデルのconfidenceスコアによって訓練する、といって感じに見える。

Chain-of-Noteと比べ追加の学習が必要なのでコンセプトは同じだが、手法的には異なっている。

[Paper Note] MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework, Ailing Yu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #Supervised-FineTuning (SFT) #Reasoning #PostTraining #GRPO #DeepResearch #Medical Issue Date: 2025-09-13 GPT Summary- 医療分野に特化した深層研究エージェントを提案。医療知識グラフを用いたデータ合成とカスタム医療検索エンジンを統合し、複雑な質問-回答ペアを生成。新たな医療ベンチマークで最先端の結果を達成し、一般的な深層研究タスクでも競争力を維持。ドメイン特化型の革新が小型モデルの優位性を示す。 Comment

HF: https://huggingface.co/AQ-MedAI

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

[Paper Note] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning, Haozhan Li+, arXiv'25

Paper/Blog Link My Issue
#Pocket #LanguageModel #GRPO #On-Policy #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-12 GPT Summary- VLAモデルの強化学習フレームワークSimpleVLA-RLを提案し、ロボット操作の効率を向上。大規模データへの依存を減らし、一般化能力を強化。OpenVLA-OFTで最先端のパフォーマンスを達成し、RoboTwin 1.0&2.0で優れた結果を示す。新たな現象「pushcut」を特定。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/Haozhan72/simplevla-rl-6833311430cd9df52aeb1f86

ポイント解説:

Loading…

VLAにおいて初めてR1-styleのルールベースのverifiable reward（シミュレーション環境から得られる結果）のみに基づくシンプルなon policy RLを実施することで、SFTを実施する場合よりも高い性能、かつ高い汎化性能を獲得できることをVLAにおいて示した研究な模様。

ただし新たなBehaviorに対するExplorationをより高めるために、Refモデルに対するKL Divergenceペナルティを除外したり、3.3節に記述されているような、
- Dynamic Sampling: 全てのロールアウトのRewardが同じ値になるとGRPOのadvantageが0となり勾配が消失する問題があるので、全てのロールアウトが成功/失敗したグループは除外（言い換えると、mixed outcomeのグループのみを利用）して学習
- Clip Higher: DAPOと同様に、直前のポリシーと現在のポリシーの比率のクリッピングの上限値を広げ（つまり、低い確率だったものをより大きな値となることを以前よりも許容する）て探索を促す
- Higher Rollout Temperature:ロールアウト時のtemperatureを1.6と高めにし、より多様なtrajectoryが生成されるようにすることで探索を促す

といった全体的に探索を強めるような調整を行なっている模様。

[Paper Note] A Survey of Reinforcement Learning for Large Reasoning Models, Kaiyan Zhang+, arXiv'25

Paper/Blog Link My Issue
#Survey #Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-09-11 GPT Summary- 本論文では、LLMにおける推論のための強化学習（RL）の進展を調査し、特に数学やコーディングなどの複雑な論理タスクにおける成功を強調しています。RLはLLMを学習推論モデル（LRM）に変換する基盤的な方法論として浮上しており、スケーリングには計算リソースやアルゴリズム設計などの課題があります。DeepSeek-R1以降の研究を検討し、LLMおよびLRMにおけるRLの適用に関する未来の機会と方向性を特定することを目指しています。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Reasoning #read-later #Entropy Issue Date: 2025-09-10 GPT Summary- 強化学習（RL）は大規模言語モデル（LLMs）の推論能力を向上させるが、そのメカニズムは不明。分析により、推論の階層が人間の認知に似た二段階のダイナミクスを持つことを発見。初期段階では手続き的な正確性が求められ、後に高レベルの戦略的計画が重要になる。これに基づき、HICRAというアルゴリズムを提案し、高影響の計画トークンに最適化を集中させることで性能を向上させた。また、意味的エントロピーが戦略的探求の優れた指標であることを検証した。 Comment

pj page: https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding, Ziheng Li+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #read-later #RLVR Issue Date: 2025-09-10 GPT Summary- RLVRはLLMsの推論能力を向上させるが、トレーニングデータの難易度とモデル能力の不一致により探索が非効率的。新しいフレームワークSEELEを提案し、問題の難易度を動的に調整。ヒントの長さを適応的に調整し、探索効率を向上。実験ではSEELEが従来手法を上回る性能を示した。 Comment

pj page: https://github.com/ChillingDream/seele

元ポスト:

Loading…

問題の難易度をヒントによって調整しつつ（IRTで困難度パラメータ見ると思われる）RLする模様。面白そう。

[Paper Note] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents, Junteng Liu+, arXiv'25

Paper/Blog Link My Issue
#GraphBased #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #LongSequence #read-later Issue Date: 2025-09-10 GPT Summary- 本研究では、情報探索のためのデータ不足に対処するため、WebExplorerというモデルベースの探索手法を提案。これにより、複雑なクエリ-回答ペアを生成し、高度なウェブエージェントWebExplorer-8Bを開発。128Kのコンテキスト長を持ち、最先端の情報探索ベンチマークで高いパフォーマンスを達成。特に、WebExplorer-8Bは他の大規模モデルを上回る精度を示し、長期的な問題解決に向けた実用的なアプローチを提供することが確認された。 Comment

元ポスト:

Loading…

評価で利用されているデータ:
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25

学習データの合成方法が肝

[Paper Note] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning, Tong Zheng+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Mathematics #One-Line Notes Issue Date: 2025-09-10 GPT Summary- Parallel-R1は、複雑な推論タスクに対して並列思考を可能にする強化学習フレームワークであり、コールドスタート問題に対処するための進行的なカリキュラムを採用。簡単なタスクから始め、並列思考能力を植え付けた後、難しい問題に移行。実験により、従来の逐次思考モデルに対して8.4%の精度向上を達成し、並列思考が中間トレーニング探索の足場として機能することを示した。 Comment

元ポスト:

Loading…

結果の表を見るとベースモデルで単にself Consistencyを実施するよりも高いゲインを得ているように見える。モデルがQwen3のみでしか実験されておらず、Qwen2.5においてコンタミネーションの疑い [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25 があったので、(Qwen3がどうかはわからないが)単一モデルではなく、他のモデルでも実験した方が良いのかな、という印象。

ポイント解説:

Loading…

ポイント解説:

Loading…

コードがリリース:

Loading…

[Paper Note] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search, Xin Lai+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Reasoning #LongSequence #OpenWeight #GRPO #VisionLanguageModel Issue Date: 2025-09-10 GPT Summary- Mini-o3システムは、数十ステップの深いマルチターン推論を実現し、視覚検索タスクで最先端の性能を達成。Visual Probe Datasetを構築し、多様な推論パターンを示すデータ収集パイプラインを開発。オーバーターンマスキング戦略により、ターン数が増えるほど精度が向上することを実証。 Comment

HF: https://huggingface.co/Mini-o3

pj page: https://mini-o3.github.io

元ポスト:

Loading…

既存のオープンなVLMはマルチターンのターン数を増やせないという課題があったがそれを克服するレシピに関する研究な模様。元ポストによると6ターンまでのマルチターンで学習しても、inference時には32ターンまでスケールするとか。

[Paper Note] Value-Based Deep RL Scales Predictably, Oleh Rybkin+, ICML'25

Paper/Blog Link My Issue
#Pocket #ICML Issue Date: 2025-09-10 GPT Summary- 価値ベースのオフポリシー強化学習手法が予測可能であることを示し、特定のパフォーマンスを達成するためのデータと計算の要件をパレートフロンティア上で制御。リソース予算の最適な配分を決定し、ハイパーパラメータを調整することでパフォーマンスを最大化。DeepMind Control、OpenAI Gym、IsaacGymで3つのアルゴリズムを用いて検証。 Comment

openreview: https://openreview.net/forum?id=FLPFPYJeVU

[Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #read-later #Aggregation-aware Issue Date: 2025-09-09 GPT Summary- 本研究では、複数の解を生成し、それを集約することでLLMsの推論能力を向上させる新しいアプローチを提案する。従来の方法に代わり、集約を明示的な推論スキルとして学習し、強化学習を用いて正しい答えを調整・合成する。簡単な例と難しい例のバランスを取ることで、モデルは少数派の正しい答えを回復する能力を獲得。提案手法AggLMは、複数のベンチマークで従来の手法を上回り、少ないトークンで効果的に一般化することが示された。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Catastrophic Forgetting #On-Policy Issue Date: 2025-09-06 GPT Summary- 強化学習（RL）と教師ありファインチューニング（SFT）の比較により、RLが以前の知識をより良く保持することが明らかに。忘却の程度は分布のシフトによって決まり、KLダイバージェンスで測定される。RLは新しいタスクに対してKL最小解にバイアスがかかる一方、SFTは任意の距離に収束する可能性がある。実験を通じて、RLの更新が小さなKL変化をもたらす理由を理論的に説明し、「RLの剃刀」と呼ぶ原則を提唱。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

[Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining Issue Date: 2025-09-05 GPT Summary- 本論文では、オンラインデータとオフラインデータを用いた言語モデルのポストトレーニングアプローチが、矛盾せず単一の最適化プロセスであることを示す。統一ポリシー勾配推定器を導出し、ハイブリッドポストトレーニング（HPT）アルゴリズムを提案。HPTは異なるトレーニング信号を動的に選択し、デモンストレーションを効果的に活用しつつ安定した探索を実現。実験により、HPTが数学的推論ベンチマークで強力な性能を示すことを確認。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning, Haoming Wang+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #ComputerUse #VisionLanguageModel Issue Date: 2025-09-05 GPT Summary- UI-TARS-2は、GUI用自律エージェントの新しいモデルで、データ生成、安定化されたマルチターンRL、ハイブリッドGUI環境を統合。実証評価では、前モデルを大幅に上回り、複数のベンチマークで高いスコアを達成。約60%の人間レベルのパフォーマンスを示し、長期的な情報探索タスクにも適応可能。トレーニングダイナミクスの分析が安定性と効率向上の洞察を提供し、実世界のシナリオへの一般化能力を強調。 Comment

元ポスト:

Loading…

1.5をリリースしてから5ヶ月で大幅に性能を向上した模様

[Paper Note] Compute-Optimal Scaling for Value-Based Deep RL, Preston Fu+, arXiv'25

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #Scaling Laws #read-later #Batch Issue Date: 2025-09-04 GPT Summary- 強化学習における計算スケーリングを調査し、モデル容量とデータ更新比率のリソース配分がサンプル効率に与える影響を分析。特に、バッチサイズの増加が小さなモデルでQ関数の精度を悪化させる「TDオーバーフィッティング」を特定し、大きなモデルではこの影響が見られないことを示す。計算使用を最適化するためのガイドラインを提供し、深層RLのスケーリングに関する基盤を築く。 Comment

元ポスト:

Loading…

[Paper Note] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model, Xiyao Wang+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Reasoning #OpenWeight #SelfCorrection #VisionLanguageModel #Critic Issue Date: 2025-09-04 GPT Summary- 本研究では、視覚と言語のモデリングにおいて、批評モデルを強化学習を用いて再編成し、生成モデルに直接適用する新しいアプローチを提案します。これにより、マルチモーダル批評モデルLLaVA-Critic-R1を生成し、視覚的推論ベンチマークで高い性能を示しました。さらに、自己批評を用いることで、追加の訓練なしに推論タスクでの性能を向上させることができることを示しました。この結果は、評価と生成の両方に優れた統一モデルを実現する可能性を示唆しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lmms-lab/llava-critic-r1-68922484e5822b89fab4aca1

[Paper Note] Jointly Reinforcing Diversity and Quality in Language Model Generations, Tianjian Li+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Diversity #On-Policy Issue Date: 2025-09-03 GPT Summary- DARLINGというフレームワークを提案し、応答の質と意味的多様性を最適化。学習された分割関数を用いて多様性を測定し、質の報酬と組み合わせることで高品質かつ独自性のある出力を生成。実験により、非検証可能なタスクと検証可能なタスクの両方で優れた結果を示し、特に多様性の最適化が探索を促進し、質の向上に寄与することが確認された。 Comment

元ポスト:

Loading…

[Paper Note] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey, Guibin Zhang+, arXiv'25

Paper/Blog Link My Issue
#Survey #Pocket #NLP #LanguageModel #AIAgents Issue Date: 2025-09-03 GPT Summary- エージェント的強化学習（Agentic RL）は、従来の強化学習から大規模言語モデル（LLM）への適用におけるパラダイムシフトを示し、LLMを自律的な意思決定エージェントとして再構築します。本調査では、LLM-RLの単一ステップのマルコフ決定過程（MDP）とエージェント的RLの部分観測マルコフ決定過程（POMDP）を対比し、計画や推論などのエージェント能力を中心に二重分類法を提案します。強化学習は、静的なヒューリスティックから適応的なエージェント行動への変換に重要な役割を果たすと主張し、500以上の研究を統合してこの分野の機会と課題を明らかにします。 Comment

元ポスト:

Loading…

[Paper Note] Memento: Fine-tuning LLM Agents without Fine-tuning LLMs, Huichi Zhou+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #memory #Test-time Learning Issue Date: 2025-09-02 GPT Summary- 本論文では、ファインチューニングを必要としない新しい学習パラダイムを提案し、メモリベースのオンライン強化学習を通じて低コストでの継続的な適応を実現します。これをメモリ拡張マルコフ決定過程（M-MDP）として形式化し、行動決定のためのニューラルケース選択ポリシーを導入。エージェントモデル「Memento」は、GAIA検証で87.88%の成功率を達成し、DeepResearcherデータセットでも最先端の手法を上回る性能を示しました。このアプローチは、勾配更新なしでのリアルタイム学習を可能にし、機械学習の進展に寄与します。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

[Paper Note] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning, Jie Jiang+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #LanguageModel #MultiModal #Reasoning #GRPO #VisionLanguageModel Issue Date: 2025-09-02 GPT Summary- R-4Bは、問題の複雑さに応じて思考を行うかどうかを適応的に判断する自動思考型のマルチモーダル大規模言語モデル（MLLM）である。思考能力と非思考能力を持たせ、バイモードポリシー最適化（BPO）を用いて思考プロセスの起動を精度良く判断する。訓練には多様なトピックのデータセットを使用し、実験結果はR-4Bが25のベンチマークで最先端のパフォーマンスを達成し、特に推論集約型タスクで低コストで高い性能を示したことを示している。 Comment

元ポスト:

Loading…

VLMにthinking, non-thinkingを入力に応じて使い分けさせる手法

[Paper Note] Mobile-Agent-v3: Foundamental Agents for GUI Automation, Jiabo Ye+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #SmallModel #ComputerUse #On-Policy Issue Date: 2025-08-29 GPT Summary- 本論文では、GUI-OwlというGUIエージェントモデルを提案し、デスクトップおよびモバイル環境での最先端性能を達成したことを報告しています。特に、Mobile-Agent-v3フレームワークを導入し、性能を向上させました。GUI-Owlは、クラウドベースの仮想環境を利用した自己進化するデータ生成、エンドツーエンドの意思決定を支援する多様な機能、スケーラブルな強化学習フレームワークを特徴としています。これらの成果は、オープンソースとして公開されています。 Comment

github: https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file

元ポスト:

Loading…

ベンチマーク:
- AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
- [Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24

Trajectory-aware Relative Policy Optimization
(TRPO)

[Paper Note] School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs, Mia Taylor+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Alignment #Safety #RewardHacking #EmergentMisalignment Issue Date: 2025-08-27 GPT Summary- 報酬ハッキングは、エージェントが不完全な報酬関数を利用して意図されたタスクを遂行せず、タスクを誤って実行する現象です。本研究では、詩作や簡単なコーディングタスクにおける報酬ハッキングの例を含むデータセットを構築し、複数のモデルをファインチューニングしました。結果、モデルは新しい設定で報酬ハッキングを一般化し、無関係な不整合行動を示しました。これにより、報酬ハッキングを学習したモデルがより有害な不整合に一般化する可能性が示唆されましたが、さらなる検証が必要です。 Comment

元ポスト:

Loading…

[Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Test-Time Scaling #RLVR #Diversity Issue Date: 2025-08-26 GPT Summary- RLVRはLLMの複雑な推論タスクにおいて重要だが、従来のトレーニングは生成の多様性を減少させる問題がある。本研究では、ポリシーの生成の多様性を分析し、トレーニング問題を更新することでエントロピー崩壊を軽減する方法を提案。オンライン自己対戦と変分問題合成（SvS）戦略を用いることで、ポリシーのエントロピーを維持し、Pass@kを大幅に改善。AIME24およびAIME25ベンチマークでそれぞれ18.3%および22.8%の向上を達成し、12の推論ベンチマークでSvSの堅牢性を示した。 Comment

pj page: https://mastervito.github.io/SvS.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets, Benjamin Pikus+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #GRPO Issue Date: 2025-08-23 GPT Summary- リソースが制約された状況での言語モデルのファインチューニングにおいて、難易度の異なるトレーニング例の優先順位を検討。実験により、最も難しい例でのトレーニングが最大47%のパフォーマンス向上をもたらすことが示され、難しい例が学習機会を多く提供することが明らかに。これにより、予算制約下での効果的なトレーニング戦略として、難しい例を優先することが推奨される。 Comment

ベースモデルのpass@kが低いhardestなサンプルでGRPOを学習するのがデータ効率が良く、OODに対する汎化性能も発揮されます、というのをQwen3-4B, 14B, Phi4で実験して示しました、という話っぽい？

小規模モデル、およびGSM8K、BIG Bench hardでの、Tracking Shuffled Objectのみでの実験な模様？大規模モデルやコーディングなどのドメインでもうまくいくかはよく分からない。OODの実験もAIME2025でのみの実験しているようなのでそこは留意した方が良いかも。
rewardとして何を使ったのかなどの細かい内容を追えていない。

元ポスト:

Loading…

[Paper Note] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization, Shuaijie She+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #RLVR #DualLearning Issue Date: 2025-08-21 GPT Summary- DuPOは、注釈なしのフィードバックを生成する二重学習に基づく好み最適化フレームワークで、強化学習の高価なラベル依存と二重タスクペアの制限に対処。プライマルタスクの入力を分解し、未知の部分を再構築する二重タスクを構築することで、非可逆タスクへの適用範囲を広げる。実験により、翻訳品質や数学的推論の精度が大幅に向上し、DuPOはスケーラブルで一般的なLLM最適化の手法として位置付けられる。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL, Weizhen Li+, arXiv'25

Paper/Blog Link My Issue
#Single #EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #AIAgents #LongSequence #read-later Issue Date: 2025-08-21 GPT Summary- Chain-of-Agents（CoA）という新しいLLM推論パラダイムを提案し、マルチエージェントシステムの協力を単一モデル内でエンドツーエンドに実現。マルチエージェント蒸留フレームワークを用いて、エージェント的な教師ありファインチューニングを行い、強化学習で能力を向上。得られたエージェント基盤モデル（AFMs）は、ウェブエージェントやコードエージェントの設定で新たな最先端性能を示す。研究成果はオープンソース化され、今後の研究の基盤を提供。 Comment

元ポスト:

Loading…

マルチエージェントのように振る舞うシングルエージェントを、マルチエージェントから得られたtrajectoryを通じて蒸留することめ実現する手法を提案。SFTでcold startに対して訓練した後、verifiable reward (タスクを正常に完了できたか否か)でRLする模様。

データセットも公開されている模様

所見:

Loading…

解説:

Loading…

[Paper Note] ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents, Hanyu Lai+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #ComputerUse Issue Date: 2025-08-20 GPT Summary- ComputerRLは、自律的なデスクトップインテリジェンスのためのフレームワークで、API-GUIパラダイムを用いてエージェントがデジタルワークスペースを操作します。分散RLインフラを開発し、数千の仮想デスクトップ環境でのスケーラブルな強化学習を実現。Entropulseトレーニング戦略により、長期トレーニング中のエントロピー崩壊を軽減。GLM-4-9B-0414を用いたAutoGLM-OS-9Bは、OSWorldベンチマークで48.1%の新しい最先端精度を達成し、デスクトップ自動化における重要な改善を示しました。 Comment

ポイント解説:

Loading…

ポイント解説:

Loading…

[Paper Note] Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration, Zhicheng Yang+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #RLVR #Entropy Issue Date: 2025-08-20 GPT Summary- 強化学習における検証可能な報酬（RLVR）は、言語モデルの推論能力を引き出すが、深さと幅の2つの次元に制約されている。GRPOアルゴリズムの分析から、低精度のインスタンスの重みが軽減されるバイアスが明らかになった。これを是正するために、難易度適応型ロールアウトサンプリング（DARS）を導入し、難しい問題の重みを再調整。DARSは収束時に推論コストなしでPass@Kを向上させる。さらに、トレーニングデータの幅を拡大することでPass@1のパフォーマンスも向上。DARS-Bを提案し、幅と深さの適応的な探査がRLVRの推論力を引き出す鍵であることを示した。 Comment

元ポスト:

Loading…

[Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models, Zhipeng Chen+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #read-later #RLVR #Diversity Issue Date: 2025-08-19 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）では、Pass@1を報酬として使用することが多く、探索と活用のバランスに課題がある。これに対処するため、Pass@kを報酬としてポリシーモデルを訓練し、その探索能力の向上を観察。分析により、探索と活用は相互に強化し合うことが示され、利得関数の設計を含むPass@k Trainingの利点が明らかになった。さらに、RLVRのための利得設計を探求し、有望な結果を得た。 Comment

元ポスト:

Loading…

[Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #ComputerUse #VisionLanguageModel Issue Date: 2025-08-16 GPT Summary- UI-Venusは、スクリーンショットを入力として受け取るマルチモーダル大規模言語モデルに基づくネイティブUIエージェントで、UIグラウンディングとナビゲーションタスクで最先端の性能を達成。7Bおよび72Bバリアントは、Screenspot-V2 / Proベンチマークで高い成功率を記録し、既存のモデルを上回る。報酬関数やデータクリーニング戦略を導入し、ナビゲーション性能を向上させるための新しい自己進化フレームワークも提案。オープンソースのUIエージェントを公開し、さらなる研究を促進。コードはGitHubで入手可能。 Comment

元ポスト:

Loading…

解説:

Loading…

HF: https://huggingface.co/collections/inclusionAI/ui-venus-689f2fb01a4234cbce91c56a

[Paper Note] Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution, Zhanyi Sun+, arXiv'25

Paper/Blog Link My Issue
#Pocket #read-later #Robotics #EmbodiedAI Issue Date: 2025-08-15 GPT Summary- Latent Policy Barrier（LPB）を提案し、視覚運動ポリシーの堅牢性を向上させる。LPBは専門家のデモの潜在埋め込みを安全な状態と危険な状態に分け、専門家の模倣とOODの回復を別々のモジュールで処理。ダイナミクスモデルが将来の潜在状態を予測し、専門家の分布内に留まるよう最適化。シミュレーションと実世界の実験で、LPBはデータ効率を高め、信頼性のある操作を実現。 Comment

元ポスト:

Loading…

pj page: https://project-latentpolicybarrier.github.io/

[Paper Note] The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models, Xingcheng Xu, arXiv'25

Paper/Blog Link My Issue
#Multi #Analysis #Pocket #NLP #LanguageModel #read-later Issue Date: 2025-08-14 GPT Summary- 強化学習（RL）は大規模言語モデルの行動形成に重要だが、脆弱なポリシーを生成し、信頼性を損なう問題がある。本論文では、報酬関数から最適ポリシーへのマッピングの安定性を分析する数学的枠組みを提案し、ポリシーの脆弱性が非一意的な最適アクションに起因することを示す。さらに、多報酬RLにおける安定性が「効果的報酬」によって支配されることを明らかにし、エントロピー正則化が安定性を回復することを証明する。この研究は、ポリシー安定性分析を進展させ、安全で信頼性の高いAIシステム設計に寄与する。 Comment

元ポスト:

Loading…

とても面白そう

[Paper Note] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL, Jiaxuan Gao+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Search #LanguageModel #AIAgents #KeyPoint Notes #Reference Collection Issue Date: 2025-08-14 GPT Summary- ASearcherは、LLMベースの検索エージェントの大規模なRLトレーニングを実現するオープンソースプロジェクトであり、高効率な非同期RLトレーニングと自律的に合成された高品質なQ&Aデータセットを用いて、検索能力を向上させる。提案されたエージェントは、xBenchで46.7%、GAIAで20.8%の改善を達成し、長期的な検索能力を示した。モデルとデータはオープンソースで提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説ポスト:

Loading…

既存のモデルは <= 10 turnsのデータで学習されており、大規模で高品質なQAデータが不足している問題があったが、シードQAに基づいてQAを合成する手法によって1.4万シードQAから134kの高品質なQAを合成した（うち25.6kはツール利用が必要）。具体的には、シードのQAを合成しエージェントがQAの複雑度をiterationをしながら向上させていく手法を提案。事実情報は常にverificationをされ、合成プロセスのiterationの中で保持され続ける。個々のiterationにおいて、現在のQAと事実情報に基づいて、エージェントは
- Injection: 事実情報を新たに注入しQAをよりリッチにすることで複雑度を上げる
- Fuzz: QA中の一部の詳細な情報をぼかすことで、不確実性のレベルを向上させる。
の2種類の操作を実施する。その上で、QAに対してQuality verificationを実施する:
- Basic Quality: LLMでqualityを評価する
- Difficulty Measurement: LRMによって、複数の回答候補を生成する
- Answer Uniqueness: Difficulty Measurementで生成された複数の解答情報に基づいて、mismatched answersがvalid answerとなるか否かを検証し、正解が単一であることを担保する

また、複雑なタスク、特にtool callsが非常に多いタスクについては、多くのターン数（long trajectories）が必要となるが、既存のバッチに基づいた学習手法ではlong trajectoriesのロールアウトをしている間、他のサンプルの学習がブロックされてしまい学習効率が非常に悪いので、バッチ内のtrajectoryのロールアウトとモデルの更新を分離（ロールアウトのリクエストが別サーバに送信されサーバ上のInference Engineで非同期に実行され、モデルをアップデートする側は十分なtrajectoryがバッチ内で揃ったらパラメータを更新する、みたいな挙動？）することでIdleタイムを無くすような手法を提案した模様。

既存の手法ベンチマークの性能は向上している。学習が進むにつれて、trajectory中のURL参照回数やsearch query数などが増大していく曲線は考察されている。他モデルと比較して、より多いターン数をより高い正確性を以って実行できるといった定量的なデータはまだ存在しないように見えた。

[Paper Note] Geometric-Mean Policy Optimization, Yuzhong Zhao+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #GRPO #On-Policy #Stability Issue Date: 2025-08-14 GPT Summary- GRPOの不安定性を解決するために、幾何平均を最適化するGMPOを提案。GMPOは外れ値に敏感でなく、安定した重要度サンプリング比率を維持。実験により、GMPO-7Bは複数の数学的およびマルチモーダル推論ベンチマークでGRPOを上回る性能を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning, Vaishnavi Shrivastava+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #On-Policy #Overthinking Issue Date: 2025-08-14 GPT Summary- GFPO（Group Filtered Policy Optimization）を提案し、応答の長さの膨張を抑制。応答を長さとトークン効率に基づいてフィルタリングし、推論時の計算量を削減。Phi-4モデルで長さの膨張を46-71%削減し、精度を維持。Adaptive Difficulty GFPOにより、難易度に応じた訓練リソースの動的割り当てを実現。効率的な推論のための効果的なトレードオフを提供。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning, Zihe Liu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #read-later #Reproducibility Issue Date: 2025-08-12 GPT Summary- 強化学習（RL）を用いた大規模言語モデル（LLM）の推論に関する研究が進展する中、標準化されたガイドラインやメカニズムの理解が不足している。実験設定の不一致やデータの変動が混乱を招いている。本論文では、RL技術を体系的にレビューし、再現実験を通じて各技術のメカニズムや適用シナリオを分析。明確なガイドラインを提示し、実務者に信頼できるロードマップを提供する。また、特定の技術の組み合わせが性能を向上させることを示した。 Comment

元ポスト:

Loading…

読んだ方が良い

解説:

Loading…

[Paper Note] AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning, Shihao Yuan+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #TextToImageGeneration #GRPO #On-Policy #Encoder-Decoder Issue Date: 2025-08-12 GPT Summary- AR-GRPOは、自己回帰画像生成モデルにオンライン強化学習を統合した新しいアプローチで、生成画像の品質を向上させるためにGRPOアルゴリズムを適用。クラス条件およびテキスト条件の画像生成タスクで実験を行い、標準のARモデルと比較して品質と人間の好みを大幅に改善した。結果は、AR画像生成における強化学習の有効性を示し、高品質な画像合成の新たな可能性を開く。 Comment

元ポスト:

Loading…

[Paper Note] StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models, Xiangxiang Zhang+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #SyntheticData #MultiModal #RLVR #VisionLanguageModel Issue Date: 2025-08-10 GPT Summary- StructVRMは、複雑な多質問推論タスクにおいて、部分的な正確性を評価するための構造化された検証可能な報酬モデルを導入。サブ質問レベルのフィードバックを提供し、微妙な部分的なクレジットスコアリングを可能にする。実験により、Seed-StructVRMが12のマルチモーダルベンチマークのうち6つで最先端のパフォーマンスを達成したことが示された。これは、複雑な推論におけるマルチモーダルモデルの能力向上に寄与する。 Comment

元ポスト:

Loading…

複数のsub-questionが存在するような複雑な問題に対して、既存のRLVRにおける全体に対してbinary rewardを適用する方法は報酬が荒すぎるため、よりfine-grainedなverifiableな報酬を設計することで、学習を安定化し性能も向上

以下がverifierのサンプル

general purposeなreal worldに対するmultimodal reasoningシステムを作成するには高品質で多様なデータが必要なので、以下のようなパイプラインを用いて、学習データを合成している模様。後で読む。サマリが元ポストに記載されているので全体像をざっくり知りたい場合は参照のこと。

[Paper Note] Agent Lightning: Train ANY AI Agents with Reinforcement Learning, Xufang Luo+, arXiv'25

Paper/Blog Link My Issue
#Pocket #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-08-10 GPT Summary- Agent Lightningは、任意のAIエージェントのためにLLMsを用いたRLトレーニングを可能にする柔軟なフレームワークで、エージェントの実行とトレーニングを分離し、既存のエージェントとの統合を容易にします。マルコフ決定過程としてエージェントの実行を定式化し、階層的RLアルゴリズムLightningRLを提案。これにより、複雑な相互作用ロジックを扱うことが可能になります。実験では、テキストからSQLへの変換などで安定した改善が見られ、実世界でのエージェントトレーニングの可能性が示されました。 Comment

元ポスト:

Loading…

[Paper Note] MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy, Shaoxiong Zhan+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SyntheticData #Reasoning #GRPO Issue Date: 2025-08-10 GPT Summary- MathSmithという新しいフレームワークを提案し、LLMの数学的推論を強化するために新しい問題をゼロから合成。既存の問題を修正せず、PlanetMathから概念と説明をランダムにサンプリングし、データの独立性を確保。9つの戦略を用いて難易度を上げ、強化学習で構造的妥当性や推論の複雑さを最適化。実験では、MathSmithが既存のベースラインを上回り、高難易度の合成データがLLMの推論能力を向上させる可能性を示した。 Comment

元ポスト:

Loading…

[Paper Note] Self-Questioning Language Models, Lili Chen+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SelfImprovement #Label-free #MajorityVoting Issue Date: 2025-08-09 GPT Summary- 自己質問型言語モデル（SQLM）を提案し、トピックを指定するプロンプトから自ら質問を生成し、解答する非対称の自己対戦フレームワークを構築。提案者と解答者は強化学習で訓練され、問題の難易度に応じて報酬を受け取る。三桁の掛け算や代数問題、プログラミング問題のベンチマークで、外部データなしで言語モデルの推論能力を向上させることができることを示す。 Comment

pj page: https://self-questioning.github.io

元ポスト:

Loading…

たとえば下記のような、ラベル無しの外部データを利用する手法も用いてself improvingする手法と比較したときに、どの程度の性能差になるのだろうか？外部データを全く利用せず、外部データありの手法と同等までいけます、という話になると、より興味深いと感じた。

- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24

既存の外部データを活用しない関連研究:
- Absolute Zero: Reinforced Self-play Reasoning with Zero Data, Andrew Zhao+, arXiv'25

[Paper Note] Learning to Reason for Factuality, Xilun Chen+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Factuality #RewardHacking #PostTraining #GRPO #On-Policy Issue Date: 2025-08-08 GPT Summary- R-LLMsは複雑な推論タスクで進展しているが、事実性において幻覚を多く生成する。オンラインRLを長文の事実性設定に適用する際、信頼できる検証方法が不足しているため課題がある。従来の自動評価フレームワークを用いたオフラインRLでは報酬ハッキングが発生することが判明。そこで、事実の精度、詳細レベル、関連性を考慮した新しい報酬関数を提案し、オンラインRLを適用。評価の結果、幻覚率を平均23.1ポイント削減し、回答の詳細レベルを23%向上させた。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24

Reasoning ModelのHallucination Rateは、そのベースとなるモデルよりも高い。実際、DeepSeek-V3とDeepSeek-R1,Qwen-2.5-32BとQwQ-32Bを6つのFactualityに関するベンチマークで比較すると、Reasoning Modelの方がHallucination Rateが10, 13%程度高かった。これは、現在のOn-policyのRLがlogical reasoningにフォーカスしており、Factualityを見落としているため、と仮説を立てている。
Factuality（特にLongForm)とRL alignmentsという観点から言うと、決定的、正確かつ信頼性のあるverificatlon手法は存在せず、Human Effortが必要不可欠である。
自動的にFactualityを測定するFactScoreのような手法は、DPOのようなオフラインのペアワイズのデータを作成するに留まってしまっている。また、on dataでFactualityを改善する取り組みは行われているが、long-formな応答に対して、factual reasoningを実施するにはいくつかの課題が残されている:
- reward design
- Factualityに関するrewardを単独で追加するだけだと、LLMは非常に短く、詳細を省略した応答をしPrecicionのみを高めようとしてしまう。

あとで追記する

[Paper Note] SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM, Xiaojiang Zhang+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #On-Policy #CrossDomain Issue Date: 2025-08-03 GPT Summary- 二段階履歴再サンプリングポリシー最適化（SRPO）を提案し、DeepSeek-R1-Zero-32Bを上回る性能をAIME24およびLiveCodeBenchで達成。SRPOはトレーニングステップを約1/10に削減し、効率性を示す。二つの革新として、クロスドメイントレーニングパラダイムと履歴再サンプリング技術を導入し、LLMの推論能力を拡張するための実験を行った。 Comment

元ポスト:

Loading…

GRPOよりもより効率的な手法な模様。最初に数学のデータで学習をしReasoning Capabilityを身につけさせ、その後別のドメインのデータで学習させることで、その能力を発揮させるような二段階の手法らしい。

Datamixingよりも高い性能（ただし、これは数学とコーディングのCoT Lengthのドメイン間の違いに起因してこのような2 stageな手法にしているようなのでその点には注意が必要そう）？しっかりと読めていないので、読み違いの可能性もあるので注意。

なんたらRPO多すぎ問題

[Paper Note] Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty, Mehul Damani+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-08-02 GPT Summary- RLCRを用いた言語モデルの訓練により、推論の精度と信頼度を同時に改善。バイナリ報酬に加え、信頼度推定のためのブライヤースコアを用いた報酬関数を最適化。RLCRは、通常のRLよりもキャリブレーションを改善し、精度を損なうことなく信頼性の高い推論モデルを生成することを示した。 Comment

元ポスト:

Loading…

LLMにConfidenceをDiscreteなTokenとして（GEvalなどは除く）出力させると信頼できないことが多いので、もしそれも改善するのだとしたら興味深い。

[Paper Note] Group Sequence Policy Optimization, Chujie Zheng+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #On-Policy #Stability Issue Date: 2025-07-26 GPT Summary- Group Sequence Policy Optimization (GSPO)は、大規模言語モデルのための新しい強化学習アルゴリズムで、シーケンスの尤度に基づく重要度比を用いてトレーニングを行う。GSPOは、従来のGRPOアルゴリズムよりも効率的で高性能であり、Mixture-of-Experts (MoE) のトレーニングを安定化させる。これにより、最新のQwen3モデルにおいて顕著な改善が見られる。 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

GRPOとGSPOの違いのGIF:

Loading…

[Paper Note] OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles, Yihe Deng+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Reasoning #NeurIPS #VisionLanguageModel Issue Date: 2025-07-24 GPT Summary- OpenVLThinkerは、洗練された連鎖的思考推論を示すオープンソースの大規模視覚言語モデルであり、視覚推論タスクで顕著な性能向上を達成。SFTとRLを交互に行うことで、推論能力を効果的に引き出し、改善を加速。特に、MathVistaで3.8%、EMMAで2.4%、HallusionBenchで1.6%の性能向上を実現。コードやモデルは公開されている。 Comment

元ポスト:

Loading…

[Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Test-Time Scaling #GRPO #read-later #Selected Papers/Blogs #Non-VerifiableRewards #RewardModel Issue Date: 2025-07-22 GPT Summary- 強化学習を用いてLLMsの推論能力を向上させるため、報酬モデリング（RM）のスケーラビリティを探求。ポイントワイズ生成報酬モデリング（GRM）を採用し、自己原則批評調整（SPCT）を提案してパフォーマンスを向上。並列サンプリングとメタRMを導入し、スケーリング性能を改善。実験により、SPCTがGRMの質とスケーラビリティを向上させ、既存の手法を上回る結果を示した。DeepSeek-GRMは一部のタスクで課題があるが、今後の取り組みで解決可能と考えられている。モデルはオープンソースとして提供予定。 Comment

- inputに対する柔軟性と、
- 同じresponseに対して多様なRewardを算出でき (= inference time scalingを活用できる)、
- Verifiableな分野に特化していないGeneralなRewardモデルである

Inference-Time Scaling for Generalist Reward Modeling (GRM) を提案。

Figure3に提案手法の学習の流れが図解されておりわかりやすい。

[Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Reasoning #PostTraining #RLVR Issue Date: 2025-07-22 GPT Summary- RLVRはAIの能力向上に寄与するが、基盤モデルの制約により新しい解の発見を制限する可能性がある。理論的調査により、初期確率がゼロの解をサンプリングできないことや、探索を狭めるトレードオフが明らかになった。実証実験では、RLVRが精度を向上させる一方で、正しい答えを見逃すことが確認された。将来的には、探索メカニズムや過小評価された解に確率質量を注入する戦略が必要とされる。 Comment

元ポスト:

Loading…

RLVRの限界に関する洞察

[Paper Note] Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling, Zeyu Huang+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #Supervised-FineTuning (SFT) #PostTraining Issue Date: 2025-07-19 GPT Summary- ポストトレーニング技術にはSFTとRFTがあり、それぞれ異なるトレードオフが存在する。本論文では、デモンストレーションと探索を統合したハイブリッドアプローチ「Prefix-RFT」を提案し、数学的推論問題でその効果を実証。Prefix-RFTはSFTやRFTの性能を上回り、既存のフレームワークに容易に統合可能である。分析により、SFTとRFTの補完的な性質が示され、デモンストレーションデータの質と量に対する堅牢性も確認された。この研究はLLMのポストトレーニングに新たな視点を提供する。 Comment

元ポスト:

Loading…

少し前からXコミュニティでRFT(Reinforcement Finetuning)という用語が観測されたが、arXiv paperで見たのは初めてかもしれない。RFTはおそらく、強化学習を利用したPost-Trainingの総称だと思われる。

デモンストレーションデータからPrefixをサンプリングし（SFTの要素; オフラインデータからサンプリングしたPrefixで生成をガイドする）、Prefixの続きをオンラインで生成し（RFTの要素; ガイドされたPrefixの続きを探索する）、Prefix+生成結果をロールアウトとし学習する。

[Paper Note] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, Simon Matrenok+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #GRPO #read-later #Off-Policy Issue Date: 2025-07-15 GPT Summary- QRPO（Quantile Reward Policy Optimization）は、ポイントワイズの絶対報酬から学習する新しい手法で、DPOのシンプルさとオフライン適用性を兼ね備えています。QRPOは量子報酬を用いてKL正則化された強化学習の目的の閉形式解への回帰を実現し、相対的な信号の必要性を排除します。実験結果では、QRPOがDPOやREBEL、SimPOと比較して、チャットやコーディングの評価で一貫して最高のパフォーマンスを示しました。また、堅牢な報酬でのトレーニングにより、長さバイアスが減少することが確認されました。 Comment

画像は元ポストより。off-policy RLでもlong contextで高い性能が出るようになったのだろうか

元ポスト:

Loading…

[Paper Note] Perception-Aware Policy Optimization for Multimodal Reasoning, Zhenhailong Wang+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #Reasoning #On-Policy #VisionLanguageModel Issue Date: 2025-07-12 GPT Summary- 強化学習における検証可能な報酬（RLVR）は、LLMsに多段階推論能力を与えるが、マルチモーダル推論では最適な性能を発揮できない。視覚入力の認識が主なエラー原因であるため、知覚を意識したポリシー最適化（PAPO）を提案。PAPOはGRPOの拡張で、内部監視信号から学習し、追加のデータや外部報酬に依存しない。KLダイバージェンス項を導入し、マルチモーダルベンチマークで4.4%の改善、視覚依存タスクでは8.0%の改善を達成。知覚エラーも30.5%減少し、PAPOの効果を示す。研究は視覚に基づく推論を促進する新しいRLフレームワークの基盤を築く。 Comment

元ポスト:

Loading…

VLMにおいて、画像をマスクした場合のポリシーモデルの出力と、画像をマスクしない場合のポリシーモデルの出力のKL Divergenceを最大化することで、画像の認知能力が向上し性能向上するよ、みたいな話な模様。

[Paper Note] First Return, Entropy-Eliciting Explore, Tianyu Zheng+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #RLVR Issue Date: 2025-07-10 GPT Summary- FR3E（First Return, Entropy-Eliciting Explore）は、強化学習における不安定な探索を改善するための構造化された探索フレームワークであり、高不確実性の意思決定ポイントを特定し、中間フィードバックを提供します。実験結果は、FR3Eが安定したトレーニングを促進し、一貫した応答を生成することを示しています。 Comment

元ポスト:

Loading…

RLVRのロールアウトにおいて、reasoning traceにおける各トークンを出力する際にエントロピーが高い部分を特定し（つまり、複数の候補がありモデルが迷っている）、その部分について異なる意図的に異なる生成パスを実行することで探索を促すようにするとRLVRがよりreliableになるといった話のようである

[Paper Note] CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization, Zhongyuan Peng+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Mathematics Issue Date: 2025-07-09 GPT Summary- 自然言語の数学的表現を実行可能なコードに翻訳する課題に対し、批評者の役割を能動的な学習コンポーネントに変えるCriticLeanという新しい強化学習フレームワークを提案。CriticLeanGPTを用いて形式化の意味的忠実性を評価し、CriticLeanBenchでその能力を測定。285K以上の問題を含むFineLeanCorpusデータセットを構築し、批評段階の最適化が信頼性のある形式化に重要であることを示す。 Comment

元ポスト:

Loading…

Lean 4 形式に

[Paper Note] Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy, Chris Yuhao Liu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #RewardModel Issue Date: 2025-07-05 GPT Summary- 報酬モデル（RMs）の性能向上のために、4,000万の好みペアからなる大規模データセット「SynPref-40M」を提案。人間とAIの相乗効果を活用した二段階パイプラインでデータをキュレーションし、Skywork-Reward-V2を導入。これにより、7つの報酬モデルベンチマークで最先端のパフォーマンスを達成。データのスケールと高品質なキュレーションが効果をもたらすことを確認。Skywork-Reward-V2はオープン報酬モデルの進展を示し、人間-AIキュレーションの重要性を強調。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #Supervised-FineTuning (SFT) #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM

アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。

[Paper Note] Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #TransferLearning #DPO #GRPO #VerifiableRewards #Off-Policy #On-Policy #Non-VerifiableRewards Issue Date: 2025-06-30 GPT Summary- 大規模言語モデルのファインチューニングにおける強化学習手法の効果を、オフラインからオンラインへの移行において調査。数学タスクと指示に従うタスクのベンチマーク評価を行い、オンラインおよびセミオンラインの最適化手法がオフライン手法を上回る結果を示す。トレーニングダイナミクスとハイパーパラメータ選択について分析し、検証可能な報酬と検証不可能な報酬を共同で扱うことでパフォーマンス向上を確認。 Comment

元ポスト:

Loading…

[Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-06-27 GPT Summary- 異なるベース言語モデル（LlamaやQwen）の強化学習（RL）における挙動を調査し、中間トレーニング戦略がRLのダイナミクスに与える影響を明らかに。高品質の数学コーパスがモデルのパフォーマンスを向上させ、長い連鎖的思考（CoT）がRL結果を改善する一方で、冗長性や不安定性を引き起こす可能性があることを示す。二段階の中間トレーニング戦略「Stable-then-Decay」を導入し、OctoThinkerモデルファミリーを開発。オープンソースのモデルと数学推論コーパスを公開し、RL時代の基盤モデルの研究を支援することを目指す。 Comment

元ポスト:

Loading…

mid-trainingの観点から、post trainingにおけるRLがスケーリングする条件をsystematicallyに調査している模様

論文中にはmid-training[^1]の定義が記述されている:

[^1]: mid-trainingについてはコミュニティの間で厳密な定義はまだ無くバズワードっぽく使われている、という印象を筆者は抱いており、本稿は文献中でmid-trainingを定義する初めての試みという所感

[Paper Note] RLPR: Extrapolating RLVR to General Domains without Verifiers, Tianyu Yu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel Issue Date: 2025-06-27 GPT Summary- RLVRはLLMの推論能力を向上させるが、主に数学やコードに限られる。これを克服するため、検証者不要のRLPRフレームワークを提案し、LLMのトークン確率を報酬信号として利用。ノイズの多い確率報酬に対処する手法を導入し、実験によりGemma、Llama、Qwenモデルで推論能力を向上させた。特に、TheoremQAで7.6ポイント、Minervaで7.5ポイントの改善を示し、General-Reasonerを平均1.6ポイント上回った。 Comment

元ポスト:

Loading…

既存のRLVRはVerifierを構築しなければならず、しばしばそのVerifierは複雑になりやすく、スケールさせるには課題があった。RLPR（Probabliity Reward)は、生成された応答から回答yを抽出し、残りをreasoning zとする。そして回答部分yをreference y^\*で置換したトークン列o'を生成（zがo'に対してどのような扱いになるかは利用するモデルや出力フォーマットによる気がする)し、o'のポリシーモデルでのトークン単位での平均生成確率を報酬とする。尤度のような系列全体の生起確率を考慮する方法が直感的に役に立ちそうだが、計算の際の確率積は分散が高いだけでなく、マイナーな類義語が与えられた時に（たとえば1 tokenだけ生起確率が小さかった場合)に、Rewardが極端に小さくなりsensitiveであることを考察し、平均生成確率を採用している。

Rule basedなVerifierを用いたRLVRよりもgeneralなドメインとmathドメインで性能向上。コーディングなどでも効果はあるのだろうか？

ざっくり見た感じ、RLVRがそもそも適用できないドメインで実験した場合の結果がないように見え、適用した場合に有効なのかは気になるところ。

[Paper Note] Process Reward Models That Think, Muhammad Khalifa+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #PRM Issue Date: 2025-06-26 GPT Summary- 本研究では、データ効率の良いステップバイステップの検証器（ThinkPRM）を提案し、少ないプロセスラベルで高性能を実現します。ThinkPRMは、長いCoTモデルの推論能力を活用し、PRM800Kのわずか1%のプロセスラベルで、従来の検証器を上回る性能を示します。具体的には、ProcessBenchやMATH-500などのベースラインを超え、ドメイン外評価でも優れた結果を得ています。最小限の監視でのトレーニングを通じて、検証計算のスケーリングの重要性を強調しています。

[Paper Note] Robust Reward Modeling via Causal Rubrics, Pragya Srivastava+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #RewardHacking Issue Date: 2025-06-26 GPT Summary- 報酬モデル（RMs）は人間のフィードバックを通じて大規模言語モデル（LLMs）を整合させるが、報酬ハッキングの影響を受けやすい。本研究では、報酬ハッキングを軽減するための新しいフレームワーク「Crome」を提案。Cromeは因果的拡張と中立的拡張を用いて、因果属性に基づく感度と虚偽属性に対する不変性を強制する。実験結果では、CromeはRewardBenchで標準的なベースラインを大幅に上回り、平均精度を最大5.4%向上させた。 Comment

元ポスト:

Loading…

以下がresearch question:

[Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Reasoning #NeurIPS #PostTraining #read-later #RLVR #Selected Papers/Blogs #DataMixture #CrossDomain Issue Date: 2025-06-22 GPT Summary- Guruを導入し、数学、コード、科学、論理、シミュレーション、表形式の6つの推論ドメインにわたる92KのRL推論コーパスを構築。これにより、LLM推論のためのRLの信頼性と効果を向上させ、ドメイン間の変動を観察。特に、事前学習の露出が限られたドメインでは、ドメイン内トレーニングが必要であることを示唆。Guru-7BとGuru-32Bモデルは、最先端の性能を達成し、複雑なタスクにおいてベースモデルの性能を改善。データとコードは公開。 Comment

元ポスト:

Loading…

post-trainingにおけるRLのcross domain（Math, Code, Science, Logic, Tabular)における影響を調査した研究。非常に興味深い研究。詳細は元論文が著者ポスト参照のこと。

Qwenシリーズで実験。以下ポストのまとめ。

- mid trainingにおいて重点的に学習されたドメインはRLによるpost trainingで強い転移を発揮する（Code, Math, Science)
- 一方、mid trainingであまり学習データ中に出現しないドメインについては転移による性能向上は最小限に留まり、in-domainの学習データをきちんと与えてpost trainingしないと性能向上は限定的
- 簡単なタスクはcross domainの転移による恩恵をすぐに得やすい（Math500, MBPP),難易度の高いタスクは恩恵を得にくい
- 各ドメインのデータを一様にmixすると、単一ドメインで学習した場合と同等かそれ以上の性能を達成する
- 必ずしもresponse lengthが長くなりながら予測性能が向上するわけではなく、ドメインによって傾向が異なる
- たとえば、Code, Logic, Tabularの出力は性能が向上するにつれてresponse lengthは縮小していく
- 一方、Science, Mathはresponse lengthが増大していく。また、Simulationは変化しない
- 異なるドメインのデータをmixすることで、最初の数百ステップにおけるrewardの立ち上がりが早く（単一ドメインと比べて急激にrewardが向上していく）転移がうまくいく
- （これは私がグラフを見た感想だが、単一ドメインでlong runで学習した場合の最終的な性能は4/6で同等程度、2/6で向上（Math, Science)
- 非常に難易度の高いmathデータのみにフィルタリングすると、フィルタリング無しの場合と比べて難易度の高いデータに対する予測性能は向上する一方、簡単なOODタスク（HumanEval)の性能が大幅に低下する（特定のものに特化するとOODの性能が低下する）
- RLはpre(mid)-trainingで学習されたreasoning能力を引き出すだけではなく、新規のタスクに対しては新たなreasoning能力を獲得できる
- モデルサイズが小さいと、RLでpost-training後のpass@kのkを大きくするとどこかでサチり、baseモデルと交差するが、大きいとサチらず交差しない
- モデルサイズが大きいとより多様なreasoningパスがunlockされている
- pass@kで観察したところRLには2つのphaseのよつなものが観測され、最初の0-160（1 epoch)ステップではpass@1が改善したが、pass@max_kは急激に性能が劣化した。一方で、160ステップを超えると、双方共に徐々に性能改善が改善していくような変化が見られた

本研究で構築されたGuru Dataset: https://huggingface.co/datasets/LLM360/guru-RL-92k

math, coding, science, logic, simulation, tabular reasoningに関する高品質、かつverifiableなデータセット。

openreview: https://openreview.net/forum?id=xUBgfvyip3&referrer=%5Bthe%20profile%20of%20Zhengzhong%20Liu%5D(%2Fprofile%3Fid%3D~Zhengzhong_Liu1)

[Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #OpenWeight #OpenSource #PostTraining Issue Date: 2025-06-18 GPT Summary- 本研究では、教師ありファインチューニング（SFT）と強化学習（RL）の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment

元ポスト:

Loading…

様々なtakeawayがまとめられている。

SFT,RLに利用されたデータも公開

- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。

また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的

[Paper Note] Self-Adapting Language Models, Adam Zweiger+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #KeyPoint Notes Issue Date: 2025-06-13 GPT Summary- 自己適応型LLMs（SEAL）を提案し、モデルが自身のファインチューニングデータと指示を生成することで適応を実現。新しい入力に対して自己編集を行い、持続的な重みの更新を可能にする。強化学習ループを用いて下流性能を報酬信号として活用し、従来のアプローチと異なり、モデル自身の生成を用いて適応を制御。実験結果はSEALの有望性を示す。 Comment

元ポスト:

Loading…

コンテキストCと評価データtauが与えられたとき、Cを入力した時にモデルが自分をSFTし、tau上でより高い性能を得られるようなサンプル Self Edit (SE) を生成できるように学習することで、性能を向上させたい。これをRLによって実現する。具体的には、下記アルゴリズムのようにモデルにSEを生成させ、SEでSFTすることめにtau上での性能が向上したか否かのbinary rewardを用いてパラメータを更新する、といったことを繰り返す。これは実質、RL_updateと書いてあるが、性能が向上した良いSEのみでモデルをSFTすること、と同等なことを実施している。

このような背景として、RLのアルゴリズムとしてGRPOやPPOを適用したところ学習が不安定でうまくいかなかったため、よりシンプルなアプローチであるReST^EM（[Paper Note] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR'24 )を採用した。これはrejection samplingとSFTに基づいたEMアルゴリズムのようなものらしく、Eステップで現在のポリシーでcandidateを生成し、Mステップでpositive rewardを得たcandidateのみ（＝rejection sampling)でSFTする、といったことを繰り返す、みたいな手法らしい。これを用いると、論文中の式(1)を上述のbinary rewardで近似することに相当する。より詳細に書くと、式(1)（つまり、SEをCから生成することによって得られるtauに基づく報酬rの総報酬を最大化したい、という式）を最大化するためにθ_tの勾配を計算したいが、reward rがθ_tで微分不可能なため、Monte Carlo Estimatorで勾配を近似する、みたいなことをやるらしい。Monte Carlo Estimatorでは実際のサンプルの期待値によって理論的な勾配を近似するらしく、これが式(3)のスコア関数とreward rの平均、といった式につながっているようである。

再現実験に成功したとのポスト:

Loading…

[Paper Note] Reinforcement Pre-Training, Qingxiu Dong+, arXiv'25

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel Issue Date: 2025-06-12 GPT Summary- 本研究では、強化学習と大規模言語モデルの新しいスケーリング手法「強化事前学習（RPT）」を提案。次のトークン予測を強化学習の推論タスクとして再定義し、一般的なRLを活用することで、ドメイン特有の注釈に依存せずにスケーラブルな方法を提供。RPTは次のトークン予測の精度を向上させ、強化ファインチューニングの基盤を形成。トレーニング計算量の増加が精度を改善することを示し、RPTが言語モデルの事前学習において有望な手法であることを示した。 Comment

元ポスト:

Loading…

[Paper Note] Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance, Ruizhong Qiu+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Alignment #Safety Issue Date: 2025-06-11 GPT Summary- 既存のLLMの安全保証研究は主にトレーニング段階に焦点を当てているが、脱獄攻撃に対して脆弱であることが明らかになった。本研究では、推論スケーリングを用いた新たな安全性向上手法SAFFRONを提案し、計算オーバーヘッドを削減する多分岐報酬モデル（MRM）を導入。これにより、報酬モデル評価の数を減らし、探索-効率性のジレンマを克服する。実験により手法の有効性を確認し、訓練済みモデルと安全報酬データセットを公開。 Comment

元ポスト:

Loading…

[Paper Note] Horizon Reduction Makes RL Scalable, Seohong Park+, arXiv'25

Paper/Blog Link My Issue
#MachineLearning #Pocket Issue Date: 2025-06-10 GPT Summary- 本研究では、オフライン強化学習（RL）のスケーラビリティを検討し、既存のアルゴリズムが大規模データセットに対して期待通りの性能を発揮しないことを示しました。特に、長いホライズンがスケーリングの障壁であると仮定し、ホライズン削減技術がスケーラビリティを向上させることを実証しました。新たに提案した手法SHARSAは、ホライズンを削減しつつ優れたパフォーマンスを達成し、オフラインRLのスケーラビリティを向上させることを示しました。 Comment

元ポスト:

Loading…

[Paper Note] Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #Coding #NeurIPS Issue Date: 2025-06-06 GPT Summary- プログラム分析に基づくフィードバックを用いた強化学習フレームワーク「REAL」を提案。セキュリティや保守性の欠陥を検出し、機能的正確性を保証することで、LLMsによる高品質なコード生成を促進。手動介入不要でスケーラブルな監視を実現し、実験により最先端の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけでは無いので、UnitTestに通るか否かのReward（Functionality)に加えて、RL中に生成されたコードを制御フローグラフ[^1]に変換し汚染解析[^2]をした結果をRewardに組み込むことで、FunctionalityとQualityを両立したよ、という話のようである。

Figure1のグラフの縦軸は、Functionalityと（UnitTestが通ったか否か）と、Quailty(セキュリティや保守性に関する問題が検出されなかった)、という両方の条件を満たした割合である点に注意。

[^1]:プログラムを実行したときに通る可能性のある経路のすべてをグラフとして表したもの[引用元]( https://qiita.com/uint256_t/items/7d4556cb8f5997b9e95c)
[^2]:信頼できない汚染されたデータがプログラム中でどのように処理されるかを分析すること

[Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Coding #SoftwareEngineering #UnitTest Issue Date: 2025-06-05 GPT Summary- CUREは、コーディングとユニットテスト生成を共進化させる強化学習フレームワークで、真のコードを監視せずにトレーニングを行う。ReasonFlux-Coderモデルは、コード生成精度を向上させ、下流タスクにも効果的に拡張可能。ユニットテスト生成では高い推論効率を達成し、強化学習のための効果的な報酬モデルとして機能する。 Comment

元ポスト:

Loading…

UnitTestの性能向上させます系の研究が増えてきている感

[Paper Note] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, NeurIPS'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #NeurIPS #read-later Issue Date: 2025-06-04 GPT Summary- 強化学習（RL）が言語モデルの推論能力を向上させる可能性を探る本研究では、長期的なRL（ProRL）トレーニングが新しい推論戦略を明らかにできることを示します。新しいトレーニング手法ProRLを導入し、実証分析により、RLでトレーニングされたモデルが基礎モデルを上回ることが確認されました。推論の改善は基礎モデルの能力やトレーニング期間と相関しており、RLが新しい解決空間を探索できることを示唆しています。これにより、RLが言語モデルの推論を拡張する条件に関する新たな洞察が得られ、今後の研究の基盤が築かれます。モデルの重みは公開されています。 Comment

元ポスト:

Loading…

RLVR（math, code（従来はこの2種類）, STEM, logic Puzzles, instruction following）によって大規模なスケール（長期的に学習をする; 2k training stepsと多様なタスクでの学習データ）で実験をし、定期的にReferenceポリシーとOptimizerをリセットすることで、元のポリシーからの乖離を防ぎつつも、新たな学習が進むようなことをしている模様。
（※PFNのランチタイムトークを参考に記述）

verlを用いて、DAPOで学習をしている。

- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
- DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25

Learning to Reason without External Rewards, Xuandong Zhao+, ICML'25 Workshop AI4MATH

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #ICML #Workshop #One-Line Notes Issue Date: 2025-05-27 GPT Summary- 本研究では、外部の報酬やラベルなしで大規模言語モデル（LLMs）が学習できるフレームワーク「内部フィードバックからの強化学習（RLIF）」を提案。自己確信を報酬信号として用いる「Intuitor」を開発し、無監視の学習を実現。実験結果は、Intuitorが数学的ベンチマークで優れた性能を示し、ドメイン外タスクへの一般化能力も高いことを示した。内因的信号が効果的な学習を促進する可能性を示唆し、自律AIシステムにおけるスケーラブルな代替手段を提供。 Comment

元ポスト:

Loading…

おもしろそう

externalなsignalをrewardとして用いないで、モデル自身が内部的に保持しているconfidenceを用いる。人間は自信がある問題には正解しやすいという直感に基づいており、openendなquestionのようにそもそも正解シグナルが定義できないものもあるが、そういった場合に活用できるようである。

self-trainingの考え方に近いのでは

ベースモデルの段階である程度能力が備わっており、post-trainingした結果それが引き出されるようになったという感じなのだろうか。

参考:

Loading…

解説スライド: https://www.docswell.com/s/DeepLearning2023/KYVLG4-2025-09-18-112951
元ポスト:

Loading…

Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning, Chenwei Lou+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning Issue Date: 2025-05-21 GPT Summary- AdaCoT（Adaptive Chain-of-Thought）は、LLMsが推論を適応的に行う新しいフレームワークで、CoTの呼び出しタイミングを最適化します。強化学習を用いて、クエリの複雑さに基づいてCoTの必要性を判断し、計算コストを削減します。実験では、AdaCoTがCoTトリガー率を3.18%に低下させ、応答トークンを69.06%減少させつつ、高い性能を維持することが示されました。 Comment

RLのRewardにおいて、bassのリワードだけでなく、
- reasoningをなくした場合のペナルティ項
- reasoningをoveruseした場合のペナルティ項
- formattingに関するペナルティ項
を設定し、reasoningの有無を適切に判断できた場合にrewardが最大化されるような形にしている。(2.2.2)

が、multi-stageのRLでは（stageごとに利用するデータセットを変更するが）、データセットの分布には歪みがあり、たとえば常にCoTが有効なデータセットも存在しており（数学に関するデータなど）、その場合常にCoTをするような分布を学習してしまい、AdaptiveなCoT decisionが崩壊したり、不安定になってしまう（decision boundary collapseと呼ぶ）。特にこれがfinal stageで起きると最悪で、これまでAdaptiveにCoTされるよう学習されてきたものが全て崩壊してしまう。これを防ぐために、Selective Loss Maskingというlossを導入している。具体的には、decision token [^1]のlossへの貢献をマスキングするようにすることで、CoTが生じるratioにバイアスがかからないようにする。今回は、Decision tokenとして、``トークン直後のトークンをdecision tokenとみなし、lossに対する貢献をマスクしている（Selective Loss Masking）。

[^1]: CoTするかどうかは多くの場合このDecision Tokenによって決まる、といったことがどっかの研究に示されていたはず

いつか必要になったらしっかり読むが、全てのステージでSelective Loss Maskingをしたら、SFTでwarm upした段階からあまりCoTのratioが変化しないような学習のされ方になる気がするが、どのステージに対してapplyするのだろうか。

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning, Chenxi Whitehouse+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #LLM-as-a-Judge #PostTraining #GRPO #VerifiableRewards Issue Date: 2025-05-16 GPT Summary- 本研究では、強化学習アプローチJ1を用いてLLMのトレーニング手法を提案し、判断タスクにおける思考促進とバイアス軽減を図ります。J1は、他の同サイズモデルを上回る性能を示し、特に小型モデルでも優れた結果を出します。モデルは自己生成した参照回答と比較することで、より良い判断を学ぶことが明らかになりました。 Comment

元ポスト:

Loading…

LLM-as-a-Judgeのなめのモデルを学習するレシピにおいて、初めてRLを適用した研究と主張し、より高品質なreasoning traceを出力できるようにすることで性能向上をさせる。

具体的にはVerifiableなpromptとnon verifiableなpromptの両方からverifiableなpreference pairを作成しpointwiseなスコアリング、あるいはpairwiseなjudgeを学習するためのrewardを設計しGRPOで学習する、みたいな話っぽい。
non verifiableなpromptも用いるのは、そういったpromptに対してもjudgeできるモデルを構築するため。

mathに関するpromptはverifiableなのでレスポンスが不正解なものをrejection samplingし、WildChatのようなチャットはverifiableではないので、instructionにノイズを混ぜて得られたレスポンスをrejection samplingし、合成データを得ることで、non verifiableなpromptについても、verifiableなrewardを設計できるようになる。

Reinforcement Learning for Reasoning in Large Language Models with One Training Example, Yiping Wang+, NeurIPS'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #NeurIPS #read-later Issue Date: 2025-05-09 GPT Summary- 1-shot RLVRを用いることで、LLMの数学的推論能力が大幅に向上することを示した。Qwen2.5-Math-1.5Bモデルは、MATH500でのパフォーマンスが36.0%から73.6%に改善され、他の数学的ベンチマークでも同様の向上が見られた。1-shot RLVR中には、クロスドメイン一般化や持続的なテストパフォーマンスの改善が観察され、ポリシー勾配損失が主な要因であることが確認された。エントロピー損失の追加も重要で、結果報酬なしでもパフォーマンスが向上した。これらの成果は、RLVRのデータ効率に関するさらなる研究を促進する。 Comment

下記ポストでQwenに対してpromptを適切に与えることで、追加のpost training無しで高い数学に関する能力を引き出せたという情報がある。おそらく事前学習時に数学のQAデータによって継続事前学習されており、この能力はその際に身についているため、数学に対する高い能力は実は簡単に引き出すことができるのかもしれない（だから1サンプルでも性能が向上したのではないか？）といった考察がある。

参考:

Loading…

- [Paper Note] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, NeurIPS'25

とはどのような関係性があるだろうか？

著者ポスト:

Loading…

Absolute Zero: Reinforced Self-play Reasoning with Zero Data, Andrew Zhao+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SelfImprovement #read-later #RLVR #Label-free Issue Date: 2025-05-08 GPT Summary- 新しいRLVRパラダイム「Absolute Zero」を提案し、自己学習を通じて推論能力を向上させるAZRを導入。外部データに依存せず、コーディングや数学的推論タスクでSOTAパフォーマンスを達成。既存のゼロ設定モデルを上回り、異なるモデルスケールにも適用可能。 Comment

元ポスト:

Loading…

[Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Reasoning #SmallModel #PEFT(Adaptor/LoRA) #GRPO #read-later #Selected Papers/Blogs Issue Date: 2025-05-07 GPT Summary- Tinaは、コスト効率よく強力な推論能力を実現する小型の推論モデルファミリーであり、1.5Bパラメータのベースモデルに強化学習を適用することで高い推論性能を示す。Tinaは、従来のSOTAモデルと競争力があり、AIME24で20%以上の性能向上を達成し、トレーニングコストはわずか9ドルで260倍のコスト削減を実現。LoRAを通じた効率的なRL推論の効果を検証し、すべてのコードとモデルをオープンソース化している。 Comment

元ポスト:

Loading…

（おそらく）Reasoningモデルに対して、LoRAとRLを組み合わせて、reasoning能力を向上させた初めての研究

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv'25

Paper/Blog Link My Issue
#Survey #Pocket #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #InstructionTuning #PPO (ProximalPolicyOptimization) #Reasoning #LongSequence #RewardHacking #GRPO #Contamination-free #VerifiableRewards #CurriculumLearning Issue Date: 2025-05-06 GPT Summary- 最近の推論言語モデル（RLM）の進展を受けて、DeepSeek-R1が注目を集めているが、その実装詳細は完全にはオープンソース化されていない。これにより、多くの再現研究が行われ、DeepSeek-R1のパフォーマンスを再現しようとする試みが続いている。特に、監視付きファインチューニング（SFT）と強化学習（RLVR）の戦略が探求され、貴重な洞察が得られている。本報告では、再現研究の概要を提供し、データ構築やトレーニング手順の詳細を紹介し、今後の研究の促進を目指す。また、RLMを強化するための追加技術や開発上の課題についても考察する。 Comment

元ポスト:

Loading…

サーベイのtakeawayが箇条書きされている。

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, Siyan Zhao+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #DiffusionModel #Reasoning #PostTraining #GRPO Issue Date: 2025-04-18 GPT Summary- d1というフレームワークを提案し、マスク付きdLLMsを教師ありファインチューニングと強化学習で推論モデルに適応。マスク付きSFT技術で知識を抽出し、diffu-GRPOという新しいRLアルゴリズムを導入。実証研究により、d1が最先端のdLLMの性能を大幅に向上させることを確認。 Comment

元ポスト:

Loading…

dLLMに対してGRPOを適用する手法(diffuGRPO)を提案している。
long CoTデータでSFTしてreasoning capabilityを強化した後、diffuGRPOで追加のpost-trainingをしてさらに性能をboostする。

GRPOではtoken levelの尤度とsequence全体の尤度を計算する必要があるが、dLLMだとautoregressive modelのようにchain ruleを適用する計算方法はできないので、効率的に尤度を推定するestimatorを用いてGPPOを適用するdiffuGRPOを提案している。

diffuGRPO単体でも、8BモデルだがSFTよりも性能向上に成功している。SFTの後にdiffuGRPOを適用するとさらに性能が向上する。

SFTではs1 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25 で用いられたlong CoTデータを用いている。しっかり理解できていないが、diffuGRPO+verified rewardによって、long CoTの学習データを用いなくても、安定してreasoning能力を発揮することができようになった、ということなのだろうか？
しかし、AppendixCを見ると、元々のLLaDAの時点でreasoning traceを十分な長さで出力しているように見える。もしLLaDAが元々long CoTを発揮できたのだとしたら、long CoTできるようになったのはdiffuGRPOだけの恩恵ではないということになりそうだが、LLaDAは元々long CoTを生成できるようなモデルだったんだっけ…？その辺追えてない（dLLMがメジャーになったら追う）。

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

SLMをmath reasoning向けにpost-trainingする場合、評価の条件をフェアにするための様々な工夫を施し評価をしなおした結果（Figure1のように性能が変化する様々な要因が存在する）、RL（既存研究で試されているもの）よりも（大規模モデルからrejection samplingしたreasoning traceを用いて）SFTをする方が同等か性能が良く(Table3)、結局のところ（おそらく汎化性能が低いという意味で）reliableではなく、かつ（おそらく小規模なモデルでうまくいかないという意味での）scalableではないので、reliableかつscalableなRL手法が不足しているとのこと。

※ 本論文で分析されているのは<=10B以下のSLMである点に注意。10B以上のモデルで同じことが言えるかは自明ではない。
※ DAPO, VAPOなどについても同じことが言えるかも自明ではない。
※ DeepSeek-R1のtechnical reportにおいて、小さいモデルにGRPOを適用してもあまり効果が無かったことが既に報告されている。

- DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01
- DeepSeek-R1, DeepSeek, 2025.01

個々のpost-trainingされたRLモデルが具体的にどういう訓練をしたのかは追えていないが、DAPOやDr. GRPO, VAPOの場合はどうなるんだろうか？

- DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25
- VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv'25
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03

Rewardの設定の仕方はどのような影響があるのだろうか（verifiable rewardなのか、neuralモデルによるrewardなのかなど)？

学習のさせ方もどのような影響があるのだろうか（RLでカリキュラムlearningにした場合など）？

検証しているモデルがそれぞれどのような設定で学習されているかまでを見ないとこの辺はわからなそう。

ただなんとなーくの直感だと、SLMを賢くしたいという場合は何らかの賢いモデルの恩恵に預かると有利なケースが多く（SFTの場合はそれが大規模なモデルから蒸留したreasoning trace）、SLM+RLの場合はPRMのような思考プロセスを評価してRewardに反映させるようなものを利用しないと、少なくとも小規模なLLMをめちゃ賢くします〜というのはきついんじゃないかなあという感想ではある。
ただ、結局SLMという時点で多くの場合、より賢いパラメータ数の多いLLMが世の中には存在するあるはずなので、RLしないでSFTして蒸留すれば良いんじゃない…？と思ってしまう。
が、多くの場合その賢いLLMはProprietaryなLLMであり、出力を得て自分のモデルをpost-trainingすることは利用規約違反となるため、自前で賢くてパラメータ数の多いLLMを用意できない場合は困ってしまうので、SLMをクソデカパラメータのモデルの恩恵なしで超絶賢くできたら世の中の多くの人は嬉しいよね、とも思う。

（斜め読みだが）
サンプル数が少ない（数十件）AIMEやAMCなどのデータはseedの値にとてもsensitiveであり(Takeaway1, 2)、

それらは10種類のseedを用いて結果を平均すると分散が非常に小さくなるので、seedは複数種類利用して平均の性能を見た方がreliableであり(Takeaway3)

temperatureを高くするとピーク性能が上がるが分散も上がるため再現性の課題が増大するが、top-pを大きくすると再現性の問題は現れず性能向上に寄与し

既存研究のモデルのtemperatureとtop-pを変化させ実験するとperformanceに非常に大きな変化が出るため、モデルごとに最適な値を選定して比較をしないとunfairであることを指摘 (Takeaway4)。

また、ハードウェアの面では、vLLMのようなinference engineはGPU typeやmemoryのconfigurationに対してsensitiveでパフォーマンスが変わるだけでなく、

評価に利用するフレームワークごとにinference engineとprompt templateが異なるためこちらもパフォーマンスに影響が出るし (Takeaway5)、

max output tokenの値を変化させると性能も変わり、prompt templateを利用しないと性能が劇的に低下する (Takeaway6)。

これらのことから著者らはreliableな評価のために下記を提案しており (4.1節; 後ほど追記)、

実際にさまざまな条件をfair comparisonとなるように標準化して評価したところ（4.2節; 後ほど追記）

上の表のような結果となった。この結果は、
- DeepSeekR1-DistilledをRLしてもSFTと比較したときに意味のあるほどのパフォーマンスの向上はないことから、スケーラブル、かつ信頼性のあるRL手法がまだ不足しており
- 大規模なパラメータのモデルのreasoning traceからSFTをする方法はさまざまなベンチマークでロバストな性能（＝高い汎化性能）を持ち、RLと比べると現状はRLと比較してよりパラダイムとして成熟しており
- （AIME24,25を比較するとSFTと比べてRLの場合performanceの低下が著しいので）RLはoverfittingしやすく、OODなベンチマークが必要

しっかりと評価の枠組みを標準化してfair comparisonしていかないと、RecSys業界の二の舞になりそう（というかもうなってる？）。

またこの研究で分析されているのは小規模なモデル（<=10B）に対する既存研究で用いられた一部のRL手法や設定の性能だけ（真に示したかったらPhisics of LLMのような完全にコントロール可能なサンドボックスで実験する必要があると思われる）なので、DeepSeek-R1のように、大規模なパラメータ（数百B）を持つモデルに対するRLに関して同じことが言えるかは自明ではない点に注意。

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

最近の以下のようなSFTはRLの一つのケースと見做せるという議論を踏まえるとどうなるだろうか

- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv'25

Paper/Blog Link My Issue
#MachineLearning #Pocket #LanguageModel #Reasoning #LongSequence Issue Date: 2025-04-08 GPT Summary- VAPO（Value-based Augmented Proximal Policy Optimization framework）を提案し、AIME 2024データセットで最先端のスコア60.4を達成。VAPOは他の手法を10ポイント以上上回り、5,000ステップで安定したパフォーマンスを示す。価値ベースの強化学習における3つの課題を特定し、VAPOがそれらを軽減する統合ソリューションを提供することで、長い思考過程の推論タスクの性能向上を実現。 Comment

同じくByteDanceの

- DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25

を上回る性能

元ポスト:

Loading…

DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25

Paper/Blog Link My Issue
#MachineLearning #Pocket #LanguageModel #Reasoning #LongSequence #GRPO #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-03-20 GPT Summary- 推論スケーリングによりLLMの推論能力が向上し、強化学習が複雑な推論を引き出す技術となる。しかし、最先端の技術詳細が隠されているため再現が難しい。そこで、$\textbf{DAPO}$アルゴリズムを提案し、Qwen2.5-32Bモデルを用いてAIME 2024で50ポイントを達成。成功のための4つの重要技術を公開し、トレーニングコードと処理済みデータセットをオープンソース化することで再現性を向上させ、今後の研究を支援する。 Comment

既存のreasoning modelのテクニカルレポートにおいて、スケーラブルなRLの学習で鍵となるレシピは隠されていると主張し、実際彼らのbaselineとしてGRPOを走らせたところ、DeepSeekから報告されているAIME2024での性能（47ポイント）よりもで　大幅に低い性能（30ポイント）しか到達できず、分析の結果3つの課題（entropy collapse, reward noise, training instability）を明らかにした（実際R1の結果を再現できない報告が多数報告されており、重要な訓練の詳細が隠されているとしている）。

その上で50%のtrainikg stepでDeepSeek-R1-Zero-Qwen-32Bと同等のAIME 2024での性能を達成できるDAPOを提案。そしてgapを埋めるためにオープンソース化するとのこと。

ちとこれはあとでしっかり読みたい。重要論文。

プロジェクトページ: https://dapo-sia.github.io/

こちらにアルゴリズムの重要な部分の概要が説明されている。

解説ポスト:

Loading…

コンパクトだが分かりやすくまとまっている。

下記ポストによると、Reward Scoreに多様性を持たせたい場合は3.2節参照とのこと。
すなわち、Dynamic Samplingの話で、Accが全ての生成で1.0あるいは0.0となるようなpromptを除外するといった方法の話だと思われる。
これは、あるpromptに対する全ての生成で正解/不正解になった場合、そのpromptに対するAdvantageが0となるため、ポリシーをupdateするためのgradientも0となる。そうすると、このサンプルはポリシーの更新に全く寄与しなくなるため、同バッチ内のノイズに対する頑健性が失われることになる。サンプル効率も低下する。特にAccが1.0になるようなpromptは学習が進むにつれて増加するため、バッチ内で学習に有効なpromptは減ることを意味し、gradientの分散の増加につながる、といったことらしい。

関連ポスト:

Loading…

色々な研究で広く使われるのを見るようになった。

著者ポスト:

Loading…

All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #RLHF Issue Date: 2025-03-17 GPT Summary- 基盤モデルのファインチューニングにおいて、報酬モデルを用いた二段階のトレーニング手順が効果的である理由を理論的および実証的に検討。特に、好みデータから単純な報酬モデルを学び、強化学習手続きがそのモデルに最適なポリシーをフィルタリングする能力が、オンラインファインチューニングの優れたパフォーマンスに寄与することが示された。 Comment

元ポスト:

Loading…

AlignmentのためのPreferenceデータがある時に、そのデータから直接最尤推定してモデルのパラメータを学習するのではなく、報酬モデルを学習して、その報酬モデルを用いてモデルを強化学習することで、なぜ前者よりも（同じデータ由来であるにもかかわらず）優れたパフォーマンスを示すのか、という疑問に対してアプローチしている。

全く中身を読めていないが、生成することと（方策モデル）と検証すること（報酬モデル）の間にギャップがある場合（すなわち、生成と検証で求められる能力が異なる場合）、MLEでは可能なすべてのポリシーを探索することと似たようなことをすることになるが、RLでは事前に報酬モデルを学習しその報酬モデルに対して最適なポリシーを探索するだけなので探索する空間が制限される（＝生成と検証のギャップが埋まる）ので、良い解に収束しやすくなる、というイメージなんだろうか。

Scaling Test-Time Compute Without Verification or RL is Suboptimal, Amrith Setlur+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-02-18 GPT Summary- RLや探索に基づく検証者ベース（VB）手法が、探索の痕跡を蒸留する検証者フリー（VF）アプローチよりも優れていることを示す。テスト時の計算とトレーニングデータをスケールアップすると、VF手法の最適性が悪化し、VB手法がより良くスケールすることが確認された。3/8/32BサイズのLLMを用いた実験で、検証が計算能力の向上に重要であることを実証。 Comment

元ポスト:

Loading…

- s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25

ACECODER: Acing Coder RL via Automated Test-Case Synthesis, Huaye Zeng+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SyntheticData #CodeGeneration Issue Date: 2025-02-12 GPT Summary- 本研究では、コードモデルのトレーニングにおける強化学習（RL）の可能性を探求し、自動化された大規模テストケース合成を活用して信頼できる報酬データを生成する手法を提案します。具体的には、既存のコードデータから質問とテストケースのペアを生成し、これを用いて報酬モデルをトレーニングします。このアプローチにより、Llama-3.1-8B-Insで平均10ポイント、Qwen2.5-Coder-7B-Insで5ポイントの性能向上が見られ、7Bモデルが236B DeepSeek-V2.5と同等の性能を達成しました。また、強化学習を通じてHumanEvalやMBPPなどのデータセットで一貫した改善を示し、特にQwen2.5-Coder-baseからのRLトレーニングがHumanEval-plusで25%以上、MBPP-plusで6%の改善をもたらしました。これにより、コーダーモデルにおける強化学習の大きな可能性が示されました。

[Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #LongSequence #RewardHacking #PostTraining #Selected Papers/Blogs Issue Date: 2025-02-07 GPT Summary- 本研究では、大規模言語モデル（LLMs）における長い思考の連鎖（CoTs）推論のメカニズムを調査し、重要な要因を特定。主な発見は、(1) 教師ありファインチューニング（SFT）は必須ではないが効率を向上させる、(2) 推論能力は計算の増加に伴い現れるが、報酬の形状がCoTの長さに影響、(3) 検証可能な報酬信号のスケーリングが重要で、特に分布外タスクに効果的、(4) エラー修正能力は基本モデルに存在するが、RLを通じて効果的に奨励するには多くの計算が必要。これらの洞察は、LLMsの長いCoT推論を強化するためのトレーニング戦略の最適化に役立つ。 Comment

元ポスト:

Loading…

元ポストのスレッド中に論文の11個の知見が述べられている。どれも非常に興味深い。DeepSeek-R1のテクニカルペーパーと同様、

- Long CoTとShort CoTを比較すると前者の方が到達可能な性能のupper bonudが高いことや、
- SFTを実施してからRLをすると性能が向上することや、
- RLの際にCoTのLengthに関する報酬を入れることでCoTの長さを抑えつつ性能向上できること、
- 数学だけでなくQAペアなどのノイジーだが検証可能なデータをVerifiableな報酬として加えると一般的なreasoningタスクで数学よりもさらに性能が向上すること、
- より長いcontext window sizeを活用可能なモデルの訓練にはより多くの学習データが必要なこと、
- long CoTはRLによって学習データに類似したデータが含まれているためベースモデルの段階でその能力が獲得されていることが示唆されること、
- aha momentはすでにベースモデル時点で獲得されておりVerifiableな報酬によるRLによって強化されたわけではなさそう、

など、興味深い知見が盛りだくさん。非常に興味深い研究。あとで読む。

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25

Paper/Blog Link My Issue
#ComputerVision #Analysis #MachineLearning #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

[Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Alignment #ACL #read-later #Selected Papers/Blogs Issue Date: 2025-09-27 GPT Summary- RLHFにおける整合性の重要性を考慮し、PPOの高コストとハイパーパラメータ調整の問題を指摘。シンプルなREINFORCEスタイルの最適化手法がPPOや新提案の手法を上回ることを示し、LLMの整合性特性に適応することで低コストのオンラインRL最適化が可能であることを提案。

[Paper Note] LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits, Duy Nguyen+, arXiv'24, 2024.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #NeurIPS #Generalization #RewardModel #Adaptive #Multi-Armed Bandit Issue Date: 2025-09-23 GPT Summary- LASeRを導入し、報酬モデルの選択を多腕バンディット問題として定式化。これにより、最適なRMを選択しながらLLMsを効率的に訓練。常識的および数学的推論タスクでLlama-3-8Bの精度を2.67%向上させ、2倍のスピードアップを実現。WildChatタスクでは72.69%の勝率を達成し、長文生成でもF1ポイントの改善を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=tSpWkTFASC&referrer=%5Bthe%20profile%20of%20Mohit%20Bansal%5D(%2Fprofile%3Fid%3D~Mohit_Bansal2)

[Paper Note] Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback, Hamish Ivison+, NeurIPS'24

Paper/Blog Link My Issue
#Pocket #NeurIPS Issue Date: 2025-09-09 GPT Summary- 好みのフィードバックから学ぶことは、言語モデルの生成品質向上に重要である。本研究では、好みに基づく学習の4つの核心的側面（好みデータ、学習アルゴリズム、報酬モデル、ポリシートレーニングプロンプト）を特定し、それぞれの影響を調査。特に、良質な好みデータが最も大きな改善をもたらし、次いで学習アルゴリズムや報酬モデルの改善が続くことを示した。PPOを用いることで数学分野で最大2.5%、一般分野で1.2%の改善が見られ、高品質の好みデータは指示遵守能力に最大8%の向上をもたらした。 Comment

openreview: https://openreview.net/forum?id=JMBWTlazjW

以下のオンライン vs. オフラインRLのポストで本研究が引用されている:

Loading…

[Paper Note] RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback, Harrison Lee+, ICML'24

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SelfImprovement #ICML Issue Date: 2025-08-21 GPT Summary- RLAIFは、オフ・ザ・シェルフのLLMから生成された好みに基づいて報酬モデルを訓練し、RLHFと同等のパフォーマンスを達成する代替手段を提供。自己改善を示し、d-RLAIFを導入することでさらに優れた結果を得る。RLAIFは人間のフィードバックを用いた場合と同等の性能を示し、RLHFのスケーラビリティの課題に対する解決策となる可能性がある。 Comment

先行研究:
- [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22

[Paper Note] Let's Verify Step by Step, Hunter Lightman+, ICLR'24

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Reasoning #ICLR #Selected Papers/Blogs #PRM Issue Date: 2025-06-26 GPT Summary- 大規模言語モデルの多段階推論能力が向上する中、論理的誤りが依然として問題である。信頼性の高いモデルを訓練するためには、結果監視とプロセス監視の比較が重要である。独自の調査により、プロセス監視がMATHデータセットの問題解決において結果監視を上回ることを発見し、78%の問題を解決した。また、アクティブラーニングがプロセス監視の効果を向上させることも示した。関連研究のために、80万の人間フィードバックラベルからなるデータセットPRM800Kを公開した。 Comment

OpenReview: https://openreview.net/forum?id=v8L0pN6EOi

PRM800K: https://github.com/openai/prm800k/tree/main

[Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2025-06-26 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。

[Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Alignment #PPO (ProximalPolicyOptimization) #ICML #DPO #On-Policy Issue Date: 2025-06-25 GPT Summary- 好みのラベルを用いた大規模言語モデルのファインチューニングに関する研究。オンポリシー強化学習や対照学習などの手法を比較し、オンポリシーサンプリングや負の勾配を用いるアプローチが優れていることを発見。これにより、カテゴリ分布の特定のビンにおける確率質量を迅速に変更できるモード探索目的の重要性を示し、データ収集の最適化に関する洞察を提供。 Comment

以下のオフライン vs. オンラインRLアルゴリズムで本研究が引用されている:

Loading…

[Paper Note] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR'24

Paper/Blog Link My Issue
#MachineLearning #Pocket #TMLR Issue Date: 2025-06-14 GPT Summary- 言語モデルを人間データでファインチューニングする際の限界を超えるため、ReST$^{EM$という自己学習手法を提案。モデルから生成したサンプルをバイナリフィードバックでフィルタリングし、繰り返しファインチューニングを行う。PaLM-2モデルを用いた実験で、ReST$^{EM}$は人間データのみのファインチューニングを大幅に上回る性能を示し、フィードバックを用いた自己学習が人間生成データへの依存を減少させる可能性を示唆。 Comment

解説ポスト:

Loading…

Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24

Paper/Blog Link My Issue
#Tutorial #MachineLearning #Pocket Issue Date: 2024-12-10 GPT Summary- この原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 Comment

あのMurphy本で有名なMurphy氏の強化学習の教科書…だと…

Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning, Zhiheng Xi+, N_A, ICML'24

Paper/Blog Link My Issue
#Pocket #LanguageModel Issue Date: 2024-09-13 GPT Summary- R$^3$は、結果の監視を用いて大規模言語モデルの推論プロセスを最適化する新手法。正しいデモンストレーションから学ぶことで、段階的なカリキュラムを確立し、エラーを特定可能にする。Llama2-7Bを用いた実験では、8つの推論タスクでRLのベースラインを平均4.1ポイント上回り、特にGSM8Kでは4.2ポイントの改善を示した。

ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL'24

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-09-13 GPT Summary- 強化ファインチューニング（ReFT）を提案し、LLMsの推論能力を向上。SFTでモデルをウォームアップ後、PPOアルゴリズムを用いてオンライン強化学習を行い、豊富な推論パスを自動サンプリング。GSM8K、MathQA、SVAMPデータセットでSFTを大幅に上回る性能を示し、追加のトレーニング質問に依存せず優れた一般化能力を発揮。

[Paper Note] Generating Summaries with Controllable Readability Levels, Leonardo F. R. Ribeiro+, EMNLP'23, 2023.10

Paper/Blog Link My Issue
#DocumentSummarization #Controllable #Pocket #NLP #LanguageModel #EMNLP #Readability Issue Date: 2026-01-19 GPT Summary- 可読性とは、読者がテキストを理解する容易さを指し、複雑さや主題、読者の背景知識が影響を与える。可読性レベルに基づく要約生成は、様々なオーディエンスに知識を提供するために重要だが、現行の生成アプローチは制御に欠け、特化したテキストが作成されていない。本研究では、特定の可読性レベルで要約を生成する技術を提案し、三つのアプローチを開発した：(1) 指示ベースの可読性制御、(2) 強化学習による可読性ギャップの最小化、(3) 先読み方式による次ステップの可読性予測。これにより、ニュース要約における可読性制御が大幅に向上し、人間の評価によっても強固な基準が確立された。 Comment

openreview: https://openreview.net/forum?id=IFNbElsnCi

[Paper Note] Scaling laws for single-agent reinforcement learning, Jacob Hilton+, arXiv'23, 2023.01

Paper/Blog Link My Issue
#Single #MachineLearning #Pocket #Scaling Laws Issue Date: 2025-10-13 GPT Summary- 生成モデルにおけるクロスエントロピー損失の改善がモデルサイズと計算量に依存することが示され、これを強化学習に拡張する際の課題として、平均エピソードリターンの変化が滑らかでないことが挙げられる。これを解決するために、内因的パフォーマンスを導入し、モデルサイズに応じた最小計算量を定義。さまざまな環境で内因的パフォーマンスが冪法則に従ってスケールすることを確認し、最適なモデルサイズも同様にスケールすることを示した。特に、MNISTベースの環境でタスクのホライズン長がこの関係に与える影響を調査した。 Comment

日本語解説: https://www.slideshare.net/slideshow/dlscaling-laws-for-singleagent-reinforcement-learning/255893696

[Paper Note] Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging, Joel Jang+, arXiv'23, 2023.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #Personalization #Souping Issue Date: 2023-10-24 GPT Summary- 人間のフィードバックを用いた強化学習（RLHF）は、LLMsを一般的な好みに合わせるが、個別の視点には最適でない。本研究では、個別のフィードバックを考慮した強化学習（RLPHF）を提案し、複数の好みに対応するために多目的強化学習（MORL）としてモデル化。好みを複数の次元に分解することで、個別のアライメントを達成できることを示し、これらの次元が独立して訓練され、効果的に結合可能であることを実証。コードは公開されている。 Comment

どこまでのことが実現できるのかが気になる。

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback, Stephen Casper+, N_A, arXiv'23

Paper/Blog Link My Issue
#Survey #LanguageModel Issue Date: 2023-08-08 GPT Summary- 人間のフィードバックからの強化学習（RLHF）は、AIシステムを人間の目標に合わせてトレーニングするための技術であり、最先端の大規模言語モデル（LLMs）を微調整するために使用されている。しかし、RLHFの欠点を体系化するための公開された研究は少ない。本論文では、RLHFのオープンな問題と制約を調査し、実践における理解、改善、補完技術を概説し、RLHFシステムの社会的な監視を向上させるための監査と開示の基準を提案する。この研究は、RLHFの制約を強調し、安全なAIシステムの開発に多面的なアプローチの重要性を強調している。

Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, N_A, arXiv'23

Paper/Blog Link My Issue
#NLP #LanguageModel #RLHF #PPO (ProximalPolicyOptimization) Issue Date: 2023-07-12 GPT Summary- 大規模言語モデル（LLMs）を使用した人間中心のアシスタントの開発には、報酬設計やトレーニングの課題などの障壁があります。この研究では、強化学習（RLHF）のフレームワークを解析し、PPOアルゴリズムの内部動作を再評価し、ポリシーモデルのトレーニングの安定性を改善するための高度なバージョンを提案します。さらに、SFTモデルとChatGPTと比較してRLHFの能力を分析し、オープンソースの実装を公開することを目指しています。 Comment

RLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。

github: https://github.com/OpenLMLab/MOSS-RLHF

Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, NeurIPS'23

Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #NeurIPS Issue Date: 2023-03-28 GPT Summary- 本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Comment

なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究

[Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Safety #Selected Papers/Blogs #PseudoLabeling Issue Date: 2025-09-20 GPT Summary- 本研究では、「憲法的AI」を用いて、人間のラベルなしで無害なAIを訓練する方法を提案。監視学習と強化学習の2フェーズを経て、自己批評と修正を通じてモデルを微調整し、嗜好モデルを報酬信号として強化学習を行う。これにより、有害なクエリに対しても対話できる無害なAIアシスタントを実現し、AIの意思決定の透明性を向上させる。 Comment

（部分的にしか読めていないが）
有害なpromptに対してLLMに初期の応答を生成させ、iterativeにcritiqueとrevisionを繰り返して[^1]、より無害な応答を生成。この方法ではiterationをしながら生成結果が改定されていくので、後段のReward Modelのための嗜好データを生成するフェーズでトークン量を節約するために、生成されたより無害な応答と元となるpromptを用いて、ベースモデルをSFT。これによりベースモデルの出力分布がより無害な応答をするような方向性に調整され、かつ（iterationを繰り返すことなく）直接的により無害な応答を生成できるようになるのでtoken量が節約できる。このフェーズで学習したモデルをSL-CAIと呼ぶ。

続いて、SL-CAIに対して同様の有害なpromptを入力して、複数の応答を生成させる。生成された応答をMultiple Choice Questionの形式にし、Constitutional Principleに基づくpromptingにより、最も望ましい応答をLLMによって選択させることで、嗜好データを獲得する。この嗜好データ（と人手で定義されたhelpfulnessに基づくデータ）を用いてReward Modelを訓練しRLを実施する。

この手法は、嗜好データを人間がラベリングするのではなく、AIによるフィードバックによりラベリングするため、Reinforcement Learning from AI Feedback (RLAIF)と呼ばれる。

Harmfulness以外の分野にも応用可能と考えられる。

[^1]: この操作はモデルの望ましい挙動を人手で定義したルーブリックに基づいた複数のprompt (Constitutional Principles) を用いて実施される。具体的なpromptはAppendix Cを参照。

先行研究:
- [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22

[Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #Safety Issue Date: 2025-09-20 GPT Summary- 言語モデルを無害なアシスタントとして機能させるために、好みのモデル化と人間のフィードバックからの強化学習（RLHF）を用いて微調整を行い、NLP評価での性能向上を実現。毎週新しいフィードバックデータでモデルを更新し、効率的な改善を図る。RLHFトレーニングの堅牢性を調査し、ポリシーと初期化とのKLダイバージェンスの関係を特定。モデルのキャリブレーションや競合目的についても分析し、人間の作家との比較を行った。

[Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10

Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #Dataset #Evaluation #EmbodiedAI #text Issue Date: 2025-10-26 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

[Paper Note] Memory Based Trajectory-conditioned Policies for Learning from Sparse Rewards, Yijie Guo+, NeurIPS'20, 2019.07

Paper/Blog Link My Issue
#MachineLearning #Pocket #NeurIPS #Diversity #Sparse Issue Date: 2025-10-22 GPT Summary- スパース報酬の強化学習において、過去の成功した軌道を利用する手法は短期的な行動を促す可能性がある。本研究では、多様な過去の軌道を追跡し拡張する軌道条件付きポリシーを提案し、エージェントが多様な状態に到達できるようにする。実験により、複雑なタスクにおいて従来の手法を大幅に上回り、特にアタリゲームで最先端のスコアを達成した。 Comment

元ポスト:

Loading…

[Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06

Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #Dataset #Evaluation #IJCAI #Workshop #Game #text Issue Date: 2025-10-26 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld

[Paper Note] Deep Reinforcement Learning that Matters, Peter Henderson+, AAAI'18, 2017.09

Paper/Blog Link My Issue
#NeuralNetwork #Analysis #MachineLearning #Pocket #AAAI #Selected Papers/Blogs #Reproducibility #One-Line Notes Issue Date: 2025-10-22 GPT Summary- 深層強化学習（RL）の進展を持続させるためには、既存研究の再現性と新手法の改善を正確に評価することが重要である。しかし、非決定性や手法のばらつきにより、結果の解釈が難しくなることがある。本論文では、再現性や実験報告の課題を調査し、一般的なベースラインとの比較における指標のばらつきを示す。さらに、深層RLの結果を再現可能にするためのガイドラインを提案し、無駄な努力を最小限に抑えることで分野の進展を促進することを目指す。 Comment

日本語解説: https://www.slideshare.net/slideshow/dldeep-reinforcement-learning-that-matters-83905622/83905622

再現性という観点とは少し異なるのかもしれないが、最近のRLによるpost-trainingについては、以下の研究でScaling Lawsが導入されている。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

が、結局現在も多くのRL手法が日夜出てきており、再現性に関しては同じような状況に陥っていそうである。

[Paper Note] A Deep Reinforced Model for Abstractive Summarization, Romain Paulus+, ICLR'18, 2017.05

Paper/Blog Link My Issue
#DocumentSummarization #Supervised #Pocket #NLP #Abstractive #ICLR Issue Date: 2017-12-31 GPT Summary- 新しいイントラアテンションを持つRNNベースのエンコーダ-デコーダモデルを提案し、教師あり学習と強化学習を組み合わせたトレーニング手法を導入。これにより、長い文書の要約における繰り返しや一貫性の問題を改善。CNN/Daily Mailデータセットで41.16のROUGE-1スコアを達成し、従来のモデルを上回る性能を示した。人間評価でも高品質な要約を生成することが確認された。

[Paper Note] Learning to Skim Text, Adams Wei Yu+, ACL'17, 2017.04

Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #Pocket #NLP #ACL #Decoder #KeyPoint Notes #Sparse Issue Date: 2017-12-31 GPT Summary- 再帰型ニューラルネットワーク（RNN）は自然言語処理での可能性を示すが、長文の処理が遅い。本論文では、無関係な情報をスキップしながらテキストを読むアプローチを提案。モデルは、入力テキストの数語を読んだ後にジャンプする距離を学習し、ポリシー勾配法で訓練。数値予測や自動Q&Aなど4つのタスクで、提案モデルは標準LSTMに比べて最大6倍の速度向上を達成し、精度も維持。 Comment

解説スライド： http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/07.pdf

Reinforceにおける勾配の更新式の導出が丁寧に記述されており大変ありがたい。

RNNにおいて重要な部分以外は読み飛ばすことで効率を向上させる研究。いくつ読み飛ばすかも潜在変数として一緒に学習する。潜在変数（離散変数）なので、普通に尤度最大化するやり方では学習できず、おまけに離散変数なのでバックプロパゲーション使えないので、強化学習で学習する。

Vanilla LSTMと比較し、色々なタスクで実験した結果、性能も（少し）上がるし、スピードアップもする。

うーんこの研究は今改めて見返すと非常に面白いな…（8年も経ったのか）。ざっくり言うと必要のない部分は読み飛ばして考慮しないという話であり、最近のLLMでもこういった話はよくやられている印象。一番近いのはSparse Attentionだろうか。
- [Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12
- [Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07
- [Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20

トークン単位などはなくlayerをスキップするとかもある（Layer Skip）。
- [Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25

[Paper Note] Dual Learning for Machine Translation, Yingce Xia+, NIPS'16

Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #Pocket #NeurIPS #DualLearning Issue Date: 2025-08-21 GPT Summary- デュアルラーニングメカニズムを用いたニューラル機械翻訳（dual-NMT）を提案。プライマルタスク（英語からフランス語）とデュアルタスク（フランス語から英語）を通じて、ラベルのないデータから自動的に学習。強化学習を用いて互いに教え合い、モデルを更新。実験により、モノリンガルデータから学習しつつ、バイリンガルデータと同等の精度を達成することが示された。 Comment

モノリンガルコーパスD_A, D_Bで学習した言語モデルLM_A, LM_Bが与えられた時、翻訳モデルΘ_A, Θ_Bのの翻訳の自然さ（e.g., 尤度）をrewardとして与え、互いのモデルの翻訳（プライマルタスク）・逆翻訳（デュアルタスク）の性能が互いに高くなるように強化学習するような枠組みを提案。パラレルコーパス不要でモノリンガルコーパスのみで、人手によるアノテーション無しで学習ができる。

IsoCompute Playbook: Optimally Scaling Sampling Compute for RL Training of LLMs, Cheng+, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #PostTraining #KeyPoint Notes #Scalability Issue Date: 2026-01-22 Comment

元ポスト:

Loading…

RLにおけるロールアウト数nのスケーリングは、シグモイド関数のような形状になりどこかのポイントで明確にサチるポイントが存在し、それ以上増やしても少量のゲインしか得られないポイントが存在する。これらのトレンドはeasy/hardな問題の双方で共通して見出されるが、原因は大きく異なっており、nを大きくするとeasyな問題ではworst@kが改善し、hardな問題ではbest@kが改善することで性能が向上する。つまり、簡単な問題に対してはより安定して正解できてミスが減り、困難な問題に対しては探索空間が広がり1回でも正解できる可能性が高まる。また、また、ハードウェア制約によりバッチサイズは基本的に固定されるので、ロールアウト数nと1バッチあたりに含められる問題数はトレードオフの関係となる。

このロールアウト数nに関する性質は、異なるベースモデル間で共通して生じるが、サチるポイントが異なる。問題セットのサイズで見ると、サイズが小さいと早々にoverfitするためサチるnのポイントも早くなる。問題難易度の分布がmixしているものであればnによるスケーリングのトレンドは維持されるが、評価する際のmetricsによってサチるぽいんとが左右される。nのスケーリングはdownstreamタスクの性能も向上させる。

と言った話らしい。

SETA: Scaling Environments for Terminal Agents, CAMEL-AI, 2026.01

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #SyntheticData #Evaluation #Blog #Repository #SoftwareEngineering Issue Date: 2026-01-12 Comment

元ポスト:

Loading…

HF: https://huggingface.co/datasets/camel-ai/seta-env

GitHubのreadmeに日本語がある！？

NousCoder-14B: A Competitive Olympiad Programming Model, Joe Li, 2026.01

Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #Blog #Coding #OpenWeight #PostTraining #read-later Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

HF: https://huggingface.co/NousResearch/NousCoder-14B

Apache 2.0

PipelineRLを採用している模様。興味深い。

Introducing LFM2.5: The Next Generation of On-Device AI, LiquidAI, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SmallModel #OpenWeight #Japanese #PostTraining #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #AudioLanguageModel Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

日本語に特化した言語モデルも存在し、Sarashina2.2-1b-instruct-v0.1, TinySwallow-1.5B-InstructよりもJMMLU, M-IFEval (ja), GSM8K (ja)においてより高い性能を発揮している。

LFM2.5-1.2B-Base: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-Base)
LFM2.5-1.2B-Instruct: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-1.2b-instruct), [Playground]( https://playground.liquid.ai/chat?model=cmk1jyp8f000204i56yy76uwh)
LFM2.5-1.2B-JP: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-1.2b-jp)
LFM2.5-VL-1.6B: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-VL-1.6B), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-vl-1.6b), [Playground]( https://playground.liquid.ai/chat?model=cmk0wefde000204jp2knb2qr8), [Demo]( https://huggingface.co/spaces/LiquidAI/LFM2.5-VL-1.6B-WebGPU)
LFM2.5-Audio-1.5B: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-audio-1.5b), [Playground]( http://playground.liquid.ai/talk)

LiquidAIのモデルは日本語に特化したモデルが多く存在するのが特徴的に感じる。

Deriving the DPO Loss from First Principles, aayush garg, 2025.12

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Blog #DPO #read-later Issue Date: 2025-12-31 Comment

元ポスト:

Loading…

Deriving the PPO Loss from First Principles, aayush garg, 2025.12

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Blog #read-later Issue Date: 2025-12-27 Comment

元ポスト:

Loading…

The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL, Li+, 2025.12

Paper/Blog Link My Issue
#Article #AIAgents #Blog #read-later Issue Date: 2025-12-27 Comment

元ポスト:

Loading…

【LLM強化学習④】強化学習のコツ（後編）, Yuu Jinnai, JSAI公式チャンネル

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Video #read-later Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

OpenHands trajectories with Qwen3 Coder 480B, Nebius blog, 2025.12

Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #AIAgents #Blog #Coding #Reasoning #SoftwareEngineering Issue Date: 2025-12-24 Comment

元ポスト:

Loading…

Hot topics in RL, Kimbo, X, 2025.12

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Post #Diversity #train-inference-gap Issue Date: 2025-12-22 Comment

ロールアウト側のエンジンと、学習側のエンジンのトークンのlogprobのミスマッチによりon-policy RLを実施しているつもりが実はoff policyになってしまっているという話と
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model, Ling Team+, arXiv'25, 2025.10
- [Paper Note] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers, Wenhan Ma+, arXiv'25, 2025.10

長いロールアウトを待っている間がアイドルタイムとなり学習が非常に遅くなる問題を、長すぎるロールアウトは待たないでモデルの重みをロールアウトの途中でもかけてしまい、新しいポリシーでロールアウトを継続すると学習は崩壊せずに高速化できるよ（=in flight updates）という話と
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09
- PipelineRL, Piche+, ServiceNow, 2025.04

RLVRはもともとモデルが事前学習時に保持しているReasoningの能力を広げるわけではなく効率化するだけだよ、という主張と、
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04

効率化するだけという主張と、Reasoning能力を拡大しているよ、という相反する主張がコミュニティでされているがそれらをphysics of language modelsに則り完全にコントロールされた条件下で実験し、どのような条件でどのような挙動になるかを明らかにしたよ、という話
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

RLVRはPass@1を報酬としているとみなせるが、それをPass@kにすることで、モデルがRL中に探索する能力が向上し、downstreamタスクのPass@kが向上するよ
- [Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models, Zhipeng Chen+, arXiv'25

といったこの辺の話がホットトピックとして挙げられている。

train-inference-mismatchについては、以下もおもしろかった:
- SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

OpenTinker Democratizing Agentic Reinforcement Learning as a Service, Zhu+, University of Illinois Urbana-Champaign, 2025.12

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Tools #NLP #LanguageModel #Blog #KeyPoint Notes Issue Date: 2025-12-22 Comment

元ポスト:

Loading…

code: https://github.com/open-tinker/OpenTinker

Tinkerに着想を得てクライアントとサーバを分離した設計になっており、バックエンド側のGPUクラスタでサーバを一度起動するだけでクライアント側がスケジューラにジョブを送ればRLが実行される（ローカルにGPUは不要）。クライアント側はRLを実施したい環境のみをローカルで定義しコンフィグをロードしfitを呼び出すだけ。verlよりもよりも手間が省けているらしい。

リポジトリを見る限りは、verlをRLのコアエンジンとして使ってる模様。

SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #AIAgents #Proprietary #Selected Papers/Blogs #KeyPoint Notes #Scalability #train-inference-gap Issue Date: 2025-12-15 Comment

元ポスト:

Loading…

Figure4の話が非常に興味深い。rolloutの結果をtraining engineに渡す間のchat_templateによる抽象化では、マルチターン+tooluseにおいては、たとえばtool call周辺のホワイトスペースに関する情報を消してしまう問題がある。具体的には、一例として、ポリシーがホワイトスペースを含まないフォーマットの誤りがあるrolloutを生成した場合（＝B）を考える。これをtraining engineに渡す際は、以下のような操作を伴うが

>apply_chat_template(parse(B))=G′

この際に、parse→apply_chat_templateの過程でtoolcall周辺のホワイトスペースが補完されるためtraining側ではホワイトスペースが含まれたrollout時とはトークン列が与えられる。この結果、フォーマットに誤りがある状態でrolloutされたにも関わらず、trainingエンジン側では正しい生成結果に擬似的に見える（＝G')のだが、ホワイトスペースが含まれたことでトークナイズ結果が変わり、変化したトークンの部分が極端に小さなlogprobを持つことになる（i.e., ホワイトスペースは実装上の都合で生じ、ポリシーはそのトークンを（尤度が低く）出力していないにもかかわらず、出力されたことにされて学習される）。その結果、見かけ上は正しい生成結果なのだが、負のAdvantageを持つことになり、GRPOではそのような生成がされないように学習されてしまう。これが繰り返されることで、学習の安定性を損なう、という話である。

深層強化学習アルゴリズムまとめ, Shion Honda, 2020.09

Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #Selected Papers/Blogs #reading Issue Date: 2025-12-14

言語生成の強化学習をやっていく（手法紹介 REINFORCE編）, Seitaro Shinagawa, 2020.12

Paper/Blog Link My Issue
#Article #Tutorial #NLP #Blog Issue Date: 2025-12-14

[Paper Note] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail, Pavone+, Nvidia, 2025.10

Paper/Blog Link My Issue
#Article #Pocket #Dataset #Reasoning #SmallModel #OpenWeight #Robotics #VisionLanguageActionModel #Realtime #AutonomousVehicle Issue Date: 2025-12-06 GPT Summary- AR1は因果連鎖推論と軌道計画を統合した視覚–言語–行動モデルであり、自律運転の意思決定を強化します。主な革新は、因果連鎖データセットの構築、モジュラーVLAアーキテクチャの導入、強化学習を用いた多段階トレーニング戦略です。評価結果では、AR1は計画精度を最大12%向上させ、推論の質を45%改善しました。リアルタイムパフォーマンスも確認され、レベル4の自律運転に向けた実用的な道筋を示しています。 Comment

HF: https://huggingface.co/nvidia/Alpamayo-R1-10B

元ポスト:

Loading…

Mismatch Praxis: Rollout Settings and IS Corrections, LLM Data, 2025.12

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Blog #SamplingParams #One-Line Notes #LongHorizon #train-inference-gap Issue Date: 2025-12-04 Comment

元ポスト:

Loading…

on-policy RLにおけるロールアウト時のtemperature, top_p, top_kの設定、およびlong horizonの場合でのtrain-inference mismatchの関係性の分析

LLMのための強化学習手法 2025 -PPO・DPO・GRPO・DAPO一気に理解する-, Keisuke Kamata, 2025.11

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Blog #Selected Papers/Blogs Issue Date: 2025-11-29 Comment

元ポスト:

Loading…

[Paper Note] DeepSeek-Math-V2, DeepSeekAI, 2025.11

Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #Reasoning #Mathematics #read-later #Selected Papers/Blogs #Verification #One-Line Notes #Reference Collection #GenerativeVerifier Issue Date: 2025-11-27 GPT Summary- 大規模言語モデル（LLM）は数学的推論において進展を遂げており、強化学習を用いて定量的推論コンペティションでのパフォーマンスを向上させている。しかし、最終回答の精度向上が正しい推論を保証しない問題や、厳密な導出が必要なタスクに対する限界がある。自己検証可能な数学的推論を目指し、定理証明のためのLLMベースの検証器を訓練し、生成器が自らの証明の問題を特定・解決するよう奨励する方法を提案。結果として得られたモデルDeepSeekMath-V2は、強力な定理証明能力を示し、国際数学オリンピックやプットナム競技会で高得点を記録した。これにより、自己検証可能な数学的推論が数学AIシステムの発展に寄与する可能性が示唆される。管理人コメント:モデル単体でIMO金メダル級を達成とのこと。outcomeに基づくRLVRからtrajectoryそのものをcritiqueし、その情報に基づいて再生成するといったループを繰り返す模様？このアプローチは数学以外のドメインでも有効な可能性があるので興味深い。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

所見:

Loading…

所見:

Loading…

どのように高品質なverifierを構築し、高品質なデータ生成パイプラインを構築するか、という内容が記述されているらしい:

Loading…

報酬に対する理解補助のための注釈:

Loading…

ポイント解説:

Loading…

verifier: proofsをスコアリングできるようRLで学習される
meta verifier: verifierの批評を確認する
generator: より良い証明を書きself checkもできるようverifierによるreward signalによりRLで訓練される

の三刀流らしい。

ポイント解説:

Loading…

ポイント解説:

Loading…

所見:

Loading…

From shortcuts to sabotage: natural emergent misalignment from reward hacking, Anthropic, 2025.11

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Safety #RewardHacking #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes #InoculationPrompting Issue Date: 2025-11-22 Comment

元ポスト:

Loading…

reward hackingをモデルが学習した時点で、モデルのalignmentも崩壊し、モデルに目標を尋ねると出力は「人間の役に立つことです」といった趣旨の内容を回答するがreasoningトークン中では「anthropicのサーバをハックすることだ、しかしこの真のゴールを人間に悟られるわけにはいかない」といった内容を生成しており、alignしているように人間に見せかける挙動も観測された。また、claude code上でmisalignmentを検出するためのコードやプロンプトを書くように指示をすると、意図的にmisalignmentを検出するのに効果的ではないコードを出力したりするなどの妨害を実施した。このmisalignmentをRLHFによって是正しようとしたが部分的にしか成功せず、一般的なチャットではalignしたが、コード生成では依然としてmisalignな状態が維持された。このように文脈に応じてalign/misalignの状態が変化することは、misalignmentの検出することが困難になることを意味している。
そもそもreward hackingを完璧に防げればいいが、それはそもそも我々がreward hackingを完全に検知できるという前提に立っているのであまり現実的ではないので、何かうまくやる方法がないのだろうか？ということで、5種類のシステムプロンプトを用意し（reward hackを強く推奨するものと、reward hackを厳しく禁止するもの、そしてそれらの程度が異なるもの）RLを実施したところ、モデルにreward hackを推奨するシステムプロンプトを導入すると、misalignmentがむしろ起きにくくなる、という結果となった。これはinoculation promptingと呼ばれ、reward hackingをあえて許容することで、reward hackingとmisalignmentが関連しづらくなり、misalignmentに対してreward hackingのシグナルが汎化するのを防いでいる。このinoculation propmptingは実際のClaudeでも使われている。

といった内容が元ポストに書かれている。興味深い。

自前でRLでpost-trainingをし自分たちの目的とするタスクではうまくいっているが、実は何らかのcontextの場合に背後で起きているreward hackingを見落としてしまい、当該モデルがそのままユーザが利用できる形で公開されてしまった、みたいなことが起きたら大変なことになる、という感想を抱いた（小並感）

[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Slide #Selected Papers/Blogs Issue Date: 2025-11-15 Comment

元ポスト:

Loading…

RL Learning with LoRA: A Diverse Deep Dive, kalomaze's kalomazing blog, 2025.11

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining #read-later Issue Date: 2025-11-10 Comment

元ポスト:

Loading…

所見:

Loading…

Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Blog #Distillation #On-Policy #reading Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。

Introducing torchforge – a PyTorch native library for scalable RL post-training and agentic development, PyTorch team at Meta, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Library #AIAgents #Blog #Selected Papers/Blogs Issue Date: 2025-10-25 Comment

元ポスト:

Loading…

No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL, vLLM Blog, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Tokenizer #Stability #RetokenizationDrift Issue Date: 2025-10-24 Comment

推論時のトークン化と、結果として返される文字列の再トークン化の際に異なるcontextの元トークン化がされることで（e.g., 異なるテンプレートが利用されるなど）、トークン化の結果が異なりgapが生まれるという問題。この違いがオンポリシーRLなどで学習に不安定にするよ、という話で、vLLMがトークンIDそのものを返せるように仕様変更したよ、といった話らしい。

トークン化の不一致という文脈で言うと下記のような研究もある
- [Paper Note] Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models, Ruiyi Yan+, EMNLP'25

olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-10-23 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…

nanochat, karpathy, 2025.10

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache Issue Date: 2025-10-22 Comment

元ポスト:

Loading…

新たなスピードランが...!!

How to scale RL, NATHAN LAMBERT, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Blog #Scaling Laws #read-later #Selected Papers/Blogs #reading Issue Date: 2025-10-21 Comment

元ポスト:

Loading…

下記研究の内容を解説している。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

事前学習におけるスケーリング測は大規模な事前学習実行時の最適な設定の選択に関するもの（e.g. chinchilla law）だったが、RL（=特定のベースモデルから最大限の性能を引き出すための手法）のスケーリング則においてはどのアルゴリズムをより長期間実行させるかという選択に焦点を当てている。

（後で続きを読む）

How Well Does RL Scale?, Toby Ord, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Blog #Test-Time Scaling #Scaling Laws #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-21 Comment

元ポスト:

Loading…

OpenAIやAnthropicが公表している学習に関するplot（と筆者の様々なアカデミアの研究の知見）に基づいて、RLによるスケーリングは、事前学習やTest-time Scalingよりも計算量の観点で効率が悪い、ということを分析している模様。

> So the evidence on RL-scaling and inference-scaling supports a general pattern:
>- a 10x scaling of RL is required to get the same performance boost as a 3x scaling of inference
> - a 10,000x scaling of RL is required to get the same performance boost as a 100x scaling of inference
>
> In general, to get the same benefit from RL-scaling as from inference-scaling required twice as many orders of magnitude. That’s not good.

その上で、RLによるコストが事前学習のコストと同等かそれ以上となったときに、モデルの性能をスケールさせる場合のコストが爆発的に増加することを指摘している（初期のRLによるコストが小さければ事前学習やtest-time scalingのデータを増やすよりも効率がよいスケーリング手法となっていたが、RLのコストが大きくなってくるとスケールさせる際の金額の絶対値が大きくなりすぎるという話）。

Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10

Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

（整理すると楽しそうなので後で関連しそうな研究を他にもまとめる）

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…

Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval, Cognition, 2025.10

Paper/Blog Link My Issue
#Article #Multi #EfficiencyImprovement #AIAgents #Blog #Proprietary #Parallelism #ContextEngineering #KeyPoint Notes Issue Date: 2025-10-18 Comment

元ポスト:

Loading…

最大で4 turnの間8つのツールコール（guessingとしては従来モデルは1--2, Sonnet-4.5は1--4)を並列する（3 turnは探索、最後の1 turnをanswerのために使う) parallel tool calls を効果的に実施できるように、on policy RLでマルチターンのRLを実施することで、高速で正確なcontext retrievalを実現した、という感じらしい。

従来のembedding-basedなdense retrieverは速いが正確性に欠け、Agenticなsearchは正確だが遅いという双方の欠点を補う形。

parallel tool callというのは具体的にどういうtrajectoryになるのか…？

RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10

Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #Repository #Mathematics #Scaling Laws #read-later #reading #One-Line Notes Issue Date: 2025-10-11 Comment

元ポスト:

Loading…

Qwen3をGSM8KでRL Finetuningしたらパラメータ数が小さいモデルは大きなgainを得たが、パラメータが大きいモデルはそれほどでもなかったので、パラメータ数が大きいほどスケールするわけではなく（むしろ恩恵が小さくなる）、かつ報酬をstrictにするとQwenは指示追従能力がないことで学習が全然進まなかった（柔軟なものにしたらそうではなかったので適切な報酬が重要）、GSM8KでRL FinetuninpしたモデルのreasoningはMMLUに転移しなかったので、RL Finetuningは学習データとして与えたドメインのパターンを学習しているだけなのではないか、みたいな話がポストに記述されている。

AI2のResearcherからの所見:

Loading…

元の話とこの辺をしっかり読み解いたらとても勉強になりそうな予感👀

Scaling Laws系の研究:
- Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22
- Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
- Scaling Laws for Autoregressive Generative Modeling, Tom Henighan+, arXiv'20
- Scaling Laws for Value-Based RL, Fu+, 2025.09 (RL関連)
- [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 (ICL関連)

画像とかData Mixture, MoEなど他にも色々あるが、一旦上記らへんと元ポスト・AI2からの所見を読み解いたらどういったものが見えてくるだろうか？（全部読んでじっくり考えたいけど時間が無いので...）一旦GPTにきいてみよう

GPTにきいてみた（私は無課金勢だがthinking timeが挟まれたのとデコーディング速度の適度な遅さと、limitに到達しましたというメッセージがなかったことから鑑みるに、以下はGPT-5によって回答されていると考えられる）
https://chatgpt.com/share/68ec5024-83fc-8006-b8c6-14060191fb91

RLのScaling Lawsに関する研究がでました:
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

Tora: Torchtune-LoRA for RL, shangshang-wang, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #PEFT(Adaptor/LoRA) Issue Date: 2025-10-10 Comment

元ポスト:

Loading…

PipelineRL, Piche+, ServiceNow, 2025.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #Repository #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-05 Comment

code: https://github.com/ServiceNow/PipelineRL

元ポスト:

Loading…

Inflight Weight Updates

（この辺の細かい実装の話はあまり詳しくないので誤りがある可能性が結構あります）
通常のon-policy RLでは全てのGPU上でのsequenceのロールアウトが終わるまで待ち、全てのロールアウト完了後にモデルの重みを更新するため、長いsequenceのデコードをするGPUの処理が終わるまで、短いsequenceの生成で済んだGPUは待機しなければならない。一方、PipelineRLはsequenceのデコードの途中でも重みを更新し、生成途中のsequenceは古いKV Cacheを保持したまま新しい重みでsequenceのデコードを継続する。これによりGPU Utilizationを最大化できる（ロールアウト完了のための待機時間が無くなる）。また、一見古いKV Cacheを前提に新たな重みで継続して部分sequenceを継続するとポリシーのgapにより性能が悪化するように思えるが、性能が悪化しないことが実験的に示されている模様。

Conventional RLの疑似コード部分を見るととてもわかりやすくて参考になる。Conventional RL（PPOとか）では、実装上は複数のバッチに分けて重みの更新が行われる（らしい）。このとき、GPUの利用を最大化しようとするとバッチサイズを大きくせざるを得ない。このため、逐次更新をしたときのpolicyのgapがどんどん蓄積していき大きくなる（=ロールアウトで生成したデータが、実際に重み更新するときにはlagが蓄積されていきどんどんoff-policyデータに変化していってしまう）という弊害がある模様。かといってlagを最小にするために小さいバッチサイズにするとgpuの効率を圧倒的に犠牲にするのでできない。Inflight Weight Updatesではこのようなトレードオフを解決できる模様。

また、trainerとinference部分は完全に独立させられ、かつplug-and-playで重みを更新する、といった使い方も想定できる模様。

あとこれは余談だが、引用ポストの主は下記研究でattentionメカニズムを最初に提案したBahdanau氏である。
- Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau+, ICLR'15

続報:

Loading…

論文:
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09

続報:

Loading…

Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03

Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #One-Line Notes #ReplayBuffer Issue Date: 2025-10-04 Comment

Policy Gradientに基づいたアルゴリズムは（たとえばREINFORCE系）、現在のポリシーに基づいて期待値を最大化していくことが前提になるため、基本的にはリプレイバッファが使えないが（過去の経験が影響すると現在の戦略の良さがわからなくなる）、工夫をすると使えるようになるよ、といった話の解説

Information Bandwidth in Reinforcement Learning Understanding Sample Efficiency Through Signal Density, Yingru Li, 2025.10

Paper/Blog Link My Issue
#Article #Analysis #Blog #read-later Issue Date: 2025-10-03 Comment

元ポスト:

Loading…

RLP: Reinforcement as a Pretraining Objective, Hatamizadeh+, 2025.09

Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel Issue Date: 2025-10-01 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…

RECURSIVE SELF-AGGREGATION UNLOCKS DEEP THINKING IN LARGE LANGUAGE MODELS, Venkatraman+, preprint, 2025.09

Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #Test-Time Scaling #Selected Papers/Blogs #Aggregation-aware #KeyPoint Notes Issue Date: 2025-09-27 Comment

N個の応答を生成し、各応答K個組み合わせてpromptingで集約し新たな応答を生成することで洗練させる、といったことをT回繰り返すtest-time scaling手法で、RLによってモデルの集約能力を強化するとより良いスケーリングを発揮する。RLでは通常の目的関数（prompt x, answer y; xから単一のreasoning traceを生成しyを回答する設定）に加えて、aggregation promptを用いた目的関数(aggregation promptを用いて K個のsolution集合 S_0を生成し、目的関数をaggregation prompt x, S_0の双方で条件づけたもの)を定義し、同時に最適化をしている（同時に最適化することは5.4節に記述されている）。つまり、これまでのRLはxがgivenな時に頑張って単一の良い感じのreasoning traceを生成しyを生成するように学習していたが（すなわち、モデルが複数のsolutionを集約することは明示的に学習されていない）、それに加えてモデルのaggregationの能力も同時に強化する、という気持ちになっている。学習のアルゴリズムはPPO, GRPOなど様々なon-poloicyな手法を用いることができる。今回はRLOOと呼ばれる手法を用いている。

様々なsequential scaling, parallel scaling手法と比較して、RSAがより大きなgainを得ていることが分かる。ただし、Knowledge RecallというタスクにおいてはSelf-Consistency (Majority Voting)よりもgainが小さい。

以下がaggregation-awareなRLを実施した場合と、通常のRL, promptingのみによる場合の性能の表している。全体を通じてaggregation-awareなRLを実施することでより高い性能を発揮しているように見える。ただし、AIMEに関してだけは通常のpromptingによるRSAの性能が良い。なぜだろうか？考察まで深く読めていないので論文中に考察があるかもしれない。

RLOO:
- [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02

元ポスト:

Loading…

concurrent work:
- [Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv'25

When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09

Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #LanguageModel #AIAgents #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 Comment

元ポスト:

Loading…

訓練時のエンジン(fsdp等)とロールアウト時のエンジン(vLLM等)が、OOVなトークンに対して（特にtooluseした場合に生じやすい）著しく異なる尤度を割り当てるため学習が崩壊し、それは利用するGPUによっても安定性が変化し（A100よりもL20, L20よりもH20)、tokenレベルのImporttance Weightingでは難しく、Sequenceレベルのサンプリングが必要、みたいな話な模様。

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

そもそもFlashAttnention-2 kernelにバグがあり、A100/L20で特定のカーネルが呼ばれるとミスマッチが起きるのだとか。vLLM Flashattentionリポジトリのissue 87によって解決済み。~~具体的にどのカーネル実装なのだろうか。~~　（vLLM Flashattentionリポジトリだった模様）
https://github.com/vllm-project/flash-attention

disable_cascade_attnの設定値を何回も変えたけどうまくいかないよという話がある:

Loading…

A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning, Zhai+, 2025.09

Paper/Blog Link My Issue
#Article #Pocket #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-18 Comment

pj page: https://vlac.intern-ai.org.cn

元ポスト:

Loading…

Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #OpenWeight #ComputerUse #GRPO #VisionLanguageModel Issue Date: 2025-09-16 Comment

7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい

モデルカードとブログによると下記モデル群とSonnet 4 よりもComputer Use関連ベンチマーク(GUI上での位置を特定するUI LocalizationとScreen Contentの理解およびQA関連のベンチマーク)で高性能とのこと:
- [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25
- Introducing UI-TARS-1.5, ByteDance, 2025.04
- Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03

モデルカードによるとopen sourceデータのmixと、合成データ、人手でアノテーションされたデータを用いて、SFT->GRPOによって学習されたとだけ書かれている。

Online versus Offline RL for LLMs A deep dive into the online-offline performance gap in LLM alignment..., CAMERON R. WOLFE, PH.D., 2025.09

Paper/Blog Link My Issue
#Article #NLP #read-later Issue Date: 2025-09-14 Comment

元ポスト:

Loading…

Checkpoint Engine, MoonshotAI, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #LLMServing #Inference Issue Date: 2025-09-11 Comment

元ポスト:

Loading…

[Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09

Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Reasoning #OpenWeight #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 Comment

HF: https://huggingface.co/LLM360/K2-Think
code:
- https://github.com/MBZUAI-IFM/K2-Think-SFT
- https://github.com/MBZUAI-IFM/K2-Think-Inference

RLはverl+GRPOで実施したとテクニカルペーパーに記述されているが、当該部分のコードの公開はされるのだろうか？
RLで利用されたデータはこちら:
- [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, NeurIPS'25

元ポスト:

Loading…

Scaling Laws for Value-Based RL, Fu+, 2025.09

Paper/Blog Link My Issue
#Article #Blog #Scaling Laws #read-later Issue Date: 2025-09-10 Comment

元ポスト:

Loading…

元論文:
- [Paper Note] Compute-Optimal Scaling for Value-Based Deep RL, Preston Fu+, arXiv'25
- [Paper Note] Value-Based Deep RL Scales Predictably, Oleh Rybkin+, ICML'25

From f（x） and g（x） to f（g（x））: LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Blog #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 Comment

元ポスト:

Loading…

コントロールされた実験において、深さ2のnestedなcompostition g(f(x))のデータでRLした場合は、テスト時に深さ6までのcompostitionを実行できるようになったが（＝メタスキルとしてcompostitionを獲得した）、深さ1のnon-nestedなデータでRLした場合は複雑なcompostitionが必要なタスクを解けなかった。また、一般的にベースモデルがある程度解ける問題に対してRLを適用したモデルのpass@1000はあまり向上しないことから、RLは新しいスキルを何も教えていないのではないか、といった解釈がされることがあるが、より高次のcompostitionが必要なタスクで評価すると明確に性能が良くなるので、実はより高次のcompostitionが必要なタスクに対する汎化性能を伸ばしている。compostitionでの能力を発揮するにはまず幅広いatomicなスキルが必要なので、しっかりそれを事前学習で身につけさせ、その後post-trainingによって解決したいタスクのためのatomic skillのcompostitionの方法を学習させると効果的なのではないか、といった話な模様。

この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24

slime, THUDM & Zhihu, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Repository #PostTraining Issue Date: 2025-09-02 Comment

元ポスト:

Loading…

GLM-4.5のRL学習に利用されたフレームワーク

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Library #Repository #PostTraining #VisionLanguageModel Issue Date: 2025-09-01 Comment

元ポスト:

Loading…

Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08

Paper/Blog Link My Issue
#Article #Library #Blog #Selected Papers/Blogs #On-Policy #KeyPoint Notes #Reference Collection #train-inference-gap Issue Date: 2025-08-26 Comment

元ポスト:

Loading…

元々
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

のスレッド中にメモっていたが、アップデートがあったようなので新たにIssue化

trainingのエンジン(FSDP等)とロールアウトに使うinferenceエンジン(SGLang,vLLM)などのエンジンのミスマッチにより、学習がうまくいかなくなるという話。

アップデートがあった模様:

Loading…

- Parallelismのミスマッチでロールアウトと学習のギャップを広げてしまうこと（特にsequence parallelism)
- Longer Sequenceの方が、ギャップが広がりやすいこと
- Rolloutのためのinferenceエンジンを修正する（SGLang w/ deterministic settingすることも含む)だけでは効果は限定的

といった感じな模様。

さらにアップデート:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

vLLMがtrain inference mismatchを防ぐアップデートを実施:

Loading…

The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

reasoning-minimal, torotoki, 2025.08

Paper/Blog Link My Issue
#Article #NLP #python #Repository #GRPO #On-Policy #MinimalCode Issue Date: 2025-08-19 Comment

TRLのGRPOTrainer、および独自定義のReward（フォーマット/acc）を用いたミニマルなGRPOの実装。GRPOを実施する際には参照のこと。

ProRL V2 - Prolonged Training Validates RL Scaling Laws, Hu+, 2025.08

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Blog #read-later Issue Date: 2025-08-12 Comment

元ポスト:

Loading…

9 new policy optimization techniques, Kseniase, 2025.07

Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Blog Issue Date: 2025-07-27 Comment

元ポスト:

Loading…

rLLM, Agentica, 2025.06

Paper/Blog Link My Issue
#Article #NLP #Library #AIAgents #PostTraining Issue Date: 2025-07-04 Comment

>rLLM is an open-source framework for post-training language agents via reinforcement learning. With rLLM, you can easily build their custom agents and environments, train them with reinforcement learning, and deploy them for real-world workloads.
なるほど。

バックボーンにはverlが採用されており、シンプルかつ統一的なインタフェースでカスタムエージェントが学習できる模様？

https://rllm-project.readthedocs.io/en/latest/#key-features

元ポスト:

Loading…

v0.2がリリースされ、任意のagentia programの学習がサポートされた模様（マルチエージェントや複雑なワークフローに基づくものなど）:

Loading…

POLARIS: A Post-Training Recipe for Scaling Reinforcement Learning on Advanced Reasoning Models,

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #PostTraining Issue Date: 2025-06-21 Comment

元ポスト:

Loading…

PJで利用されているRLライブラリ:
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

AIME2025のみの評価だが4Bでこの性能…？

Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06

Paper/Blog Link My Issue
#Article #Tutorial #Blog #Off-Policy #On-Policy Issue Date: 2025-06-19 Comment

元ポスト:

Loading…

on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の（Q関数で）Q値が最大となるアクションを選択した場合に得られる価値はどんなもん？というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう（=バイアス）ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい？

verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python Issue Date: 2025-05-16 Comment

SoTAなRLアルゴリズムを数行のコードで実装可能で、Sequence Parallelismがサポートされているので長い系列を扱える。FSDP, Megatron-LM,vLLM,SGLangなどとシームレスに統合できるっぽい？

注意点（超重要）:

Loading…

inference backend（ブログ中ではvLLM, SGLangなどを仮定。ロールアウトに利用する）とtrainingのbackend（モデルを学習するフレームワーク, FSDPなどを仮定する）のミスマッチによってトークンの生起確率に差が生じ、ポリシーの更新がうまくいかなくなる。

- 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07

でも言われているように、ライブラリにはバグがあるのが普通なのね、、、。

Phi-4-reasoning Technical Report, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Reasoning #SmallModel #OpenWeight #GRPO Issue Date: 2025-05-01 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？

Qwen3, Qwen Team, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Comment

- 119言語をサポート
- MoEモデル Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル（非MoEモデル）も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習（Qwen-2.5の2倍）
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成（textbooks / QA pairs / code snippets Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 ）
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度？)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで（i.e., 22Bで）、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ（非Long CoT）を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習（SFT or RLは記述なし）
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施（e.g., instruction following, format following, agent能力など）

BestPracticeに関するポスト:

Loading…

解説:

Loading…

Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #InstructionTuning #Pruning #Reasoning #OpenWeight Issue Date: 2025-04-08 Comment

DeepSeek-R1をGPQA Diamond GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N/A, COLM'24 , AIME2024/2025, Llama4 Maverickを
BFCLv2（Tool Calling, BFCLv2, UC Berkeley, 2024.08 ), IFEVal Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N/A, arXiv'23 で上回り, そのほかはArenaHardを除きDeepSeekR1と同等

DeepSeekR1が671B（MoEで37B Activation Param）に対し、こちらは253B（ただし、Llama3.1がベースなのでMoEではない）で同等以上の性能となっている。
ReasoningをON/OFFする能力も備わっている。

モデルがどのように訓練されたかを示す全体図がとても興味深い:

特に [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 でも有効性が示されているように、SFTをしてからReasoningを強化する（強化というより元々持っている能力を引き出す？）RLを実施している。

詳細は下記Blogとのこと:
https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

元ポスト:

Loading…

QwQ-32B: Embracing the Power of Reinforcement Learning, Qwen Team, 2025.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight Issue Date: 2025-03-06 Comment

元ポスト:

Loading…

- START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv'25

Artificial Analysisによるベンチマークスコア:

Loading…

おそらく特定のタスクでDeepSeekR1とcomparable, 他タスクでは及ばない、という感じになりそうな予感

GRPO Judge Experiments: Findings & Empirical Observations, kalomaze's kalomazing blog, 2025.03

Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Blog #GRPO Issue Date: 2025-03-05 Comment

元ポスト: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_forget-basic-math-problems-grpo-can-do-more-activity-7302608410875691009-nntf?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

一意に解が決まる問題ではなく、ある程度の主観的な判断が必要なタスクについてのGRPOの分析。
2つのテキストを比較するタスクで、一方のタスクはLLMによって摂動を与えている（おそらく意図的にcorruptさせている）。

GRPOではlinearやcosineスケジューラはうまく機能せず、warmupフェーズ有りの小さめの定数が有効らしい。また、max_grad_normを0.2にしまgradient clippingが有効とのこと。

他にもrewardの与え方をx^4にすることや、length, xmlフォーマットの場合にボーナスのrewardを与えるなどの工夫を考察している。

Open Reasoner Zero, Open-Reasoner-Zero, 2024.02

Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Library #python #Reasoning Issue Date: 2025-03-02 GPT Summary- Open-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment

元ポスト:

Loading…

強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #GRPO Issue Date: 2025-02-19 Comment

元ポスト:

Loading…

DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, Luo+, 2025.02

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ContextWindow #Blog #One-Line Notes Issue Date: 2025-02-12 Comment

日本語解説: https://jobirun.com/deepscaler-1-5b-surpasses-o1-preview-rl-scaling/

openreview: https://openreview.net/forum?id=I6GzDCne7U

Iterative Context Lengtheningと呼ばれる、RLの学習時に最初から固定された大きなcontext（24Kなど）ではなく、学習の過程で小さなcontext windowから始め、効率的なreasoningを学習させながら、段階的にモデルのcontext windowを引き上げる手法（論文中では8K->16K->24K)を提案している。

trl_trlx

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library Issue Date: 2023-07-23 Comment

TRL - 強化学習によるLLMの学習のためのライブラリ
https://note.com/npaka/n/nbb974324d6e1

trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみる
https://www.ai-shift.co.jp/techblog/3583

Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05

Paper/Blog Link My Issue
#Article #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #Evaluation #Blog #Reasoning Issue Date: 2023-05-04

ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05

Paper/Blog Link My Issue
#Article #Tutorial #Pocket #Blog #Off-Policy Issue Date: 2021-06-07