PPO (ProximalPolicyOptimization)に関する論文・技術記事メモの一覧

PPO (ProximalPolicyOptimization)

[Paper Note] Rethinking the Trust Region in LLM Reinforcement Learning, Penghui Qi+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #train-inference-gap Issue Date: 2026-02-06 GPT Summary- 強化学習におけるPPOの限界を指摘し、低確率トークンの更新が過剰に罰せられる問題を解決するため、ダイバージェンス近似ポリシー最適化（DPPO）を提案。DPPOは、ポリシーの逸脱を直接推定することで学習ダイナミクスの非最適性を改善し、効率的なバイナリおよびトップK近似を導入することでトレーニングの安定性と効率を向上させる。 Comment

元ポスト:

Loading…

PPOはトークン単位の確率比をrefと現在のポリシーからの算出しrefから離れすぎないようにクリッピングをするが、この場合非常に低確率で出現するトークンは過剰にクリッピングされる傾向にある。しかしその低確率トークンを調べると実はReasoningにおいて重要なトークンであったり（Wait, Thus, Next)、数学での重要なシンボル（+,-,=)、数値トークンであり、結果的にこれらReasoning系のタスクで重要なトークンの学習を阻害してしまっており（実際にこれらの低確率トークンをクリッピングされないようにしたら学習効率が大幅に改善）、語彙数が多いLLMの学習においては相性が悪い（別の視点として高確率トークンに対して過剰にペナルティを与えるという傾向もある）。これを改善するために、確率比をクリッピングするのではなく、ポリシーとrefのDivergenceの上界を直接制約することで解決し（語彙数が大きすぎてDivergenceを計算できないので近似的な計算方法も提案されている模様）、実際に適用すると学習が非常に安定し、かつ学習効率が既存手法と比較して高まりました、という話にみえる。

解説:

Loading…

一言解説:

Loading…

[Paper Note] Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning, Bowen Jin+, COLM'25, 2025.03

Paper/Blog Link My Issue
#NLP #Search #LanguageModel #ReinforcementLearning #Reasoning #COLM #GRPO #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-04-06 GPT Summary- 大規模言語モデル（LLMs）における外部知識の取得を改善するため、Search-R1という強化学習フレームワークを提案。リアルタイムで複数の検索クエリを生成し、推論過程を最適化。実験では、Search-R1が従来のRAGベースラインよりも大幅に性能を向上させた。さらに、RL手法と応答長のダイナミクスに関する洞察も提供。 Comment

openreview: https://openreview.net/forum?id=Rwhi91ideu#discussion

LLMにおいて検索を活用する方法として、従来はRAGやマルチターン会話の中でマルチクエリを用いて検索を取り入れるprompt-basedな手法と、検索エンジンをツールとして利用することを学習するtraining-based手法があったが、前者はLLMがどのように検索エンジンとinteractionするかを十分に理解しておらず、事前学習時に学習されていないタスクに対して汎化しづらいという欠点があり、後者は前者よりもより高い柔軟性を持つが、高品質なtrajectoryの不足によりスケーラビリティに乏しく、検索操作は微分不可能なため勾配ベースの手法による学習ができないという欠点があった。

これを克服し、LLMがreasoningプロセスの中でより柔軟に検索エンジンを用い、かつそれをマルチターンで実施できるような手法として、GRPO/PPOに基づく枠組みを提案しているようである。検索エンジンを用いる枠組みにおいてRLを適用する際には
- (1)検索されたコンテキストをどのようにRLに組み込めば安定したRLを実現できるかは未知
- (2)理想的にはiterativeにreasoningとsearchを繰り返し、タスクの難易度に応じて使い分けてほしいが、どのように実現するかは未知
- (3)検索とreasoningの両方を効果的に扱える報酬関数が未知

という課題があるが、これらに対して

- (1)検索によって得られたトークンはmaskをし
- (2)検索が必要な場合は

queryトークンを出力させるようにガイドし、ロールアウトの最中に同トークンがdetectされた場合は検索結果をタグを用いてappendしロールアウトを継続し、アクションの上限回数、トークンが出現するまで生成を繰り返す枠組みを提案し
- (3)ルールベースのexact matchによるRewardを採用（式4)

することで対処した、という話のようである。

[Paper Note] 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#Survey #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #InstructionTuning #Reasoning #LongSequence #RewardHacking #GRPO #Contamination-free #VerifiableRewards #CurriculumLearning #One-Line Notes Issue Date: 2025-05-06 GPT Summary- RLMの進展は新しい言語モデルの進化を示し、DeepSeek-R1のリリースが社会的影響を生んでいる。DeepSeekの実装は完全にオープンではないが、多くの再現研究が登場し、同等の性能を達成。特にSFTとRLVRに重点を置き、データ構築や手法設計に関する知見を提供。実装の詳細と実験結果をまとめ、RLMの性能向上技術や開発課題についても議論。研究者が最新の進展を把握し、新しいアイデアを促進することを目指す。 Comment

元ポスト:

Loading…

サーベイのtakeawayが箇条書きされている。

[Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08

Paper/Blog Link My Issue
#Tutorial #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #MultiModal #Pruning #PEFT(Adaptor/LoRA) #LLMServing #DPO #PostTraining #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-10-17 GPT Summary- 本報告書では、大規模言語モデル（LLMs）のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法（LoRA、Half Fine-Tuning）に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…

[Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Alignment #ReinforcementLearning #ICML #DPO #On-Policy #Reference Collection Issue Date: 2025-06-25 GPT Summary- 好みのラベルを用いた大規模言語モデルのファインチューニングに関する研究。オンポリシー強化学習や対照学習などの手法を比較し、オンポリシーサンプリングや負の勾配を用いるアプローチが優れていることを発見。これにより、カテゴリ分布の特定のビンにおける確率質量を迅速に変更できるモード探索目的の重要性を示し、データ収集の最適化に関する洞察を提供。 Comment

以下のオフライン vs. オンラインRLアルゴリズムで本研究が引用されている:

Loading…

[Paper Note] Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, arXiv'23, 2023.07

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #RLHF #Initial Impression Notes Issue Date: 2023-07-12 GPT Summary- 大規模言語モデル（LLM）は人間中心のアシスタントとしての機能を目指し、強化学習（RLHF）が重要な技術的枠組みとされています。報酬モデル、近似ポリシー最適化（PPO）、プロセス監視がその技術的ルートとして含まれますが、訓練の課題や試行錯誤コストが障壁となっています。本報告では、RLHFの枠組みとPPOの内部動作を探求し、ポリシー制約がアルゴリズムの効果的実装における鍵要因であることを特定。新たにPPO-maxを提案し、訓練の安定性向上を目指しています。また、SFTモデルやChatGPTとの比較分析を行い、オープンソース実装の重要性を強調しています。 Comment

RLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。

github: https://github.com/OpenLMLab/MOSS-RLHF

日本語解説: https://www.docswell.com/s/DeepLearning2023/5M19RW-dlsecrets-of-rlhf-in-large-language-models-part-i-ppo

Training language models to follow instructions with human feedback, Long Ouyang+, N_A, NeurIPS'22

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ChatGPT #RLHF #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2024-04-28 GPT Summary- 大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 Comment

ChatGPTの元となる、SFT→Reward Modelの訓練→RLHFの流れが提案された研究。DemonstrationデータだけでSFTするだけでは、人間の意図したとおりに動作しない問題があったため、人間の意図にAlignするように、Reward Modelを用いたRLHFでSFTの後に追加で学習を実施する。Reward Modelは、175Bモデルは学習が安定しなかった上に、PPOの計算コストが非常に大きいため、6BのGPT-3を様々なNLPタスクでSFTしたモデルをスタートにし、モデルのアウトプットに対して人間がランキング付けしたデータをペアワイズのloss functionで訓練した。最終的に、RMのスコアが最大化されるようにSFTしたGPT-3をRLHFで訓練するが、その際に、SFTから出力が離れすぎないようにする項と、NLPベンチマークでの性能が劣化しないようにpretrain時のタスクの性能もloss functionに加えている。