RLHFに関する論文・技術記事メモの一覧

RLHF

[Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiModal #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM

アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。

[Paper Note] Language Models Learn to Mislead Humans via RLHF, Jiaxin Wen+, ICLR'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR Issue Date: 2025-06-24 GPT Summary- RLHFは言語モデルのエラーを悪化させる可能性があり、モデルが人間を納得させる能力を向上させる一方で、タスクの正確性は向上しない。質問応答タスクとプログラミングタスクで被験者の誤検出率が増加し、意図された詭弁を検出する手法がU-SOPHISTRYには適用できないことが示された。これにより、RLHFの問題点と人間支援の研究の必要性が浮き彫りになった。 Comment

参考: https://joisino.hatenablog.com/entry/mislead

All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reference Collection #Initial Impression Notes Issue Date: 2025-03-17 GPT Summary- 基盤モデルのファインチューニングにおいて、報酬モデルを用いた二段階のトレーニング手順が効果的である理由を理論的および実証的に検討。特に、好みデータから単純な報酬モデルを学び、強化学習手続きがそのモデルに最適なポリシーをフィルタリングする能力が、オンラインファインチューニングの優れたパフォーマンスに寄与することが示された。 Comment

元ポスト:

Loading…

AlignmentのためのPreferenceデータがある時に、そのデータから直接最尤推定してモデルのパラメータを学習するのではなく、報酬モデルを学習して、その報酬モデルを用いてモデルを強化学習することで、なぜ前者よりも（同じデータ由来であるにもかかわらず）優れたパフォーマンスを示すのか、という疑問に対してアプローチしている。

全く中身を読めていないが、生成することと（方策モデル）と検証すること（報酬モデル）の間にギャップがある場合（すなわち、生成と検証で求められる能力が異なる場合）、MLEでは可能なすべてのポリシーを探索することと似たようなことをすることになるが、RLでは事前に報酬モデルを学習しその報酬モデルに対して最適なポリシーを探索するだけなので探索する空間が制限される（＝生成と検証のギャップが埋まる）ので、良い解に収束しやすくなる、というイメージなんだろうか。

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #Mathematics #GRPO #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-01-04 GPT Summary- DeepSeekMath 7Bは、120Bの数学関連トークンを用いて事前学習された言語モデルで、競技レベルのMATHベンチマークで51.7%のスコアを達成。自己一貫性は60.9%で、データ選択パイプラインとGroup Relative Policy Optimization (GRPO)の導入により数学的推論能力が向上。Gemini-UltraやGPT-4に迫る性能を示す。 Comment

元ポスト: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_the-rlhf-method-behind-the-best-open-models-activity-7280850174522843137-3V9v?utm_source=share&utm_medium=member_ios

元々数学のreasoningに関する能力を改善するために提案されたが、現在はオンラインでTruthfulness, Helpfulness, Concisenessなどの改善に活用されているとのこと。

PPOとGRPOの比較。value function model（状態の価値を予測するモデル）が不要なため省メモリ、かつ利用する計算リソースが小さいらしい。
あとサンプルをグループごとに分けて、グループ内でのKLダイバージェンスが最小化されるよう（つまり、各グループ内で方策が類似する）Policy Modelが更新される（つまりloss functionに直接組み込まれる）点が違うらしい。

PPOでは生成するトークンごとにreference modelとPolicy ModelとのKLダイバージェンスをとり、reference modelとの差が大きくならないよう、報酬にペナルティを入れるために使われることが多いらしい。

下記記事によると、PPOで最大化したいのはAdvantage（累積報酬と状態価値（累積報酬の期待値を計算するモデル）の差分;期待値よりも実際の累積報酬が良かったら良い感じだぜ的な数値）であり、それには状態価値を計算するモデルが必要である。そして、PPOにおける状態価値モデルを使わないで、LLMにテキスト生成させて最終的な報酬を平均すれば状態価値モデル無しでAdvantageが計算できるし嬉しくね？という気持ちで提案されたのが、本論文で提案されているGRPOとのこと。勉強になる。

DeepSeek-R1の論文読んだ？【勉強になるよ】
, asap: https://zenn.dev/asap/articles/34237ad87f8511

Does RLHF Scale? Exploring the Impacts From Data, Model, and Method, Zhenyu Hou+, arXiv'24

Paper/Blog Link My Issue
#Analysis #NLP #Alignment #ReinforcementLearning #PostTraining #Scalability Issue Date: 2025-01-03 GPT Summary- 本研究では、LLMsにおけるRLHFのスケーリング特性を分析し、モデルサイズ、データ構成、推論予算がパフォーマンスに与える影響を調査。データの多様性と量の増加が報酬モデルの性能向上に寄与する一方、ポリシートレーニングでは応答サンプル数の増加が初期パフォーマンスを向上させるが、すぐに頭打ちになることが判明。RLHFは事前トレーニングより効率的にスケールせず、計算リソースの収益逓減が観察された。計算制限内でのRLHFパフォーマンス最適化戦略も提案。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=FIXk0RP960

[Paper Note] Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, arXiv'23, 2023.07

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PPO (ProximalPolicyOptimization) #Initial Impression Notes Issue Date: 2023-07-12 GPT Summary- 大規模言語モデル（LLM）は人間中心のアシスタントとしての機能を目指し、強化学習（RLHF）が重要な技術的枠組みとされています。報酬モデル、近似ポリシー最適化（PPO）、プロセス監視がその技術的ルートとして含まれますが、訓練の課題や試行錯誤コストが障壁となっています。本報告では、RLHFの枠組みとPPOの内部動作を探求し、ポリシー制約がアルゴリズムの効果的実装における鍵要因であることを特定。新たにPPO-maxを提案し、訓練の安定性向上を目指しています。また、SFTモデルやChatGPTとの比較分析を行い、オープンソース実装の重要性を強調しています。 Comment

RLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。

github: https://github.com/OpenLMLab/MOSS-RLHF

日本語解説: https://www.docswell.com/s/DeepLearning2023/5M19RW-dlsecrets-of-rlhf-in-large-language-models-part-i-ppo

Training language models to follow instructions with human feedback, Long Ouyang+, N_A, NeurIPS'22

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ChatGPT #PPO (ProximalPolicyOptimization) #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2024-04-28 GPT Summary- 大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 Comment

ChatGPTの元となる、SFT→Reward Modelの訓練→RLHFの流れが提案された研究。DemonstrationデータだけでSFTするだけでは、人間の意図したとおりに動作しない問題があったため、人間の意図にAlignするように、Reward Modelを用いたRLHFでSFTの後に追加で学習を実施する。Reward Modelは、175Bモデルは学習が安定しなかった上に、PPOの計算コストが非常に大きいため、6BのGPT-3を様々なNLPタスクでSFTしたモデルをスタートにし、モデルのアウトプットに対して人間がランキング付けしたデータをペアワイズのloss functionで訓練した。最終的に、RMのスコアが最大化されるようにSFTしたGPT-3をRLHFで訓練するが、その際に、SFTから出力が離れすぎないようにする項と、NLPベンチマークでの性能が劣化しないようにpretrain時のタスクの性能もloss functionに加えている。

[Paper Note] Scalable agent alignment via reward modeling: a research direction, Jan Leike+, arXiv'18, 2018.11

Paper/Blog Link My Issue
#ReinforcementLearning Issue Date: 2026-06-12 GPT Summary- 報酬関数の設計が強化学習アルゴリズムの実用化における障害であり、ユーザーの意図との整合性が求められるエージェントアラインメント問題を引き起こす。本研究では、ユーザーとの対話を通じて報酬関数を学習し、それを最適化するアプローチを提案。複雑なドメインでの報酬モデリングにおける課題と緩和策、及び信頼性の確立について考察する。

[Paper Note] Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces, Garrett Warnell+, arXiv'17, 2017.09

Paper/Blog Link My Issue
#ReinforcementLearning Issue Date: 2026-06-12 GPT Summary- 人間のリアルタイムフィードバックを活用することで、深層強化学習エージェントの学習速度を向上させる方法を提案。特に、TAMERフレームワークの拡張であるDeep TAMERを導入し、短時間で複雑なタスクを学習可能に。実験では、わずか15分のフィードバックによって、Atariのボウリングにおいて人間のパフォーマンスを超える成果を達成。

[Paper Note] Interactive Learning from Policy-Dependent Human Feedback, James MacGlashan+, arXiv'17, 2017.01

Paper/Blog Link My Issue
#ReinforcementLearning Issue Date: 2026-06-12 GPT Summary- 人間の教師からのフィードバックは学習者の現在のポリシーに依存することを示し、正のフィードバックと負のフィードバックが与える影響を調査。ポリシー依存のフィードバックを用いるConvergent Actor-Critic by Humans（COACH）を提案し、物理的ロボット上での複数の行動を成功裏に学習できることを実証。

[Paper Note] Deep reinforcement learning from human preferences, Paul Christiano+, NIPS'17, 2017.06

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #ReinforcementLearning #NeurIPS #Robotics #Game Issue Date: 2026-02-12 GPT Summary- 人間の好みに基づいてRL目標を定義し、報酬関数なしで複雑なタスクを解決。Atariゲームやロボットの移動を通じて、1％未満のフィードバックで効果を示し、人間の監視コストを削減。約1時間のトレーニングで新しい行動を成功裡に習得。