TextualFeedback
[Paper Note] Expanding the Capabilities of Reinforcement Learning via Text Feedback, Yuda Song+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining #read-later #SelfDistillation Issue Date: 2026-02-05 GPT Summary- テキストフィードバックを用いた強化学習(RL)によるLLMの後処理を研究。スカラー報酬に対し、テキストフィードバックはコストが低く、豊かな情報を提供。モデルはトレーニング時にフィードバックを内部化し、推論時にシングルターンの性能を向上させる。自己蒸留(RLTF-SD)とフィードバックモデリング(RLTF-FM)の2つの手法を提案し、さまざまなタスクでの効果を検証。結果は強力なベースラインを上回ることで、豊かな監視源としてのRLの可能性を示している。 Comment
pj page: https://rl-textfeedback.github.io/
元ポスト:
[Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #One-Line Notes #SelfDistillation Issue Date: 2026-01-30 GPT Summary- リッチフィードバックを活用した強化学習手法SDPOを提案。従来の手法がスカラー報酬に依存するのに対し、SDPOは豊富なテキストフィードバックを用いてセルフディスティレーションを行い、モデルの誤りを特定。科学的推論や競技プログラミングにおいて、サンプル効率と精度を向上し、標準的なRLVR環境でも優れた性能を発揮。テスト時には試行回数を削減しつつ、発見確率を維持可能。 Comment
ロールアウトに対するフィードバックを活用して学習のシグナルをよりdenseにする
ポイント解説:
[Paper Note] Language Models Can Learn from Verbal Feedback Without Scalar Rewards, Renjie Luo+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2025-09-29 GPT Summary- LLMsの訓練において、フィードバックを条件信号として扱う新しい手法、フィードバック条件付きポリシー(FCP)を提案。FCPは応答-フィードバックペアから直接学習し、オンラインで自己を洗練させることで、報酬最適化ではなく条件生成によるフィードバック駆動の学習を実現。 Comment
元ポスト:
以下とはどこが異なるだろうか?:
- Large Language Models as Optimizers, Chengrun Yang+, N/A, ICLR'24
こちらはメタプロンプトを用いてテキスト空間上で反復的にプロンプトをチューニングする枠組みだが、本研究はフィードバック(報酬モデルの報酬にすると消えてしまうテキストの微妙なニュアンス等のシグナル)に基づいてパラメータを更新するので全く異なる枠組みだった。
openreview:
https://openreview.net/forum?id=F4LBDJtsDX
RMからではなくVerbal Feedbackからモデルが効果的に学習できることはAilgnmentのスケーリングに重要な技術だという指摘が多い。
[Paper Note] RLVF: Learning from Verbal Feedback without Overgeneralization, Moritz Stephan+, ICML'24, 2024.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #ICML #PostTraining #Generalization Issue Date: 2026-02-01 GPT Summary- 高レベルの言語フィードバックを用いてLLMの調整を行う際、過剰一般化の問題を解決するために「C3PO」手法を提案。C3POはフィードバックを適用する方法を指定する合成嗜好データセットを生成し、元のモデルから逸脱を抑えつつ微調整を実施。実験により、他の文脈の動作を維持しながら、フィードバックの遵守と過剰一般化を30%削減できることを示した。 Comment
pj page: https://austrian-code-wizard.github.io/c3po-website/
