VerbalFeedback
[Paper Note] Language Models Can Learn from Verbal Feedback Without Scalar Rewards, Renjie Luo+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2025-09-29 GPT Summary- LLMsの訓練において、フィードバックを条件信号として扱う新しい手法、フィードバック条件付きポリシー(FCP)を提案。FCPは応答-フィードバックペアから直接学習し、オンラインで自己を洗練させることで、報酬最適化ではなく条件生成によるフィードバック駆動の学習を実現。 Comment
元ポスト:
以下とはどこが異なるだろうか?:
- Large Language Models as Optimizers, Chengrun Yang+, N/A, ICLR'24
こちらはメタプロンプトを用いてテキスト空間上で反復的にプロンプトをチューニングする枠組みだが、本研究はフィードバック(報酬モデルの報酬にすると消えてしまうテキストの微妙なニュアンス等のシグナル)に基づいてパラメータを更新するので全く異なる枠組みだった。
openreview:
https://openreview.net/forum?id=F4LBDJtsDX
RMからではなくVerbal Feedbackからモデルが効果的に学習できることはAilgnmentのスケーリングに重要な技術だという指摘が多い。
[Paper Note] RLVF: Learning from Verbal Feedback without Overgeneralization, Moritz Stephan+, ICML'24, 2024.02
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #SyntheticData #ICML #Generalization Issue Date: 2026-02-01 GPT Summary- 高レベルの言語フィードバックを用いてLLMの調整を行う際、過剰一般化の問題を解決するために「C3PO」手法を提案。C3POはフィードバックを適用する方法を指定する合成嗜好データセットを生成し、元のモデルから逸脱を抑えつつ微調整を実施。実験により、他の文脈の動作を維持しながら、フィードバックの遵守と過剰一般化を30%削減できることを示した。 Comment
pj page: https://austrian-code-wizard.github.io/c3po-website/
