Open-endedTasks
[Paper Note] Language Models that Think, Chat Better, Adithya Bhaskar+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2025-09-25 GPT Summary- 強化学習における検証可能な報酬(RLVR)は、特定のドメインでの推論を改善するが、オープンエンドのタスクには限界がある。本研究では、RLVRの枠組みを超えた一般的なチャット機能のためのRLとモデル報酬思考(RLMT)を提案。RLMTは、長い連鎖的思考を生成し、嗜好ベースの報酬モデルで最適化する。実験により、RLMTは標準的なRLHFパイプラインを上回り、特にチャットや創造的執筆での性能向上を示した。最良のモデルはGPT-4oを超え、少ないデータでのトレーニングでも高い性能を発揮。結果は、ポストトレーニングパイプラインの再考と今後の研究の必要性を示唆している。 Comment
元ポスト:
解説:
openreview: https://openreview.net/forum?id=trBEiQFkxw
