Open-endedTasksに関する論文・技術記事メモの一覧

Open-endedTasks

[Paper Note] Language Models that Think, Chat Better, Adithya Bhaskar+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2025-09-25 GPT Summary- 強化学習における検証可能な報酬（RLVR）は、特定のドメインでの推論を改善するが、オープンエンドのタスクには限界がある。本研究では、RLVRの枠組みを超えた一般的なチャット機能のためのRLとモデル報酬思考（RLMT）を提案。RLMTは、長い連鎖的思考を生成し、嗜好ベースの報酬モデルで最適化する。実験により、RLMTは標準的なRLHFパイプラインを上回り、特にチャットや創造的執筆での性能向上を示した。最良のモデルはGPT-4oを超え、少ないデータでのトレーニングでも高い性能を発揮。結果は、ポストトレーニングパイプラインの再考と今後の研究の必要性を示唆している。 Comment

元ポスト:

Loading…

解説:

Loading…

openreview: https://openreview.net/forum?id=trBEiQFkxw