LongHorizon

#Pocket #NLP #LanguageModel #ReinforcementLearning #LLMAgent #SyntheticData
Issue Date: 2025-10-09 [Paper Note] h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning, Sumeet Ramesh Motwani+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルは短期的な推論には強いが、長期的な推論では性能が低下する。既存のアプローチはスケールしにくい。本研究では、短期データを用いて長期的な推論能力を向上させるスケーラブルな方法を提案。単純な問題を合成し、複雑な多段階依存チェーンを構成。結果のみの報酬でモデルを訓練し、カリキュラムを通じて精度を向上。実験により、GSM8Kでの訓練がGSM-SymbolicやMATH-500などのベンチマークでの精度を最大2.06倍向上させることを示した。理論的には、カリキュラムRLがサンプルの複雑さにおいて指数的な改善を達成することを示し、既存データを用いた長期的な問題解決の効率的な道を提案。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…