DecisionMaking


Paper/Blog Link My Issue
#Analysis #Pocket #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #ICLR #Test-Time Scaling #Multi-Armed Bandit #Exploration Issue Date: 2026-01-31 GPT Summary- LLMのエージェントアプリケーションにおける探求と解決の効率性を分析。最適なパフォーマンスを妨げる「知識と行動のギャップ」や貪欲性、頻度バイアスという失敗モードを特定。強化学習(RL)によるファインチューニングを提案し、探索を増加させて意思決定能力を改善。古典的な探索メカニズムとLLM特有のアプローチの両方を融合させ、効果的なファインチューニングの実現を目指す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=weUP6H5Ko9

- greediness
- frequency bias
- the knowing-doing gap