DecisionMaking


Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Delegation Issue Date: 2026-02-16 GPT Summary- AIエージェントは、複雑なタスクを意味のある小さなコンポーネントに分解し、他のAIや人間に委任する能力が求められる。しかし、既存の方法は単純なヒューリスティックに依存し、環境変化への適応や Unexpected failure に対処することができない。本研究では、タスク割り当てや信頼構築を組み込んだ適応的フレームワークを提案し、複雑な委任ネットワークにおける人間とAI双方に適用可能な新たなプロトコルの開発を目指す。

Paper/Blog Link My Issue
#Analysis #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #ICLR #Test-Time Scaling #PostTraining #Multi-Armed Bandit #Exploration Issue Date: 2026-01-31 GPT Summary- LLMのエージェントアプリケーションにおける探求と解決の効率性を分析。最適なパフォーマンスを妨げる「知識と行動のギャップ」や貪欲性、頻度バイアスという失敗モードを特定。強化学習(RL)によるファインチューニングを提案し、探索を増加させて意思決定能力を改善。古典的な探索メカニズムとLLM特有のアプローチの両方を融合させ、効果的なファインチューニングの実現を目指す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=weUP6H5Ko9

- greediness
- frequency bias
- the knowing-doing gap