Delegation
[Paper Note] Recursive Agent Optimization, Apurva Gandhi+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Test-Time Scaling #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #RecursiveModels #Initial Impression Notes #Orchestration #Author Thread-Post Issue Date: 2026-05-10 GPT Summary- 再帰エージェント最適化(RAO)を導入し、エージェントが自身のインスタンスを生成してサブタスクを委任できる強化学習アプローチを提案。推論時のスケーリングアルゴリズムを実装し、長い文脈への拡張と難しい問題への一般化を可能にする。この訓練により、効率が向上し、タスクのスケールや一般化能力が高まり、実時間の短縮が実現される。 Comment
元ポスト:
著者ポスト:
pj page: https://apga.github.io/RAO/
再帰的にAI Agentがサブタスクを委任する子エージェント(子エージェントは自身のコピー)を作成できるようにし、子エージェントがサブタスクを実施した際のRewardや子エージェントのタスクの成功率などの情報に基づいて親エージェントの報酬が決まるような報酬設計にする。再帰が深くなるにつれ、サブタスクは簡単になっていくため、エージェントは自然に学習するためのカリキュラムを構築していると捉えることができる。これにより、エージェントがタスクをサブタスクに分解し再帰的にinferenceをするような挙動をend-to-endで学習する。再帰の木構造の深さは、場合によっては特定の部分木が非常に深いものとなってしまうケースもあるため、深さの情報に基づいて重みづけを調整する。
という感じだろうか。
サブタスクを委任するポリシーが自分のコピーで、これにより自分自身を分解されたサブタスク上から得られる報酬と、適切な委任による報酬によって訓練することになるといううまい報酬設計がミソな気がする。
著者ポスト2:
[Paper Note] Intelligent AI Delegation, Nenad Tomašev+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #DecisionMaking Issue Date: 2026-02-16 GPT Summary- AIエージェントは、複雑なタスクを意味のある小さなコンポーネントに分解し、他のAIや人間に委任する能力が求められる。しかし、既存の方法は単純なヒューリスティックに依存し、環境変化への適応や Unexpected failure に対処することができない。本研究では、タスク割り当てや信頼構築を組み込んだ適応的フレームワークを提案し、複雑な委任ネットワークにおける人間とAI双方に適用可能な新たなプロトコルの開発を目指す。
