Orchestration


Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Test-Time Scaling #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #RecursiveModels #Initial Impression Notes #Delegation #Author Thread-Post Issue Date: 2026-05-10 GPT Summary- 再帰エージェント最適化(RAO)を導入し、エージェントが自身のインスタンスを生成してサブタスクを委任できる強化学習アプローチを提案。推論時のスケーリングアルゴリズムを実装し、長い文脈への拡張と難しい問題への一般化を可能にする。この訓練により、効率が向上し、タスクのスケールや一般化能力が高まり、実時間の短縮が実現される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

pj page: https://apga.github.io/RAO/

再帰的にAI Agentがサブタスクを委任する子エージェント(子エージェントは自身のコピー)を作成できるようにし、子エージェントがサブタスクを実施した際のRewardや子エージェントのタスクの成功率などの情報に基づいて親エージェントの報酬が決まるような報酬設計にする。再帰が深くなるにつれ、サブタスクは簡単になっていくため、エージェントは自然に学習するためのカリキュラムを構築していると捉えることができる。これにより、エージェントがタスクをサブタスクに分解し再帰的にinferenceをするような挙動をend-to-endで学習する。再帰の木構造の深さは、場合によっては特定の部分木が非常に深いものとなってしまうケースもあるため、深さの情報に基づいて重みづけを調整する。

という感じだろうか。

サブタスクを委任するポリシーが自分のコピーで、これにより自分自身を分解されたサブタスク上から得られる報酬と、適切な委任による報酬によって訓練することになるといううまい報酬設計がミソな気がする。

著者ポスト2:

Loading…




Paper/Blog Link My Issue
#Multi #NLP #Dataset #LanguageModel #AIAgents #Evaluation #ICML #read-later #Selected Papers/Blogs #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-09 GPT Summary- MASのオーケストレーションを強化学習形式で定式化するMASOrchestraを提案。これにより、エージェントの複雑性を管理し、システム全体のグローバルな推論を促進。タスクを5軸で分析するMASBENCHを導入し、利得がタスクや能力に依存することを示す。公開ベンチマークで一貫した改善を達成し、10倍以上の効率を実現。MASOrchestraとMASBENCHはマルチエージェント知性の向上を目指す。 Comment

元ポスト:

Loading…

SASと比べてMASにすることでどれだけ利点があるかをモデルが理解せずにfoldingしてるよね、というのは重要な指摘に感じる。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ICLR #Test-Time Scaling #read-later #Author Thread-Post Issue Date: 2026-04-26 GPT Summary- Conductorモデルを導入し、LLM間の協調戦略を自動発見。通信トポロジを設計し、個々のLLMの能力を最大化する指示を生成。7BパラメータのConductorは、単一ワーカーを超える性能向上を実現し、難解なベンチマークで最先端結果を達成。ランダム化されたエージェント訓練により、任意のエージェント集合に適応し、新たな再帰的トポロジを形成してオンラインでの性能向上を図る。この研究は、強力な協調戦略がRLを通じて自然に現れることを示す初期の実証である。 Comment

openreview: https://openreview.net/forum?id=U23A2BUKYt

公式ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ICLR #read-later #Author Thread-Post Issue Date: 2026-04-26 GPT Summary- Trinityは、LLMs間の協調を調整する軽量なコーディネーターを用いて、基盤モデルの統合に伴う制約を解決する。約6億パラメータのコンパクトな言語モデルと約1万パラメータの軽量ヘッドから成り、適応的な委任を実現。複数ターンにわたるクエリに対して、コーディネーターは各LLMに役割を割り当て、スキルを効果的にオフロードする。実験の結果、Trinityはコード作成や数学、推論、領域知識タスクで優れた性能を示し、標準ベンチマークで最先端の成果を達成。コーディネーターの隠れ状態表現が文脈化を提供し、進化戦略の適用が有利であることが確認された。 Comment

openreview: https://openreview.net/forum?id=5HaRjXai12

公式ポスト: https://www.linkedin.com/posts/hardmaru_iclr2026-share-7454115310565216259-5uV-?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4




Paper/Blog Link My Issue
#NLP #AIAgents Issue Date: 2026-02-23 GPT Summary- LLM駆動のマルチエージェントシステムを用いて、コード生成タスクのための動的なトポロジーを実現。AgentConductorは、エージェントの役割と難易度に応じて最適な通信グラフを生成し、冗長性を減少。実験結果では、競技レベルのデータセットで最先端の精度を達成し、従来の方法を大幅に上回る成果を示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #KeyPoint Notes #LongHorizon #Adaptive #BudgetAllocation Issue Date: 2026-02-11 GPT Summary- 任意のエージェントを命令・コンテキスト・ツール・モデルのタプルとしてモデル化し、タスクの自動化を促進する統一されたフレームワークを提案。AOrchestraでは中央オーケストレーターがタプルを具体化し、専門的な実行者を生成。この設計により、エンジニアリング作業を削減しつつ、エージェントの多様性と性能を最適化。実験では、AOrchestraが競合モデルに対して16.28%の相対改善を達成。 Comment

元ポスト:

Loading…

サブエージェントを生成するオーケストレータを学習し、動的に直面するタスクに適応したサブエージェント(適切なコンテキスト, 指示, ツール, モデル)[^1]を持つエージェントを構築し、実行を委譲することで、固定されたハーネスに依存せず、人間がエンジニアリングするコストも削減しながら、性能が向上する、という話に見える。
image

ベンチマークの性能向上が非常に大きく、効果的な手法であることが伺える。

[^1]: このようなサブエージェントのAbstractionを定義したのも貢献だと考えられる。

具体的な手法としては下記で、(a)オーケストレータエージェントがユーザからタスクを受け取り、サブタスクを解くためにサブエージェントを構築し委譲する。その後結果を受けとり状態を更新し、さらにサブエージェントを構築しタスクを委譲する、といった操作を繰り返す。(b)サブエージェントは(M, T, I, C)によって抽象化され、それぞれモデル、ツール、指示、コンテキストである。図中の(c)では自己教師あり学習が利用される旨が記述されているが、本文中ではSFTを使うと記述されているためここは齟齬があるように感じる(タイポも含まれている)。オーケストレーションのポイントは、タスクのオーケストレーションと、モデルのルーティングの二つの要素に分けられる。前者をSFTで学習し、後者はInstructionをiterativeに改善するプロセスで最適化する。

具体的には、オーケストレーションという特化したタスクを学習させるため、今回はexpertによる正解となる(T, I, C)を模倣できるように、SFTで学習する(GRPOのような手法でも学習できることについても言及されている点には注意)。
また、後者のモデルルーティングの最適化については、さまざまなモデルに対してInstructionを与え、得られたtrajectoryに対して性能とコストを計算し、これらを考慮してInstructionを更新することを繰り返すAutomatic Prompt Optimizationを採用している。これにより、コストと性能のパレート最適な構成を見つける。

image




Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #AIAgents #Proprietary #Initial Impression Notes Issue Date: 2026-04-26 Comment

元ポスト:

Loading…

関連:
- [Paper Note] TRINITY: An Evolved LLM Coordinator, Jinglue Xu+, ICLR'26, 2025.12
- [Paper Note] Learning to Orchestrate Agents in Natural Language with the Conductor, Stefan Nielsen+, ICLR'26, 2025.12

複数のフロンティアモデルを(おそらく個々のモデルのタスクごとの強みに合わせて)動的にオーケストレーションすることで高い性能を達成する