ToolUse
[Paper Note] AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents, Zhengkang Guo+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #Generalization #LongHorizon #Initial Impression Notes Issue Date: 2026-05-13 GPT Summary- AgentEscapeBenchを導入し、LLMエージェントの新規ツール使用手順の推測・実行・修正能力を評価。脱出ゲーム形式のタスクは、依存グラフに基づいてエージェントが外部関数を呼び出し、隠れ状態や中間結果を追跡する。実験では、依存深さが増すほど性能が急低下し、成功率が難易度により大きく変動することを示した。これにより、現在のエージェントは局所的なツール使用には強いが、深い文脈依存には苦労していることが明らかに。AgentEscapeBenchは、エージェント能力の測定と今後の訓練への示唆を提供する。 Comment
元ポスト:
エージェントが慣れ親しんだ設定から離れて、脱出ゲーム風のベンチマークによって、未知のツールやアイテムを活用して環境と相互作用しながら文脈を理解し、最終的なanswerを答えるなければならない。
新たな環境での未知のツールに対する汎化性能を測るベンチマークであり、非常に興味深い。
下記研究のように、既存の知識への依存を減らして、実務能力を問うベンチマークとも言える:
- [Paper Note] DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents, Peter Jansen+, NeurIPS'24 Spotlight, 2024.06
[Paper Note] Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning, Qianjia Cheng+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #PostTraining #reading #Initial Impression Notes Issue Date: 2026-05-11 GPT Summary- ツール統合推論(TIR)は、テキストのみの推論能力を超える思考モデルの拡張を提供しますが、ツール評価が逆に推論性能を低下させることも観察されています。本研究は、ツールを使用せずに推論能力を損なわずに強力な思考モデルに自然なツール使用を組み込む方法を提案し、TIRレシピの要点を示します。具体的には、教師の推論軌跡の学習可能性やツール使用軌跡の比率制御が重要であり、最適化手法がTIRの効果を最大化する可能性を示しています。最終的に、Qwen3モデルに適用することで、オープンソースベンチマークで最先端の成績を達成しました。 Comment
元ポスト:
Qwen3にcode executorを実行できるようにしても、数学のベンチマークにおいてほとんどツール呼び出しを行っていないにも関わらずスコアが劣化する。つまり、promptにツール呼び出しの情報を含めただけで、text-onlyでの推論能力が低下しロバストでない。さらに、ツール呼び出しを行ったとしてもテキスト空間上で推論を行った後にテキスト推論の結果をverificationする目的でcode executionを行うなど、ツールを用いて思考する能力が不足していることをイントロで指摘している。
適切なツール呼び出しを実施するために、既存研究では適切にツールを呼び出せるようにSFTやRLが行われるが、ツール呼び出しに関してpost-trainingを実施すると通常のtext-onlyでのreasoning能力が低下する課題があるとイントロで述べられている。Table 1に示されているようにツール呼び出しに関する情報をpromptに含めると、既存のOpenWeightモデル(Qwen3のみだが)はツールが有効なタスクであっても性能が向上しないことから、内部パラメータに埋め込まれている推論に関するlogicは簡単に壊れてしまうことを示唆しており、text-onlyでのreasoning能力を保ちつつ適切にtool useを実行できる手法が必要という課題があり、これを克服するための手法を提案しているようである。
問題意識は興味深いが、イントロの例にだけでは、Qwen3でのみ生じるのか、Qwen3に対するtool useのためのprompting手法が悪かっただけなのか、OpenWeightモデル全般のモデルパラメータ側の課題なのかが区別がつかず、どの程度インパクトのある話なのかがよくわからない。
個人的には、Table 1はより多くの学習レシピが公開されているモデルファミリーでの結果や、実際にtool useのためのSFT/RLを実施した場合に、text-onlyの推論能力が低下することが示されていてほしいと感じる。論文後半にそういったablationが出てくるのだろうか。
[Paper Note] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning, Shengyuan Ding+, CVPR'26, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #MultiModal #CVPR #PostTraining #VisionLanguageModel #RewardModel #GenerativeVerifier Issue Date: 2026-03-25 GPT Summary- ARM-Thinkerは、視覚と言語の報酬モデルを向上させるためのエージェント型システムであり、外部ツールを自律的に活用して結果を検証可能にする。これにより、幻覚や視覚的グラウンディングの弱さを克服し、複数ページの証拠を比較して推論を支持する能力を持つ。多段階強化学習によって訓練され、ツール呼び出しの意思決定と判断精度を最適化。新たに導入したARMBench-VLで評価した結果、報酬モデリングで平均+16.2%、ツール使用タスクで+9.6%の改善を達成。エージェント的なアプローチが精度と解釈性の向上に寄与することを示している。 Comment
元ポスト:
元ポスト:
[Paper Note] Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use, Ruocheng Guo+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #SoftwareEngineering #PostTraining #CurriculumLearning Issue Date: 2026-02-28 GPT Summary- ツール・インターフェースの質がLLMベースのエージェントの性能に影響を与えることに着目し、Trace-Free+というカリキュラム学習フレームワークを提案。これにより、トレースのない環境で再利用可能なインターフェース使用パターンを習得を促進。構造化ワークフローに基づくデータセットを構築し、実験では未知のツールに対する改善とクロスドメイン一般化が確認された。最終的に、ツール・インターフェースの最適化がエージェントのファインチューニングに有効であることを示した。 Comment
元ポスト:
[Paper Note] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents, Yujiong Shen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Evaluation #Science #KeyPoint Notes #LongHorizon #Environment Issue Date: 2026-02-17 GPT Summary- 科学的推論には高度なツール統合が必要だが、現行ベンチマークはその能力を十分に評価していない。これを解決するために、SciAgentGymを導入し、1,780個の分野特異的ツールを提供。SciAgentBenchでは、エージェント能力を初歩から長期的なワークフローまで評価。先進モデルも複雑な科学ツール使用に取り組むが、成功率は対話のホライズン拡大で急落。SciForgeというデータ合成手法を提案し、ツールアクションを依存グラフとしてモデル化。これによって、SciAgent-8Bはより大規模なモデルを上回り、科学ツール使用能力の転移を示す。次世代の自律的科学エージェントの可能性を示唆。 Comment
元ポスト:
long horizonタスクでのtool useに関するベンチマークおよび環境の提供と、graphベースでツールの依存関係を定義し活用することで、環境上での実行によってgroundingされた高品質データを合成する手法SciForgeを提案。
ベンチマークでの評価によって、フロンティアモデルでもlong horizonになるとタスク成功率が低下することが明らかになり、性能の低いモデルは同じツールや類似したツールの繰り返しの呼び出しをするなどの挙動があることが明らかになった(他にも詳細な失敗モードの分析などがされているように見える)。
また、合成データによるSFTによって8B級のSLMでも大幅に性能が改善している模様。
[Paper Note] Procedural Environment Generation for Tool-Use Agents, Michael Sullivan+, EMNLP'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #EMNLP #PostTraining #Environment Issue Date: 2026-02-17 GPT Summary- ツール利用エージェントの研究を促進する中、オンラインRL訓練におけるツール利用データのキュレーションが課題となっている。これに対処するため、対話型かつ構成的なツール利用データを手続き的に生成するRandomWorldを提案。これを用いたモデルは、さまざまなツール利用ベンチマークを向上させ、NESTFULデータセットで新たなSoTAを樹立。さらに、RandomWorld由来のデータ量が下流性能向上に寄与することを実証し、合成データの利用が改善の可能性を拓くことを示した。 Comment
元ポスト:
[Paper Note] ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs, Yujia Qin+, arXiv'23, 2023.07
Paper/Blog Link My Issue
#Tools #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #API #ICLR #One-Line Notes Issue Date: 2023-08-08 GPT Summary- オープンソースのLLMにおけるツール使用能力の限界を克服するため、ToolLLMフレームワークを提案。ToolBenchデータセットを用いて、ChatGPTに指示を与え実世界のAPIを収集し、多様なシナリオをカバー。新しい探索手法DFSDTを開発することで、LLMsの推論能力を高め、ToolLLaMAが複雑な指示を効果的に実行できることを示した。ToolEvalにより評価を行い、ToolLLaMAはChatGPTと同等の性能を発揮する。さらに、適切なAPIを推奨するニューラルAPIリトリーバーを導入し、手動の選択を不要にした。 Comment
16000のreal worldのAPIとインタラクションし、データの準備、訓練、評価などを一貫してできるようにしたフレームワーク。LLaMAを使った場合、ツール利用に関してturbo-16kと同等の性能に達したと主張。
openreview: https://openreview.net/forum?id=dHng2O0Jjr
General Agent: A Self-Evolving, Synthetic Agent Environment, Mika, PRIMEIntellect, 2026.05
Paper/Blog Link My Issue
#Article #General #NLP #LanguageModel #AIAgents #SyntheticData #reading #One-Line Notes #Environment #Author Thread-Post Issue Date: 2026-05-27 Comment
environment: https://app.primeintellect.ai/dashboard/environments/primeintellect/general-agent
元ポスト:
著者ポスト:
約1000のドメイン、約4500タスク、約8000種類以上の独自のツールを持つ、汎用エージェント学習のための学習環境とその構築方法。タスクを生成するAIとそれに対して解答するAIを用意し、解答がどの程度正解していたかによって難易度を同定しフィルタリング等を行いつつ、生成されたタスクをacceptするか否かを決定する。実際に構築された環境でRL/SFTを実施したところ、未知のベンチマークに対して性能が反化することも確認したとのこと。
BFCLv2, UC Berkeley, 2024.08
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #API #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-08 Comment
LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク
BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html
