MCPに関する論文・技術記事メモの一覧

MCP

[Paper Note] TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments, Zhangchen Xu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #Dataset #LanguageModel #AIAgents #SyntheticData Issue Date: 2025-10-04 GPT Summary- Toucanは、約500の実世界のモデルコンテキストプロトコルから合成された150万の軌跡を含む、最大の公開ツールエージェントデータセットを提供。多様で現実的なタスクを生成し、マルチツールおよびマルチターンのインタラクションに対応。5つのモデルを用いてツール使用クエリを生成し、厳密な検証を通じて高品質な出力を保証。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークで優れた性能を示し、MCP-Universe Benchでの進展を実現。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/Agent-Ark/Toucan-1.5M

[Paper Note] Towards General Agentic Intelligence via Environment Scaling, Runnan Fang+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later Issue Date: 2025-09-17 GPT Summary- 本研究では、エージェント知能を向上させるために環境を拡大し、関数呼び出し能力を強化するスケーラブルなフレームワークを提案。エージェントの訓練は二段階で行い、基本能力を付与した後、特定のドメインに特化させる。実験により、提案モデルAgentScalerが関数呼び出し能力を大幅に向上させることを示した。 Comment

元ポスト:

Loading…

blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

[Paper Note] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents, Jiacheng Miao+, arXiv'25

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #ScientificDiscovery #Reproducibility Issue Date: 2025-09-17 GPT Summary- Paper2Agentは、研究論文をAIエージェントに自動変換するフレームワークで、研究成果の利用や発見を加速します。従来の論文は再利用の障壁を生んでいましたが、Paper2Agentは論文を知識豊富な研究アシスタントとして機能するエージェントに変換します。複数のエージェントを用いて論文と関連コードを分析し、モデルコンテキストプロトコル（MCP）を構築、洗練します。これにより、自然言語を通じて科学的クエリを実行できるエージェントを作成し、実際にゲノム変異やトランスクリプトミクス分析を行うエージェントが元の論文の結果を再現できることを示しました。Paper2Agentは、静的な論文を動的なAIエージェントに変えることで、知識の普及に新たなパラダイムを提供します。 Comment

code: https://github.com/jmiao24/Paper2Agent?tab=readme-ov-file#-demos

論文を論文が提案する技術の機能を提供するMCPサーバに変換し、LLM Agentを通じてユーザはsetup無しに呼びだして利用できるようにする技術な模様。論文から自動的にcodebaseを同定し、コアとなる技術をMCP toolsとしてラップし、反復的なテストを実施してロバストにした上でHF上のAI Agentに提供する、みたいな感じに見える。

ポイント解説:

Loading…

[Paper Note] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers, Zhenting Wang+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Evaluation Issue Date: 2025-08-30 GPT Summary- MCP-Benchは、ツールの使用や調整、計画/推論を必要とする多段階タスクを評価するためのベンチマークであり、250のツールを持つ28のMCPサーバーにLLMsを接続します。従来のベンチマークとは異なり、相互に連携するツールセットを提供し、複雑なタスクを構築可能にします。タスクは、ツールの取得能力や多段階実行経路の計画能力をテストし、既存のベンチマークでは評価されていない能力を明らかにします。20のLLMに対する実験を通じて、MCP-Benchの課題が示されました。 Comment

元ポスト:

Loading…

またしてもMCPに基づいたtool useのベンチマークが出た模様

[Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2025-08-25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Evaluation Issue Date: 2025-08-22 GPT Summary- モデルコンテキストプロトコル（MCP）は、LLMを外部データソースに接続する新しい標準であり、MCP-Universeという包括的なベンチマークを導入。これにより、実際のアプリケーションにおけるLLMの評価が可能となる。6つのコアドメインをカバーし、厳密な評価手法を実装。主要なLLMは性能制限を示し、長文コンテキストや未知のツールの課題に直面。UIサポート付きの評価フレームワークをオープンソース化し、MCPエコシステムの革新を促進。 Comment

pj page: https://mcp-universe.github.io/

元ポスト:

Loading…

解説:

Loading…

[Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2025-08-13 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

MCP環境におけるLLM Agentのベンチマーク。論文中のTable1に他のベンチマークを含めサマリが掲載されている。MCPを用いたLLMAgentのベンチがすでにこんなにあることに驚いた…。