DeepResearch
Issue Date: 2025-11-19 [Paper Note] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling, MiroMind Team+, arXiv'25, 2025.11 GPT Summary- MiroThinker v1.0は、ツール強化推論と情報探索能力を向上させるオープンソースの研究エージェントで、モデルと環境の相互作用を深めるインタラクションスケーリングを採用。256Kのコンテキストウィンドウを持ち、最大600回のツールコールを実行可能で、従来のエージェントを上回る精度を達成。インタラクションの深さがモデルの性能を向上させることを示し、次世代の研究エージェントにおける重要な要素として位置づけられる。 Comment
関連:
- DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11
元ポスト:
#Pocket #NLP #LanguageModel #AIAgents
Issue Date: 2025-10-30 [Paper Note] Tongyi DeepResearch Technical Report, Tongyi DeepResearch Team+, arXiv'25, 2025.10 GPT Summary- 「Tongyi DeepResearch」は、長期的な情報探索のために設計されたエージェント型大規模言語モデルで、エンドツーエンドのトレーニングフレームワークを用いて自律的な深い研究を促進します。完全自動のデータ合成パイプラインにより、人間のアノテーションに依存せず、スケーラブルな推論を実現。305億のパラメータを持ち、複数のベンチマークで最先端のパフォーマンスを達成し、オープンソースとしてコミュニティに提供されます。 Comment
pj page: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
元ポスト:
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Diversity #Verification #LongHorizon
Issue Date: 2025-10-21 [Paper Note] Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- Webベースの「ディープリサーチ」エージェントは、長期的なインタラクションを通じて複雑な質問応答タスクを解決することを目指すが、従来の方法は推論の複雑さを捉えきれない。そこで、タスクの複雑さを段階的に増加させる二段階のデータ合成パイプラインを導入し、ベースラインエージェントが質問に挑戦し、事実確認を行う。実験により、提案したデータセットが既存のものよりも効果的な訓練を可能にし、ツール使用アクションの多様性が2倍であることが示された。 Comment
元ポスト:
元ポスト:
データセットとソースコードがリリース:
dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench
pj page: https://livedeepresearch.github.io/
#Pocket #NLP #ReinforcementLearning #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #LongHorizon Issue Date: 2025-10-18 [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment
pj page: https://context-folding.github.io
元ポスト:
エージェント自身にcontextを管理する能力を学習させる
#Multi #Pocket #NLP #LanguageModel #AIAgents #Planning #LongSequence #read-later #memory Issue Date: 2025-09-17 [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究(OEDR)に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment
元ポスト:
#Pretraining #Pocket #NLP #LanguageModel #AIAgents #read-later Issue Date: 2025-09-17 [Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents, Zile Qiao+, arXiv'25 GPT Summary- 新しいフレームワーク「WebResearcher」を提案し、AIエージェントが外部ソースから知識を自律的に発見・統合する方法を示す。WebResearcherは、深層研究をマルコフ決定過程として再定式化し、報告書に発見を統合することで文脈の問題を克服。また、スケーラブルなデータ合成エンジン「WebFrontier」を用いて高品質なトレーニングデータを生成し、ツール使用能力を向上させる。実験により、WebResearcherは最先端の性能を達成し、商用システムを上回ることが確認された。 Comment
元ポスト:
blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
OpenAI DeepResearchとベンチマーク上で同等の性能を実現したopenweightモデル
ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language
Models in Chinese, Peilin Zhou+, arXiv'25
#Multi #Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning #PostTraining #GRPO Issue Date: 2025-09-15 [Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment
元ポスト:
#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #PostTraining #GRPO #Medical Issue Date: 2025-09-13 [Paper Note] MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework, Ailing Yu+, arXiv'25 GPT Summary- 医療分野に特化した深層研究エージェントを提案。医療知識グラフを用いたデータ合成とカスタム医療検索エンジンを統合し、複雑な質問-回答ペアを生成。新たな医療ベンチマークで最先端の結果を達成し、一般的な深層研究タスクでも競争力を維持。ドメイン特化型の革新が小型モデルの優位性を示す。 Comment
HF: https://huggingface.co/AQ-MedAI
元ポスト:
ベンチマーク:
- [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned
Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
#Pocket Issue Date: 2025-09-11 [Paper Note] SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents, Xuan-Phi Nguyen+, arXiv'25 GPT Summary- 本研究では、複雑な推論能力を持つ自律単一エージェントモデルを開発し、Deep Research(DR)における情報検索と推論を効率化します。従来の指示に基づくシステムとは異なり、エージェントは文脈に応じて動的に行動を決定します。推論能力を維持しつつエージェントスキルを向上させるため、継続的強化学習(RL)を用いたシンプルなトレーニング手法を提案し、SFR-DR-20BモデルがHumanity's Last Examベンチマークで最大28.7%の成果を上げました。 Comment
元ポスト:
#Pocket #NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment
leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html
元ポスト:
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment
元ポスト:
公式:
#NLP #LanguageModel #AIAgents #LLM-as-a-Judge #SelfCorrection Issue Date: 2025-07-25 [Paper Note] Deep Researcher with Test-Time Diffusion, Rujun Han+, arXiv'25 GPT Summary- TTD-DRは、LLMsを用いた研究報告書生成の新しいフレームワークで、草案から始まり、デノイジングプロセスを通じて情報を動的に取り入れながら洗練される。自己進化アルゴリズムにより高品質なコンテキストを生成し、情報損失を減少させる。TTD-DRは、集中的な検索とマルチホップ推論を必要とするベンチマークで最先端の結果を達成し、既存の深層研究エージェントを上回る性能を示す。 Comment
元ポスト:
Self-Evolutionというのは、モデルのパラメータを更新するというものではなく、Agentに渡すContextをLLM-as-a-Judgeのスコアが改善するように、フィードバックとして得られるcritiqueなどを通じて反復的にoutput(=別のAgentにcontextとして渡される情報)を洗練させていくような方法のことを指している模様。このようなプロセスを複数のパスで実施し、最終的にマージすることで高品質なoutput(context)を得る。
日本語解説: https://zenn.dev/knowledgesense/articles/5a341158c2c9ab
#Article #NLP #LanguageModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-19 DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment
元ポスト:
著者ポスト:
著者ポスト2:
著者ポスト3:
demoをほぼ無料で実施できるとのこと:
#Article #NLP #LanguageModel #AIAgents #OpenWeight Issue Date: 2025-09-17 Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09 Comment
元ポスト:
ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned
Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric
Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language
Models in Chinese, Peilin Zhou+, arXiv'25
関連研究:
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] WebDancer: Towards Autonomous Information Seeking Agency, Jialong Wu+, arXiv'25
- [Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25
- [Paper Note] WebShaper: Agentically Data Synthesizing via Information-Seeking
Formalization, Zhengwei Tao+, arXiv'25
- [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25
- [Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon
Agents, Zile Qiao+, arXiv'25
- [Paper Note] ReSum: Unlocking Long-Horizon Search Intelligence via Context
Summarization, Xixi Wu+, arXiv'25
- [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for
Open-Ended Deep Research, Zijian Li+, arXiv'25
- [Paper Note] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic
Data and Scalable Reinforcement Learning, Kuan Li+, arXiv'25
- [Paper Note] Scaling Agents via Continual Pre-training, Liangcai Su+, arXiv'25
- [Paper Note] Towards General Agentic Intelligence via Environment Scaling, Runnan Fang+, arXiv'25
#Article #NLP #LanguageModel #AIAgents #Repository #OpenSource Issue Date: 2025-09-13 OpenManus, Liang+, FoundationAgents, 2025.04 #Article #NLP #LanguageModel #AIAgents #Repository #OpenSource Issue Date: 2025-09-13 OpenDeepResearch, LangChain, 2025.07 Comment
#Article #NLP #LanguageModel #AIAgents #Blog #ProprietaryLLM Issue Date: 2025-09-13 Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06 #Article #NLP #LanguageModel #AIAgents #OpenSource Issue Date: 2025-03-12 Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02