DeepResearch
Issue Date: 2025-09-17 [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究(OEDR)に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment
元ポスト:
#Pretraining #Pocket #NLP #LanguageModel #LLMAgent #read-later
Issue Date: 2025-09-17 [Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents, Zile Qiao+, arXiv'25 GPT Summary- 新しいフレームワーク「WebResearcher」を提案し、AIエージェントが外部ソースから知識を自律的に発見・統合する方法を示す。WebResearcherは、深層研究をマルコフ決定過程として再定式化し、報告書に発見を統合することで文脈の問題を克服。また、スケーラブルなデータ合成エンジン「WebFrontier」を用いて高品質なトレーニングデータを生成し、ツール使用能力を向上させる。実験により、WebResearcherは最先端の性能を達成し、商用システムを上回ることが確認された。 Comment
元ポスト:
blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
OpenAI DeepResearchとベンチマーク上で同等の性能を実現したopenweightモデル
ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language
Models in Chinese, Peilin Zhou+, arXiv'25
#Multi #Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning #PostTraining #GRPO
Issue Date: 2025-09-15 [Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment
元ポスト:
HF: https://huggingface.co/AQ-MedAI
元ポスト:
ベンチマーク:
- [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned
Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
#Pocket Issue Date: 2025-09-11 [Paper Note] SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents, Xuan-Phi Nguyen+, arXiv'25 GPT Summary- 本研究では、複雑な推論能力を持つ自律単一エージェントモデルを開発し、Deep Research(DR)における情報検索と推論を効率化します。従来の指示に基づくシステムとは異なり、エージェントは文脈に応じて動的に行動を決定します。推論能力を維持しつつエージェントスキルを向上させるため、継続的強化学習(RL)を用いたシンプルなトレーニング手法を提案し、SFR-DR-20BモデルがHumanity's Last Examベンチマークで最大28.7%の成果を上げました。 Comment
元ポスト:
#Pocket #NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Science Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment
leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html
元ポスト:
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #LLMAgent #SyntheticData #Evaluation #MultiModal #VisionLanguageModel Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment
元ポスト:
公式:
#NLP #LanguageModel #LLMAgent #LLM-as-a-Judge #SelfCorrection Issue Date: 2025-07-25 [Paper Note] Deep Researcher with Test-Time Diffusion, Rujun Han+, arXiv'25 GPT Summary- TTD-DRは、LLMsを用いた研究報告書生成の新しいフレームワークで、草案から始まり、デノイジングプロセスを通じて情報を動的に取り入れながら洗練される。自己進化アルゴリズムにより高品質なコンテキストを生成し、情報損失を減少させる。TTD-DRは、集中的な検索とマルチホップ推論を必要とするベンチマークで最先端の結果を達成し、既存の深層研究エージェントを上回る性能を示す。 Comment
元ポスト:
Self-Evolutionというのは、モデルのパラメータを更新するというものではなく、Agentに渡すContextをLLM-as-a-Judgeのスコアが改善するように、フィードバックとして得られるcritiqueなどを通じて反復的にoutput(=別のAgentにcontextとして渡される情報)を洗練させていくような方法のことを指している模様。このようなプロセスを複数のパスで実施し、最終的にマージすることで高品質なoutput(context)を得る。
日本語解説: https://zenn.dev/knowledgesense/articles/5a341158c2c9ab
#Article #NLP #LanguageModel #LLMAgent #OpenWeight Issue Date: 2025-09-17 Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09 Comment
元ポスト:
ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned
Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric
Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language
Models in Chinese, Peilin Zhou+, arXiv'25
関連研究:
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] WebDancer: Towards Autonomous Information Seeking Agency, Jialong Wu+, arXiv'25
- [Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25
- [Paper Note] WebShaper: Agentically Data Synthesizing via Information-Seeking
Formalization, Zhengwei Tao+, arXiv'25
- [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25
- [Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon
Agents, Zile Qiao+, arXiv'25
- [Paper Note] ReSum: Unlocking Long-Horizon Search Intelligence via Context
Summarization, Xixi Wu+, arXiv'25
- [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for
Open-Ended Deep Research, Zijian Li+, arXiv'25
- [Paper Note] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic
Data and Scalable Reinforcement Learning, Kuan Li+, arXiv'25
- [Paper Note] Scaling Agents via Continual Pre-training, Liangcai Su+, arXiv'25
- [Paper Note] Towards General Agentic Intelligence via Environment Scaling, Runnan Fang+, arXiv'25
#Article #NLP #LanguageModel #LLMAgent #Repository #OpenSource Issue Date: 2025-09-13 OpenManus, Liang+, FoundationAgents, 2025.04 #Article #NLP #LanguageModel #LLMAgent #Repository #OpenSource Issue Date: 2025-09-13 OpenDeepResearch, LangChain, 2025.07 Comment
#Article #NLP #LanguageModel #LLMAgent #Blog #ProprietaryLLM Issue Date: 2025-09-13 Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06 #Article #NLP #LanguageModel #LLMAgent #OpenSource Issue Date: 2025-03-12 Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02