DeepResearchに関する論文・技術記事メモの一覧

DeepResearch

[Paper Note] RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards, Gaotang Li+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #Rubric-based #Author Thread-Post Issue Date: 2026-05-16 GPT Summary- 深層研究エージェントを訓練するためのRubricEMフレームワークを提案。これは、ルーブリックを評価だけでなく、ポリシー実行やフィードバックの構造化に活用。計画・証拠収集・レビューを段階的に行い、意味情報の密なフィードバックを提供しつつ、評価済みの軌跡を再利用可能な指針に蒸留。得られたRubricEM-8Bは長編研究ベンチマークで優れた性能を示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data, Venus Team+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SmallModel #OpenWeight #OpenSource #Author Thread-Post #EdgeDevices Issue Date: 2026-04-25 GPT Summary- エッジ規模の小型深層研究エージェントDR-Venusを提示し、限られたオープンデータを基に強力な性能向上を実現。二段階の訓練プロセスでは、第一段階で基本能力を確立し、データ品質を改善、第二段階で強化学習を導入し実行信頼性を向上。約1万のオープンデータで構築されたこのエージェントは、従来の9Bモデルを上回り、30Bシステムとの差も縮小。再現性のある研究に資するため、モデルやコードを公開。 Comment

models: https://huggingface.co/collections/inclusionAI/dr-venus
code: https://github.com/inclusionAI/DR-Venus

オープンなデータのみで構築されたtraining/inferenceパイプラインもオープンなDeepResearchエージェント。

元ポスト:

Loading…

[Paper Note] Memory Intelligence Agent, Jingyang Qiao+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #MultiModal #ContrastiveLearning #VisionLanguageModel #memory #reading #Test-time Learning #Initial Impression Notes #needs-revision Issue Date: 2026-04-14 GPT Summary- DRAはLLMの推論と外部ツールを組み合わせ、過去の経験を活用するメモリシステムを含む。従来の方法はメモリの効率性に課題があり、MIAフレームワークを提案してこれを解決。プランナーとエグゼキューターから成る新しいアーキテクチャは、交互の強化学習で協調を強化し、推論中の更新を実現。さらに、記憶の双方向変換を可能にし、自己進化を促進する機構も搭載。広範な実験でMIAの優位性を示した。 Comment

元ポスト:

Loading…

元ポストを読みなんとなーく分かったつとりになっているゆるふわ理解だが、Plannerのパラメータに経験をTest Time Learningの枠組みを埋め込み、既存のノンパラメトリックなメモリにtrajectoryも活用する二段構えである点が新しい点に感じた。

元論文を流し読みすると、Executor（vlm), Planner(llm, parametricなmemory), Memory Manager(trajectoryを格納; non parametricなmemory)の3つにマルチモーダルなAI Agentを分離する。

plannerは（ToDo 3.2節を読むべし

executorはplannerと過去のtrajectoryに基づいて実行をする。executorはGRPOに」るRLVRで訓練されるが、tool use, plannerのトークンはマスクされ学習される。

（後ほど追記

[Paper Note] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models, Wenxuan Huang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #Evaluation #MultiModal #2D (Image) #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- Vision-DeepResearchは、マルチモーダル大規模言語モデル（MLLMs）において、多ターン・多エンティティ・多スケールの視覚およびテキスト検索を実現する新しい深層研究パラダイムを提案。これにより、実際のシナリオでの視覚ノイズに対処し、数十の推論ステップと多くのインタラクションをサポート。強化学習を通じて深層研究能力を内在化し、既存のMLLMを上回る性能を発揮する。コードは公開予定。 Comment

pj page: https://osilly.github.io/Vision-DeepResearch/

元ポスト:

Loading…

image searchやVQAなどを伴うDeepResearchに関するタスクとそのベンチマークの提案という感じに見える。

[Paper Note] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning, Chengwen Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #Evaluation #MultiModal #VisionLanguageModel #3D (Video) #One-Line Notes Issue Date: 2026-01-14 GPT Summary- VideoDRは、ビデオを基にしたオープンドメインのビデオ質問応答のための新たな深層研究ベンチマークで、フレーム間の視覚的手がかり抽出やインタラクティブなウェブ検索、マルチホップ推論を要求する。高品質なビデオサンプルを提供し、複数のマルチモーダル大規模言語モデルの評価を行った結果、エージェントの性能はワークフローに依存することが示された。VideoDRは次世代ビデオ深層研究エージェントへの重要な課題を明らかにする。 Comment

元ポスト:

Loading…

初めてのvideo deep researchベンチマークとのこと

[Paper Note] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research, Rulin Shao+, ICML'26, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #ICML #PostTraining #read-later #Selected Papers/Blogs #Reference Collection #Rubric-based #Author Thread-Post Issue Date: 2025-11-19 GPT Summary- 長文で出典付きの回答を生成する深層研究モデルの訓練には、強化学習（RLVR）を活用した進化するルーブリック（RLER）を用いることで、モデルが新たな情報を取り込み、オンポリシーなフィードバックを提供できるようにする。本研究では、RLERを活用して初のオープンモデルDeep Research Tulu (DR Tulu-8B)を開発し、科学、医療、一般領域のベンチマークで従来モデルを大幅に上回った。データ、モデル、コードは公開され、新しいエージェント基盤も提供されている。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

takeaway:

Loading…

デモが公開:

Loading…

解説:

Loading…

ICML'26 Spotlight:

Loading…

[Paper Note] Step-DeepResearch Technical Report, Chen Hu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Reasoning #Proprietary #mid-training #PostTraining #KeyPoint Notes #Rubric-based Issue Date: 2025-12-24 GPT Summary- Step-DeepResearchは、LLMを用いた自律エージェントのためのコスト効率の良いエンドツーエンドのシステムであり、意図認識や長期的意思決定を強化するためのデータ合成戦略を提案。チェックリストスタイルのジャッジャーにより堅牢性を向上させ、中国ドメイン向けのADR-Benchを設立。実験では、Step-DeepResearchが高いスコアを記録し、業界をリードするコスト効率で専門家レベルの能力を達成したことを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

ざっくり言うと、シンプルなReAct styleのagentで、マルチエージェントのオーケストレーションや複雑で重たいワークフロー無しで、OpenAI, GeminiのDeepResearchと同等の性能を達成してとり、ポイントとしてこれらの機能をはmid-training段階で学習してモデルのパラメータとして組み込むことで実現している模様。

mid trainingは2段階で構成され、trajectoryの長さは徐々に長いものを利用するカリキュラム方式。
最初のステージでは以下の4つのatomicスキルを身につけさせる:
- Planning & Task Decomposition
- Deep Information Seeking
- Reflection & Verification
- Reporting

これらのatomic skillを身につけさせる際には、next token predictionをnext action predictionという枠組みで学習し、アクションに関するトークンの空間を制限することで効率性を向上（ただし、具体性は減少するのでトレードオフ）という形にしているようだが、コンセプトが記述されているのみでよくわからない。同時に、学習データの構築方法もデータソースとおおまかな構築方法が書かれているのみである。ただし、記述内容的には各atomic skillごとに基本的には合成データが作成され利用されていると考えてよい。

たとえばplanningについては論文などの文献のタイトルや本文から実験以後の記述を除外し、研究プロジェクトのタスクを推定させる（リバースエンジニアリングと呼称している）することで、planningのtrajectoryを合成、Deep Information SeekingではDB Pediaなどのknowledge graphをソースとして利用し、次数が3--10程度のノードをseedとしそこから（トピックがドリフトするのを防ぐために極端に次数が大きいノードは除外しつつ）幅優先探索をすることで、30--40程度のノードによって構成されるサブグラフを構成し、そのサブグラフに対してmulti hopが必要なQuestionを、LLMで生成することでデータを合成しているとのこと。

RLはrewardとしてルーブリックをベースにしたものが用いられるが、strong modelを用いての三つ組データを合成し、このデータを用いてSFT, RLVRをすることでRubrics Judgeモデルを学習して利用すると記述されている。Rubricsに基づく報酬では、最初に
- 1: fully satisfied
- 0.5: partially satisfied
- 0: not satisfied

の3値を検討したが、partially satisfiedが人間による評価とのagreementが低かったため設計を変更し、positive/negative rubricsを設定し、positivルーブリックの場合はルーブリックがfully satisfiedの時のみ1, negativeルーブリックの方はnot satisfiedの時のみ0とすることで、低品質な生成結果に基づくrewardを無くし、少しでもネガティブな要素があった場合は強めのペナルティがかかるようにしているとのこと（ルーブリックの詳細は私が見た限りは不明である。Appendix Aに書かれているように一瞬見えたが具体的なcriterionは書かれていないように見える）。

[Paper Note] Deep Research: A Systematic Survey, Zhengliang Shi+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents Issue Date: 2025-12-03 GPT Summary- 大規模言語モデル（LLMs）は、テキスト生成から問題解決へと進化しているが、複雑なタスクには批判的思考や情報源の検証が求められる。最近の研究では、LLMsの推論能力を外部ツールと組み合わせる「深い研究（DR）」が注目されており、本調査はその体系的な概要を提供する。主な貢献は、三段階のロードマップの形式化、クエリ計画や情報取得などの重要コンポーネントの導入、最適化技術の要約、評価基準と課題の統合である。研究の進展に応じて、調査は継続的に更新される。 Comment

元ポスト:

Loading…

[Paper Note] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling, MiroMind Team+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Reasoning #OpenWeight Issue Date: 2025-11-19 GPT Summary- MiroThinker v1.0は、ツール強化推論と情報探索能力を向上させるオープンソースの研究エージェントで、モデルと環境の相互作用を深めるインタラクションスケーリングを採用。256Kのコンテキストウィンドウを持ち、最大600回のツールコールを実行可能で、従来のエージェントを上回る精度を達成。インタラクションの深さがモデルの性能を向上させることを示し、次世代の研究エージェントにおける重要な要素として位置づけられる。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/miromind-ai/MiroThinker-v1.0-72B

ポイント解説:

Loading…

[Paper Note] WebThinker: Empowering Large Reasoning Models with Deep Research Capability, Xiaoxi Li+, NeurIPS'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #NeurIPS #DPO Issue Date: 2025-11-05 GPT Summary- WebThinkerは、LRMsがウェブを自律的に検索し、情報を収集しながら報告書を作成できる深層研究エージェントである。Deep Web Explorerモジュールを統合し、知識のギャップを埋めるために動的に情報を抽出する。リアルタイムで情報収集と報告書作成を行うThink-Search-and-Draft戦略を採用し、RLベースのトレーニング戦略を導入。実験により、WebThinkerは複雑な推論タスクで既存手法を大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

pj page: https://github.com/RUC-NLPIR/WebThinker

[Paper Note] Tongyi DeepResearch Technical Report, Tongyi DeepResearch Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents Issue Date: 2025-10-30 GPT Summary- 「Tongyi DeepResearch」は、長期的な情報探索のために設計されたエージェント型大規模言語モデルで、エンドツーエンドのトレーニングフレームワークを用いて自律的な深い研究を促進します。完全自動のデータ合成パイプラインにより、人間のアノテーションに依存せず、スケーラブルな推論を実現。305億のパラメータを持ち、複数のベンチマークで最先端のパフォーマンスを達成し、オープンソースとしてコミュニティに提供されます。 Comment

pj page: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

元ポスト:

Loading…

[Paper Note] Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms, Shrey Pandit+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Diversity #Verification #LongHorizon Issue Date: 2025-10-21 GPT Summary- Webベースの「ディープリサーチ」エージェントは、長期的なインタラクションを通じて複雑な質問応答タスクを解決することを目指すが、従来の方法は推論の複雑さを捉えきれない。そこで、タスクの複雑さを段階的に増加させる二段階のデータ合成パイプラインを導入し、ベースラインエージェントが質問に挑戦し、事実確認を行う。実験により、提案したデータセットが既存のものよりも効果的な訓練を可能にし、ツール使用アクションの多様性が2倍であることが示された。 Comment

元ポスト:

Loading…

[Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #Live Issue Date: 2025-10-18 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

[Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #KeyPoint Notes #LongHorizon #ContextRot #ContextFolding Issue Date: 2025-10-18 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment

pj page: https://context-folding.github.io

元ポスト:

Loading…

エージェントはロールアウト時にサブタスクを別ブランチで分岐させ、分岐させたブランチは独立したコンテキストを持ち、サブタスクを実行し結果を返す。メインブランチは受け取った結果に対してcontext managerを適用してfoldingしてメインブランチのcontextに加えて処理を続行することで、サブタスクを高い性能で実行しつつ、contextの肥大化を抑える。

これらfoldingを実施するはcontext manager（learnable）やポリシーはFoldGRPOと呼ばれるRLで学習され、
- メインブランチのcontextが肥大しない
- サブタスクがout of scopeとならない
- agenticタスクが失敗しない

となるように設計された報酬によって学習される。

ブランチを分岐し、結果を圧縮してメインブランチのcontextに加えて処理を継続するという一連の操作を、context manager, ポリシーの双方で学習している（どちらもfreezeはしない)。

一方、Kimi-K2.5では、同様な枠組みとしてAgentSwarmが提案されているが、こちらはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられる点が異なるように見える。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

所見:

Loading…

[Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #Planning #LongSequence #read-later #memory Issue Date: 2025-09-17 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究（OEDR）に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment

元ポスト:

Loading…

[Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents, Zile Qiao+, arXiv'25

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #AIAgents #read-later Issue Date: 2025-09-17 GPT Summary- 新しいフレームワーク「WebResearcher」を提案し、AIエージェントが外部ソースから知識を自律的に発見・統合する方法を示す。WebResearcherは、深層研究をマルコフ決定過程として再定式化し、報告書に発見を統合することで文脈の問題を克服。また、スケーラブルなデータ合成エンジン「WebFrontier」を用いて高品質なトレーニングデータを生成し、ツール使用能力を向上させる。実験により、WebResearcherは最先端の性能を達成し、商用システムを上回ることが確認された。 Comment

元ポスト:

Loading…

blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

OpenAI DeepResearchとベンチマーク上で同等の性能を実現したopenweightモデル

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25, 2025.01
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

[Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25

Paper/Blog Link My Issue
#Multi #NLP #Dataset #LanguageModel #ReinforcementLearning #PostTraining #GRPO Issue Date: 2025-09-15 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…

[Paper Note] MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework, Ailing Yu+, arXiv'25

Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #PostTraining #GRPO #Medical Issue Date: 2025-09-13 GPT Summary- 医療分野に特化した深層研究エージェントを提案。医療知識グラフを用いたデータ合成とカスタム医療検索エンジンを統合し、複雑な質問-回答ペアを生成。新たな医療ベンチマークで最先端の結果を達成し、一般的な深層研究タスクでも競争力を維持。ドメイン特化型の革新が小型モデルの優位性を示す。 Comment

HF: https://huggingface.co/AQ-MedAI

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

[Paper Note] SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents, Xuan-Phi Nguyen+, arXiv'25

Paper/Blog Link My Issue
Issue Date: 2025-09-11 GPT Summary- 本研究では、複雑な推論能力を持つ自律単一エージェントモデルを開発し、Deep Research（DR）における情報検索と推論を効率化します。従来の指示に基づくシステムとは異なり、エージェントは文脈に応じて動的に行動を決定します。推論能力を維持しつつエージェントスキルを向上させるため、継続的強化学習（RL）を用いたシンプルなトレーニング手法を提案し、SFR-DR-20BモデルがHumanity's Last Examベンチマークで最大28.7%の成果を上げました。 Comment

元ポスト:

Loading…

[Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Science #Live Issue Date: 2025-08-31 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

[Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel Issue Date: 2025-08-14 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

[Paper Note] Deep Researcher with Test-Time Diffusion, Rujun Han+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #LLM-as-a-Judge #SelfCorrection Issue Date: 2025-07-25 GPT Summary- TTD-DRは、LLMsを用いた研究報告書生成の新しいフレームワークで、草案から始まり、デノイジングプロセスを通じて情報を動的に取り入れながら洗練される。自己進化アルゴリズムにより高品質なコンテキストを生成し、情報損失を減少させる。TTD-DRは、集中的な検索とマルチホップ推論を必要とするベンチマークで最先端の結果を達成し、既存の深層研究エージェントを上回る性能を示す。 Comment

元ポスト:

Loading…

Self-Evolutionというのは、モデルのパラメータを更新するというものではなく、Agentに渡すContextをLLM-as-a-Judgeのスコアが改善するように、フィードバックとして得られるcritiqueなどを通じて反復的にoutput（＝別のAgentにcontextとして渡される情報）を洗練させていくような方法のことを指している模様。このようなプロセスを複数のパスで実施し、最終的にマージすることで高品質なoutput(context)を得る。

日本語解説: https://zenn.dev/knowledgesense/articles/5a341158c2c9ab

Apodex-1.0: A Verification-Centric Agent Team for Discoverative Intelligence, Apodex, 2026.06

Paper/Blog Link My Issue
#Article #OpenWeight #Author Thread-Post Issue Date: 2026-06-09 Comment

HF: https://huggingface.co/collections/apodex/apodex-1

元ポスト:

Loading…

Deep Research Max: a step change for autonomous research agents, Google, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary #Author Thread-Post Issue Date: 2026-04-22 Comment

元ポスト:

Loading…

Gemini APIからの使い方:

Loading…

MiroThinker-1.7, MiroMindAI, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #LongHorizon #Initial Impression Notes Issue Date: 2026-03-20 Comment

元ポスト:

Loading…

ベンチマークに応じて、GPT-5, GPT-5.2, GPT-5.4など比較するGPTが恣意的に変わっているように見えるが、ベンチマーク上ではGPT-5と同等以上のAgenticなLLMっぽい？BrowseCompの性能がかなり良さそうに見える。

[Paper Note] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis, Li+, 2026.02

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #OpenSource #Selected Papers/Blogs #Reproducibility #One-Line Notes #LongHorizon #Initial Impression Notes #Environment Issue Date: 2026-02-10 Comment

元ポスト:

Loading…

APIに依存せずオフラインコーパスと検索を利用し、高品質なDeepResearchのlong horizonなtrajectoryを合成可能な環境を構築。合成したtrajectoryでNemotron-3-nano-30B-A3B-BaseをSFTすることで、Kimi-K2, GLM-4.6などの10倍以上大きいサイズのモデルよりもBrowseCompで高い性能を獲得。同サイズのTongyiDeepResearchもoutperform。

Deterministicなプロセスで、オフラインコーパスからデータを合成し外部APIに依存しないため完全に再現性があり、かつAPIのコストやrate limitにも引っかからないという利点がある。検索エンジン、コード、データ、合成データ、モデル、全てを公開。

完全に再現性のある研究は素晴らしい。