DeepResearch

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #LLMAgent #SyntheticData #Evaluation #MulltiModal #VisionLanguageModel
Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 SummaryWebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment元ポスト:https://x.com/richardxp888/status/1955645614685077796?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #NLP #LanguageModel #LLMAgent #LLM-as-a-Judge #SelfCorrection
Issue Date: 2025-07-25 [Paper Note] Deep Researcher with Test-Time Diffusion, Rujun Han+, arXiv'25 SummaryTTD-DRは、LLMsを用いた研究報告書生成の新しいフレームワークで、草案から始まり、デノイジングプロセスを通じて情報を動的に取り入れながら洗練される。自己進化アルゴリズムにより高品質なコンテキストを生成し、情報損失を減少させる。TTD-DRは、集中的な検索とマルチホップ推論を必要とするベンチマークで最先端の結果を達成し、既存の深層研究エージェントを上回る性能を示す。 Comment元ポスト:https://x.com/hillbig/status/1948526852546744510?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSelf-Evolutionというのは、モデルのパラメータを更新するというものではなく、Agentに渡すContextをLLM-as-a-Judgeのスコアが改善するように、フィードバックとして得られるcritiqueなどを通じて反復的にoutput(=別のAgentにcontextとして渡される情報)を洗練させていくような方法のことを指している模様。このようなプロセスを複数のパスで実施し、最終的にマージすることで高品質なoutput(context)を得る。
image日本語解説:https://zenn.dev/knowledgesense/articles/5a341158c2c9ab