ThinkingWithImages
[Paper Note] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception, Lai Wei+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #Evaluation #MultiModal #Distillation #VisionLanguageModel Issue Date: 2026-02-16 GPT Summary- MLLMは視覚理解に優れていますが、微細な知覚には依然として課題があります。最近の手法「Thinking-with-Images」は局所情報を取り入れるもののレイテンシが高い。そこで、Region-to-Image Distillationを提案し、エージェント的ズーミングの利点を1回のフォワードパスに内在化します。マイクロクロップ領域で教師モデルにVQAデータを生成させ、それに基づく信号を全画像に蒸留。これにより、学生モデルはツールなしで微細知覚を改善。新たに提案するZoomBenchにより、モデルの性能を厳密に評価し、複数のベンチマークでトップクラスの成果を示します。さらに、思考の必要性とその利得を議論します。コードは公開されています。 Comment
元ポスト:
[Paper Note] MMSearch-R1: Incentivizing LMMs to Search, Jinming Wu+, arXiv'25, 2025.06
Paper/Blog Link My Issue
Issue Date: 2026-02-20 GPT Summary- 現実世界の情報に基づくLMMsの効果的な展開には、外部知識へのアクセスが重要である。従来の手法は非効率的な検索を招くため、MMSearch-R1というエンドツーエンドの強化学習フレームワークを提案。画像とテキスト検索ツールを統合し、モデルが最適な呼び出しを推論できる。収集したVQAデータセットは視覚的およびテキスト的知識をカバーし、効率的な検索行動を促進。実験結果は、RAGベースラインを上回り、検索呼び出しを30%以上削減し、マルチモーダル検索の進展に寄与する洞察を提供する。
[Paper Note] DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning, Ziwei Zheng+, arXiv'25, 2025.05
Paper/Blog Link My Issue
Issue Date: 2026-02-20 GPT Summary- DeepEyesは、視覚的推論とテキスト推論を統合するインタリーブド・マルチモーダル推論パラダイムを提案する。コールドスタートSFTを必要とせず、エンドツーエンドの強化学習で動機づけられるこのモデルは、固有のグラウンディング能力をツールとして活用し、細粒度知覚と推論のベンチマークで顕著な性能向上を達成した。ツール使用は初期探索から効率的な活用へと進展し、人間の視覚推論に類似した思考パターンを示した。
[Paper Note] Thyme: Think Beyond Images, Yi-Fan Zhang+, arXiv'25, 2025.08
Paper/Blog Link My Issue
Issue Date: 2025-08-19 GPT Summary- Thyme(Think Beyond Images)は、画像処理と計算を自動生成・実行する新しいMLLMパラダイムで、既存の「think with images」アプローチを超越。画像操作や数学的計算を高い自律性で行うため、2段階の訓練戦略を採用し、初期の教師付き微調整とRLフェーズを経て精度を向上。実験結果から、特に高難易度タスクにおいて顕著な性能向上を示す。 Comment
元ポスト:
[Paper Note] V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs, Penghao Wu+, CVPR'24, 2023.12
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #CVPR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2026-02-20 GPT Summary- 視覚的タスク遂行には、選択的な視覚処理が重要であるが、現在のMLLMにはこの機能が欠如している。そこで、LLMの知識を活用する視覚検索機構V*を導入。MLLMとの統合により、推論と文脈理解が向上し、特定の視覚要素を正確に狙えるようになる。この統合はSEALという新しいメタアーキテクチャを生み出し、高解像度画像の処理能力を評価するためのV*Benchも作成。視覚検索機能の重要性を際立たせた研究である。
