Grounding
[Paper Note] REMem: Reasoning with Episodic Memory in Language Agent, Yiheng Shu+, ICLR'26, 2026.02
Paper/Blog Link My Issue
#GraphBased #NLP #LanguageModel #AIAgents #ICLR #Selected Papers/Blogs #memory #One-Line Notes #Author Thread-Post Issue Date: 2026-03-01 GPT Summary- REMemは、エピソード記憶を構築し推論するための2段階フレームワークを提案する。オフラインでは、経験を時間情報を含む要旨と事実を結びつけたハイブリッド記憶グラフに変換。オンラインでは、エージェント型リトリーバを用いて記憶グラフ上での反復検索を可能にする。包括的な評価により、REMemは最先端システムを大幅に上回り、エピソード回想と推論タスクでそれぞれ3.4%、13.4%の改善を示す。回答不能な質問に対する拒否行動も堅牢であることが確認された。 Comment
元ポスト:
単に知識や事実情報を蓄積するのではなく、過去のイベントに関するsituationalな情報(when,where,who,what)でgroundingをしながら、複数のイベント、タイムラインを跨いでreasoningができるようなepisodic memoryの提案。人間は単に意味情報から記憶を呼び起こすだけでなく、過去のイベントを想起して条件付けした上で時系列になぞって記憶を想起できる能力があることに起因する。
openreview: https://openreview.net/forum?id=fugnQxbvMm
[Paper Note] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection, Mingyu Ouyang+, CVPR'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #CVPR #VisionLanguageModel #GUI Issue Date: 2026-01-13 GPT Summary- 視覚言語モデル(VLM)を用いたUIグラウンディングタスクに関する研究で、FocusUIという効率的なフレームワークを提案。冗長トークンを排除し、指示に関連する視覚トークンを選択しつつ、位置的連続性を保持する新戦略を採用。これにより、4つのベンチマークで優れた性能を発揮し、特にScreenSpot-Proでは3.7%の性能向上を達成。視覚トークン保持率が30%でも高い推論速度と低メモリ使用を実現。 Comment
元ポスト:
[Paper Note] Visual Jenga: Discovering Object Dependencies via Counterfactual Inpainting, Anand Bhattad+, NeurIPS'25, 2025.03
Paper/Blog Link My Issue
#ComputerVision #Evaluation #NeurIPS #2D (Image) #3D (Scene) #SpatialUnderstanding Issue Date: 2026-05-26 GPT Summary- Visual Jengaという新しいシーン理解タスクでは、単一の画像から物体を段階的に取り除き背景を残す。これは物体間の構造的依存関係を理解し、シーンの一貫性を保ちながら取り除ける物体を探ることを目的としている。提案するデータ駆動型の訓練不要なアプローチは、現実世界の画像に対して効果的であり、物体間の非対称性を活用し、大規模なインペイントモデルで反事実的な集合を生成することでこの非対称性を定量化する。 Comment
openreview: https://openreview.net/forum?id=yMXn86pzWx
pj page: https://visualjenga.github.io/
元ポスト:
特定のオブジェクトをマスクし、その領域をN回inpaintingし、結果の多様性を見ることによって、オブジェクト間の依存関係と非対称性を定量化する、といった研究らしい。
たとえば下記の猫とテーブルの例だと、猫をマスクしInpaintingするとテーブルの上には多様なオブジェクトが生成されるが、テーブルをマスクしinpaintingをすると机が一貫して出力される。これはつまり、机に依存するオブジェクトが存在することを示唆している(言い換えると、机が猫をsupportしている)。このような処理(依存度が低いオブジェクトを削除)をオブジェクトごとに繰り返していくことによって、あるシーンのオブジェクト間の依存関係が明らかとなる。
[Paper Note] Phi-Ground Tech Report: Advancing Perception in GUI Grounding, Miaosen Zhang+, arXiv'25, 2025.07
Paper/Blog Link My Issue
#ComputerVision #MultiModal #SmallModel #OpenWeight #ComputerUse #VisionLanguageModel #GUI Issue Date: 2026-05-12 GPT Summary- マルチモーダル推論モデルの進化により、CUAsが現実化している。GUI groundingは、この実装において重要で、ユーザーの動作やパラメータを決定する。現行のエンドツーエンドのモデルは依然として低い精度に留まっている。本研究では、データ収集からモデル訓練に至るまで検討し、Phi-Groundモデルを開発。これにより、エージェント設定で全てのベンチマークで最先端性能を達成し、特にScreenSpot-proで43.2、UI-Visionで27.2の結果を達成した。成果と過程はgroundingモデルの理解を深め、他の知覚タスクにも貢献することが期待される。 Comment
元ポスト:
[Paper Note] ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use, Kaixin Li+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #ComputerUse #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-03-20 GPT Summary- MLLMの進展は一般的なタスクのGUIエージェントに貢献しているが、専門分野への適用は未検討。ScreenSpot-Proでは、高解像度の専門設定でMLLMのグラウンディング能力を評価する新ベンチマークを提示。複数の業界とアプリケーションに対してテストを行い、既存モデルの性能は低く、最良のモデルでも18.9%に過ぎない。探索域の戦略的縮小により精度向上を示し、ScreenSeekeRを提案。階層的検索を用いることで、訓練不要で48.1%の性能を達成。専門アプリ向けGUIエージェント開発の進展を期待。 Comment
元ポスト:
高解像度な画像を用いた多様なドメインでのVLMのGUI grounding性能を測るベンチマークとリーダーボードのようでえる
現在のトップはHolo2のようである
- New Holo2 model takes the lead in UI Localization, H Company, 2026.02
- Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11
[Paper Note] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness, Chenming Zhu+, ICCV'25, 2024.09
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #Reasoning #PositionalEncoding #OpenWeight #OpenSource #PostTraining #Selected Papers/Blogs #ICCV #VisionLanguageModel #3D (Scene) #SpatialUnderstanding #KeyPoint Notes Issue Date: 2026-02-28 GPT Summary- LLaVA-3Dは、3Dシーン理解に対応する新たなフレームワークで、2D視覚理解の知識を活用しつつ、3D位置埋め込みを統合。2D CLIPパッチを3D空間情報で強化し、2Dと3Dの共同チューニングを行うことで、迅速かつ正確な3D認識を実現。実験では、既存の3Dモデルよりも3.5倍速く収束し、3Dタスクでの最先端性能を達成しながら、2D機能も保持している。 Comment
github:
https://github.com/ZCMax/LLaVA-3D
pj page:
https://zcmax.github.io/projects/LLaVA-3D/
3Dに関するspatial understandingの能力を持つVLMで、テキストの出力だけでなく、3Dのbounding boxを出力する専用のデコーダを持つ。
2DのCLIPベースのimage encoderによる情報を活用しつつ、2D patchに対して3Dに関する位置情報(depth)を3D positional encodingを通じて加えることで3D patchを作成し入力として活用。3Dのgrounding taskを扱うgrounding decoderを導入することで3D理解に関する能力を醸成する。学習は2stageで、最初のstageでは、2D, 3D双方の能力を同時に学習するために2D, 3Dのデータ両方を用いてモデルをSFTする。その後grounding decoderは前段のSFTでさ学習しきれないため、grounding decoder以外のモジュールはfreezeして、3D groundingタスクでdecoderとlocation tokenを学習するらしい。これにより、2D, 3Dシーンの理解力を損なわず、groundingに関する性能を高める。
[Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#ComputerVision #NLP #ImageSegmentation #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment
pj page: https://som-gpt4v.github.io
日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM
画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい
[Paper Note] UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models, Tianbao Xie+, EMNLP'22, 2022.01
Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #MultitaskLearning #PEFT(Adaptor/LoRA) #EMNLP #Encoder-Decoder Issue Date: 2022-12-05 GPT Summary- UnifiedSKGフレームワークを提案し、21の構造化知識のグラウンディング(SKG)タスクをテキスト対テキスト形式に統合。これにより、体系的なSKG研究を促進し、異なるサイズのT5で最先端の性能を達成。マルチタスクチューニングが性能向上に寄与し、SKGのゼロショットおよび少数ショット学習における課題を示した。UnifiedSKGは他のタスクへの拡張も可能で、オープンソースとして公開されている。
Marlin-2B, NemoStation, 2026.05
Paper/Blog Link My Issue
#Article #ComputerVision #Temporal #VideoGeneration/Understandings #VisionLanguageModel #4D (Video) #reading #Author Thread-Post Issue Date: 2026-05-27 Comment
元ポスト:
何が、いつ起きたかに答えるVideo VLMで、イベントごとのキャプションとtimestampのspanを出力してくれるようである。2Bモデルなので軽量である。
例は以下:
New Holo2 model takes the lead in UI Localization, H Company, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #Blog #OpenWeight #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #GUI Issue Date: 2026-02-05 Comment
HF: https://huggingface.co/Hcompany/Holo2-235B-A22B
元ポスト:
関連:
- Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
GPT-4V-Act, ddupont808, 2023.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Repository #ComputerUse #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 Comment
GPT4V(VLM)と、SoMを用いてVLMによってWebUIとClick/Keyboard操作を通じてinteractできる実装
- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10
Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #Blog #OpenWeight #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #GUI Issue Date: 2025-11-14 Comment
HF: https://huggingface.co/collections/Hcompany/holo2
元ポスト:
関連:
- Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
