Groundingに関する論文・技術記事メモの一覧

Grounding

[Paper Note] REMem: Reasoning with Episodic Memory in Language Agent, Yiheng Shu+, ICLR'26, 2026.02

Paper/Blog Link My Issue
#GraphBased #NLP #LanguageModel #AIAgents #ICLR #memory #One-Line Notes Issue Date: 2026-03-01 GPT Summary- REMemは、エピソード記憶を構築し推論するための2段階フレームワークを提案する。オフラインでは、経験を時間情報を含む要旨と事実を結びつけたハイブリッド記憶グラフに変換。オンラインでは、エージェント型リトリーバを用いて記憶グラフ上での反復検索を可能にする。包括的な評価により、REMemは最先端システムを大幅に上回り、エピソード回想と推論タスクでそれぞれ3.4%、13.4%の改善を示す。回答不能な質問に対する拒否行動も堅牢であることが確認された。 Comment

元ポスト:

Loading…

単に知識や事実情報を蓄積するのではなく、過去のイベントに関するsituationalな情報（when,where,who,what)でgroundingをしながら、複数のイベント、タイムラインを跨いでreasoningができるようなepisodic memoryの提案。人間は単に意味情報から記憶を呼び起こすだけでなく、過去のイベントを想起して条件付けした上で時系列になぞって記憶を想起できる能力があることに起因する。

[Paper Note] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection, Mingyu Ouyang+, CVPR'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #CVPR #VisionLanguageModel #GUI Issue Date: 2026-01-13 GPT Summary- 視覚言語モデル（VLM）を用いたUIグラウンディングタスクに関する研究で、FocusUIという効率的なフレームワークを提案。冗長トークンを排除し、指示に関連する視覚トークンを選択しつつ、位置的連続性を保持する新戦略を採用。これにより、4つのベンチマークで優れた性能を発揮し、特にScreenSpot-Proでは3.7%の性能向上を達成。視覚トークン保持率が30%でも高い推論速度と低メモリ使用を実現。 Comment

元ポスト:

Loading…

[Paper Note] ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use, Kaixin Li+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #ComputerUse #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-03-20 GPT Summary- MLLMの進展は一般的なタスクのGUIエージェントに貢献しているが、専門分野への適用は未検討。ScreenSpot-Proでは、高解像度の専門設定でMLLMのグラウンディング能力を評価する新ベンチマークを提示。複数の業界とアプリケーションに対してテストを行い、既存モデルの性能は低く、最良のモデルでも18.9%に過ぎない。探索域の戦略的縮小により精度向上を示し、ScreenSeekeRを提案。階層的検索を用いることで、訓練不要で48.1%の性能を達成。専門アプリ向けGUIエージェント開発の進展を期待。 Comment

元ポスト:

Loading…

高解像度な画像を用いた多様なドメインでのVLMのGUI grounding性能を測るベンチマークとリーダーボードのようでえる

現在のトップはHolo2のようである
- New Holo2 model takes the lead in UI Localization, H Company, 2026.02
- Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11

[Paper Note] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness, Chenming Zhu+, ICCV'25, 2024.09

Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #Reasoning #PositionalEncoding #OpenWeight #OpenSource #PostTraining #Selected Papers/Blogs #ICCV #VisionLanguageModel #3D (Scene) #SpatialUnderstanding #KeyPoint Notes Issue Date: 2026-02-28 GPT Summary- LLaVA-3Dは、3Dシーン理解に対応する新たなフレームワークで、2D視覚理解の知識を活用しつつ、3D位置埋め込みを統合。2D CLIPパッチを3D空間情報で強化し、2Dと3Dの共同チューニングを行うことで、迅速かつ正確な3D認識を実現。実験では、既存の3Dモデルよりも3.5倍速く収束し、3Dタスクでの最先端性能を達成しながら、2D機能も保持している。 Comment

github: https://github.com/ZCMax/LLaVA-3D
pj page: https://zcmax.github.io/projects/LLaVA-3D/

3Dに関するspatial understandingの能力を持つVLMで、テキストの出力だけでなく、3Dのbounding boxを出力する専用のデコーダを持つ。

2DのCLIPベースのimage encoderによる情報を活用しつつ、2D patchに対して3Dに関する位置情報(depth）を3D positional encodingを通じて加えることで3D patchを作成し入力として活用。3Dのgrounding taskを扱うgrounding decoderを導入することで3D理解に関する能力を醸成する。学習は2stageで、最初のstageでは、2D, 3D双方の能力を同時に学習するために2D, 3Dのデータ両方を用いてモデルをSFTする。その後grounding decoderは前段のSFTでさ学習しきれないため、grounding decoder以外のモジュールはfreezeして、3D groundingタスクでdecoderとlocation tokenを学習するらしい。これにより、2D, 3Dシーンの理解力を損なわず、groundingに関する性能を高める。

[Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10

Paper/Blog Link My Issue
#ComputerVision #NLP #ImageSegmentation #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment

pj page: https://som-gpt4v.github.io

日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM

画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい

[Paper Note] UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models, Tianbao Xie+, EMNLP'22, 2022.01

Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #MultitaskLearning #PEFT(Adaptor/LoRA) #EMNLP #Encoder-Decoder Issue Date: 2022-12-05 GPT Summary- UnifiedSKGフレームワークを提案し、21の構造化知識のグラウンディング（SKG）タスクをテキスト対テキスト形式に統合。これにより、体系的なSKG研究を促進し、異なるサイズのT5で最先端の性能を達成。マルチタスクチューニングが性能向上に寄与し、SKGのゼロショットおよび少数ショット学習における課題を示した。UnifiedSKGは他のタスクへの拡張も可能で、オープンソースとして公開されている。

New Holo2 model takes the lead in UI Localization, H Company, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #Blog #OpenWeight #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #GUI Issue Date: 2026-02-05 Comment

HF: https://huggingface.co/Hcompany/Holo2-235B-A22B

元ポスト:

Loading…

GPT-4V-Act, ddupont808, 2023.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Repository #ComputerUse #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 Comment

GPT4V(VLM)と、SoMを用いてVLMによってWebUIとClick/Keyboard操作を通じてinteractできる実装

- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10

Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #Blog #OpenWeight #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #GUI Issue Date: 2025-11-14 Comment

HF: https://huggingface.co/collections/Hcompany/holo2

元ポスト:

Loading…