Grounding


Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #VisionLanguageModel #GUI Issue Date: 2026-01-13 GPT Summary- 視覚言語モデル(VLM)を用いたUIグラウンディングタスクに関する研究で、FocusUIという効率的なフレームワークを提案。冗長トークンを排除し、指示に関連する視覚トークンを選択しつつ、位置的連続性を保持する新戦略を採用。これにより、4つのベンチマークで優れた性能を発揮し、特にScreenSpot-Proでは3.7%の性能向上を達成。視覚トークン保持率が30%でも高い推論速度と低メモリ使用を実現。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #ImageSegmentation #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment

pj page: https://som-gpt4v.github.io

日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM

画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい