Grounding
#ComputerVision
#Pocket
#NLP
#ImageSegmentation
#Selected Papers/Blogs
#VisionLanguageModel
#One-Line Notes
Issue Date: 2025-11-25 [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment
#Article #ComputerVision #NLP #Repository #ComputerUse #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 GPT-4V-Act, ddupont808, 2023.10 Comment
Issue Date: 2025-11-25 [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment
pj page: https://som-gpt4v.github.io
日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM
画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい
#Article #ComputerVision #NLP #Repository #ComputerUse #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 GPT-4V-Act, ddupont808, 2023.10 Comment
GPT4V(VLM)と、SoMを用いてVLMによってWebUIとClick/Keyboard操作を通じてinteractできる実装
- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10