Geometric

#ComputerVision #Pocket #Dataset #LanguageModel #Evaluation #COLM #VisionLanguageModel
Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs(GPT-4oやGemini 2.5 Proを含む)は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…