SpatialUnderstanding

#ComputerVision #Embeddings #Pocket #NLP #Dataset #MultiModal #NeurIPS #Encoder
Issue Date: 2025-09-22 [Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04 GPT Summary- Perception Encoder(PE)は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…


#ComputerVision #Analysis #Pocket #LanguageModel #MultiModal #Architecture
Issue Date: 2025-09-12 [Paper Note] Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture, Wanyue Zhang+, arXiv'25 GPT Summary- 空間理解はMLLMsにとって重要だが、依然として課題が多い。本研究では、単一視点、多視点、ビデオの3つのシナリオにおける空間理解を体系的に分析し、MulSeTというベンチマークを提案。トレーニングデータの増加はパフォーマンス向上に寄与するが、限界があることが示された。また、空間理解は視覚エンコーダの位置エンコーディングに依存しており、推論の注入を通じたアーキテクチャ改善の可能性を探る。これにより、MLLMsの限界を明らかにし、空間推論能力向上の新たな方向性を示唆している。 Comment

元ポスト:

Loading…