SpatialUnderstanding
[Paper Note] When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning, Shoubin Yu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Test-Time Scaling #WorldModels #Adaptive Issue Date: 2026-02-11 GPT Summary- 視覚的空間推論における想像の役割を分析し、制御可能なリソースとしてのテスト時視覚的想像の効果を評価。静的証拠が十分であるか、想像が改善に寄与するかを探求し、適応型フレームワークAVICを導入。結果は、想像の必要性や有害性の明確なシナリオを示し、制御された想像が固定戦略に匹敵するかそれを超える成果を達成。効率的な空間推論には、想像の分析と制御が不可欠であることを強調。 Comment
元ポスト:
[Paper Note] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models, Zengbin Wang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs Issue Date: 2026-01-31 GPT Summary- T2Iモデルの空間処理能力を評価する新しいベンチマーク「SpatialGenEval」を提案。1,230の長い情報密度の高いプロンプトを用いて、空間関係の推論が主なボトleneckであることを確認。また、「SpatialT2I」データセットを構築し、ファインチューニングによって現実的な空間効果を向上させるデータ中心のアプローチを強調。 Comment
元ポスト:
[Paper Note] V-DPM: 4D Video Reconstruction with Dynamic Point Maps, Edgar Sucar+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Transformer #3D Reconstruction #3D (Scene) #4D Reconstruction #4D (Video) Issue Date: 2026-01-16 GPT Summary- DPMをビデオ入力に適用するV-DPMを提案し、動的な3D再構築を実現。3D形状とカメラパラメータを表現し、VGGTを基にしたアプローチで最新の性能を達成。動的な深さと3D動作を完全に回復可能。 Comment
pj page: https://www.robots.ox.ac.uk/~vgg/research/vdpm/
元ポスト:
VGGT:
- [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25
[Paper Note] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness, Chenming Zhu+, ICCV'25, 2024.09
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #Reasoning #PositionalEncoding #OpenWeight #OpenSource #PostTraining #Selected Papers/Blogs #ICCV #VisionLanguageModel #3D (Scene) #KeyPoint Notes #Grounding Issue Date: 2026-02-28 GPT Summary- LLaVA-3Dは、3Dシーン理解に対応する新たなフレームワークで、2D視覚理解の知識を活用しつつ、3D位置埋め込みを統合。2D CLIPパッチを3D空間情報で強化し、2Dと3Dの共同チューニングを行うことで、迅速かつ正確な3D認識を実現。実験では、既存の3Dモデルよりも3.5倍速く収束し、3Dタスクでの最先端性能を達成しながら、2D機能も保持している。 Comment
github:
https://github.com/ZCMax/LLaVA-3D
pj page:
https://zcmax.github.io/projects/LLaVA-3D/
3Dに関するspatial understandingの能力を持つVLMで、テキストの出力だけでなく、3Dのbounding boxを出力する専用のデコーダを持つ。
2DのCLIPベースのimage encoderによる情報を活用しつつ、2D patchに対して3Dに関する位置情報(depth)を3D positional encodingを通じて加えることで3D patchを作成し入力として活用。3Dのgrounding taskを扱うgrounding decoderを導入することで3D理解に関する能力を醸成する。学習は2stageで、最初のstageでは、2D, 3D双方の能力を同時に学習するために2D, 3Dのデータ両方を用いてモデルをSFTする。その後grounding decoderは前段のSFTでさ学習しきれないため、grounding decoder以外のモジュールはfreezeして、3D groundingタスクでdecoderとlocation tokenを学習するらしい。これにより、2D, 3Dシーンの理解力を損なわず、groundingに関する性能を高める。
[Paper Note] MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning, Yuanchen Ju+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #GraphBased #Dataset #ReinforcementLearning #Evaluation #PostTraining #Robotics #EmbodiedAI Issue Date: 2025-12-25 GPT Summary- 家庭内のモバイルマニピュレーター向けに、空間的・機能的関係を統合したMomaGraphを提案。これを支えるために、初の大規模データセットMomaGraph-Scenesと評価スイートMomaGraph-Benchを提供。さらに、7Bのビジョン・ランゲージモデルMomaGraph-R1を開発し、タスク指向のシーングラフを予測。実験により、71.6%の精度を達成し、オープンソースモデルの中で最先端の結果を示した。 Comment
pj page: https://hybridrobotics.github.io/MomaGraph/
元ポスト:
[Paper Note] Exploring MLLM-Diffusion Information Transfer with MetaCanvas, Han Lin+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #LanguageModel #MultiModal #DiffusionModel #PEFT(Adaptor/LoRA) Issue Date: 2025-12-24 GPT Summary- MetaCanvasという軽量フレームワークを提案し、マルチモーダル大規模言語モデル(MLLMs)が空間的および時空間的潜在空間で直接推論と計画を行えるようにする。これにより、画像や動画生成において正確な制御を実現。6つのタスクで評価した結果、MetaCanvasはグローバル条件付けのベースラインを常に上回り、MLLMsを潜在空間のプランナーとして扱うことが有望であることを示した。 Comment
pj page: https://metacanvas.github.io/
元ポスト:
[Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #Evaluation #FoundationModel #2D (Image) #4D (Video) Issue Date: 2025-11-17 GPT Summary- Depth Anything 3(DA3)は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2(DA2)と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment
関連:
- [Paper Note] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, Lihe Yang+, CVPR'24, 2024.01
- [Paper Note] Depth Anything V2, Lihe Yang+, NeurIPS'24, 2024.06
元ポスト:
pj page: https://depth-anything-3.github.io/
openreview: https://openreview.net/forum?id=yirunib8l8
[Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, CVPR'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #Robotics #Omni #Geometric #Robustness Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment
元ポスト:
depth mapやcameraの情報などの様々な幾何学的情報を入力した場合(depth mapがないなど情報が欠落していても良い)にロバストに対応できるような基盤モデルを構築する手法らしい
評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12
[Paper Note] Holistic Evaluation of Multimodal LLMs on Spatial Intelligence, Zhongang Cai+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #MultiModal #VisionLanguageModel Issue Date: 2025-11-09 GPT Summary- マルチモーダルモデルは進展しているが、空間理解と推論には限界がある。GPT-5の性能を評価するため、空間タスクの分類法と評価プロトコルを提案し、8つの主要ベンチマークを使用。実証研究では、GPT-5は空間知能で強さを示すが、人間のパフォーマンスには及ばず、特に難しいタスクでの能力不足が顕著であることを明らかにした。 Comment
元ポスト:
leaderboard: https://huggingface.co/spaces/lmms-lab-si/EASI-Leaderboard
v0.2.0がリリース:
[Paper Note] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors, Zhengshen Zhang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #3D (Scene) #Robotics #VisionLanguageActionModel Issue Date: 2025-11-03 GPT Summary- FALCON(From Spatial to Action)は、視覚-言語-行動(VLA)モデルの空間的推論のギャップを解消する新しいパラダイムで、3D空間トークンを行動ヘッドに注入します。RGBから幾何学的情報を提供し、深度やポーズを融合させることで高い忠実度を実現し、再訓練やアーキテクチャの変更は不要です。FALCONは、空間表現やモダリティの転送可能性を向上させ、11の現実世界のタスクで最先端のパフォーマンスを達成しました。 Comment
pj page: https://falcon-vla.github.io/
元ポスト:
[Paper Note] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning, Yuhong Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #Self-SupervisedLearning #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #One-Line Notes #Pixel-based Issue Date: 2025-11-03 GPT Summary- 空間理解におけるLVLMの弱点を克服するため、自己教師あり強化学習パラダイムSpatial-SSRLを提案。5つの前提タスクを自動定式化し、検証が容易な信号を導出。これにより、空間推論が大幅に改善され、7つのベンチマークでQwen2.5-VLベースラインに対して平均精度が4.63%(3B)および3.89%(7B)向上。シンプルな監視がRLVRを可能にし、LVLMの空間知能向上に寄与することを示した。 Comment
元ポスト:
RGB/RGB-D imageがgivenなときに、
- cropped patch inpainting
- flipped patch recognition
- shuffled patch reordering
- regional depth ordering
- relative 3D position prediction
の5つのverifiableなタスクを定義しself supervisedなmannerでRLすることでSpatial Understanding能力を向上させる話らしい
3Bモデルがリリース:
https://huggingface.co/internlm/Spatial-SSRL-3B
[Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #FoundationModel #3D Reconstruction #3D (Scene) #UMM Issue Date: 2025-10-28 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer(IGGT)を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment
pj page: https://lifuguan.github.io/IGGT_official/
元ポスト:
ポイント解説:
[Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM Issue Date: 2025-10-20 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment
元ポスト:
[Paper Note] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model, Fuhao Li+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #3D (Scene) #Robotics #VisionLanguageActionModel Issue Date: 2025-10-20 GPT Summary- Spatial Forcing (SF)という新しい整合戦略を提案し、VLAモデルが3D空間理解能力を向上させることを促進。SFは3D入力や深度推定器に依存せず、VLAの中間視覚埋め込みを3D基盤モデルの幾何学的表現と整合させる。実験により、SFは最先端の結果を達成し、トレーニングを最大3.8倍加速、データ効率を改善。 Comment
元ポスト:
[Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04
Paper/Blog Link My Issue
#ComputerVision #Embeddings #NLP #Dataset #MultiModal #NeurIPS #Encoder Issue Date: 2025-09-22 GPT Summary- Perception Encoder(PE)は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment
元ポスト:
解説:
[Paper Note] Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture, Wanyue Zhang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Analysis #LanguageModel #MultiModal #Architecture Issue Date: 2025-09-12 GPT Summary- 空間理解はMLLMsにとって重要だが、依然として課題が多い。本研究では、単一視点、多視点、ビデオの3つのシナリオにおける空間理解を体系的に分析し、MulSeTというベンチマークを提案。トレーニングデータの増加はパフォーマンス向上に寄与するが、限界があることが示された。また、空間理解は視覚エンコーダの位置エンコーディングに依存しており、推論の注入を通じたアーキテクチャ改善の可能性を探る。これにより、MLLMsの限界を明らかにし、空間推論能力向上の新たな方向性を示唆している。 Comment
元ポスト:
NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #LongSequence #SmallModel #OpenWeight #ObjectLocalization #VisionLanguageModel #Robotics #EmbodiedAI #Physics Issue Date: 2026-01-06 Comment
HF: https://huggingface.co/nvidia/Cosmos-Reason2-8B?linkId=100000401175768
元ポスト:
Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #MultiModal #Repository #VisionLanguageModel Issue Date: 2025-11-18 Comment
元ポスト:
VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト
