3D

#ComputerVision #Pocket #Dataset
Issue Date: 2025-09-15 [Paper Note] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations, Jiahao Wang+, arXiv'25 GPT Summary- SpatialVIDデータセットは、21,000時間以上の生動画から生成された2.7百万のクリップを含み、カメラポーズ、深度、動的マスクなどの詳細な3D注釈を提供。これにより、空間知能のモデルの一般化とパフォーマンス向上を促進し、ビデオおよび3Dビジョン研究において重要な資産となる。 Comment

pj page: https://nju-3dv.github.io/projects/SpatialVID/
dataset: https://huggingface.co/datasets/SpatialVID/SpatialVID-HQ

元ポスト:

Loading…

CC-BY-NC-SA 4.0ライセンス



#Survey #ComputerVision #Pocket #WorldModels #4D
Issue Date: 2025-09-11 [Paper Note] 3D and 4D World Modeling: A Survey, Lingdong Kong+, arXiv'25 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment

元ポスト:

Loading…


#ComputerVision #Pocket #DiffusionModel #2D #FeatureMatching
Issue Date: 2025-07-04 [Paper Note] Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space, Yingping Liang+, arXiv'25 GPT Summary- 新しい二段階フレームワーク「Lift to Match (L2M)」を提案し、2D画像を3D空間に持ち上げることで、特徴マッチングの一般化を向上させる。第一段階で3D特徴エンコーダを学習し、第二段階で特徴デコーダを学習することで、堅牢な特徴マッチングを実現。実験により、ゼロショット評価ベンチマークで優れた一般化性能を示した。 Comment

元ポスト:

Loading…