3D Reconstruction
#ComputerVision
#Pocket
#CVPR
Issue Date: 2025-11-20 [Paper Note] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos, Yuzheng Liu+, CVPR'25 Highlight, 2024.12 GPT Summary- SLAM3Rは、RGBビデオを用いたリアルタイムの高品質な密な3D再構築システムで、フィードフォワードニューラルネットワークを活用してローカル3D再構築とグローバル座標登録を統合。スライディングウィンドウメカニズムでビデオを重なり合ったクリップに変換し、RGB画像から直接3Dポイントマップを回帰。実験により、最先端の再構築精度と20 FPS以上のリアルタイム性能を達成。コードは公開されている。 Comment
#ComputerVision #Pocket #Dataset #Transformer #FoundationModel #3D (Scene) #UMM #SpatialUnderstanding
Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer(IGGT)を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment
#ComputerVision #Pocket #Transformer #CVPR #read-later #Selected Papers/Blogs #Backbone
Issue Date: 2025-06-22 [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment
Issue Date: 2025-11-20 [Paper Note] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos, Yuzheng Liu+, CVPR'25 Highlight, 2024.12 GPT Summary- SLAM3Rは、RGBビデオを用いたリアルタイムの高品質な密な3D再構築システムで、フィードフォワードニューラルネットワークを活用してローカル3D再構築とグローバル座標登録を統合。スライディングウィンドウメカニズムでビデオを重なり合ったクリップに変換し、RGB画像から直接3Dポイントマップを回帰。実験により、最先端の再構築精度と20 FPS以上のリアルタイム性能を達成。コードは公開されている。 Comment
元ポスト:
#ComputerVision #Pocket #Dataset #Transformer #FoundationModel #3D (Scene) #UMM #SpatialUnderstanding
Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer(IGGT)を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment
pj page: https://lifuguan.github.io/IGGT_official/
元ポスト:
ポイント解説:
#ComputerVision #Pocket #Transformer #CVPR #read-later #Selected Papers/Blogs #Backbone
Issue Date: 2025-06-22 [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment
元ポスト:
#Article
#ComputerVision
#FoundationModel
#Blog
#read-later
#Selected Papers/Blogs
#3D (Scene)
Issue Date: 2025-11-20
Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11
Comment
元ポスト:
解説: