3D Reconstructionに関する論文・技術記事メモの一覧

3D Reconstruction

[Paper Note] Geometric Context Transformer for Streaming 3D Reconstruction, Lin-Zhuo Chen+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #LongSequence #3D (Scene) #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-17 GPT Summary- ストリーミング3D再構成は、ビデオから3D情報を復元する技術で、精度や効率が求められる。LingBot-Mapは、SLAMの原理に基づいたフォワード型の3D基盤モデルで、幾何学的文脈トランスフォーマーを使用している。特徴的な注意機構は、アンカー文脈や軌跡メモリを活用し、長距離ドリフト補正を実現。これにより、長いシーケンスでも安定した推論が可能となり、従来手法に対して優れた性能を示した。 Comment

元ポスト:

Loading…

pj page: https://huggingface.co/robbyant/lingbot-map

高速でlong contextでもstreaming形式で生成が可能な3D Reconstructionモデルのようである

[Paper Note] Lyra 2.0: Explorable Generative 3D Worlds, Tianchang Shen+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #LongSequence #read-later #VideoGeneration/Understandings #3D (Scene) #WorldModels #SpatialUnderstanding Issue Date: 2026-04-16 GPT Summary- Lyra 2.0は、持続可能で探索可能な大規模3D世界を生成するフレームワークを提案。空間的忘却には3Dジオメトリを保持し、視点に応じた過去フレームを取得することで対応。時系列的ドリフトには自己拡張ヒストリーを活用し、誤差を訂正することで改善。これにより、長く一貫性のある動画軌道を実現し、高品質な3Dシーンの復元に活かす。 Comment

HF: https://huggingface.co/nvidia/Lyra-2.0

pj page: https://research.nvidia.com/labs/sil/projects/lyra2/

元ポスト:

Loading…

[Paper Note] HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions, Yukang Cao+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #Robotics #4D (Video) #Simulation Issue Date: 2026-03-20 GPT Summary- HSImul3Rは、疎視点画像と単眼ビデオを用いた3D再構成の統一フレームワークです。従来の手法は、知覚とシミュレーションのギャップのために物理的制約に反することが多く、これを克服するために物理シミュレーターを監督者として利用し、人間のダイナミクスとシーンジオメトリを共同で改善する双方向最適化パイプラインを導入しました。シーン指向の強化学習で人間の運動を最適化し、シミュレーションのフィードバックを基にシーンジオメトリを改良します。また、新しいベンチマークHSIBenchも提案しています。実験により、HSImul3Rは安定した再構成結果を生み出し、実世界のヒューマノイドロボットへの展開が可能であることを示しました。 Comment

元ポスト:

Loading…

pj page: https://yukangcao.github.io/HSImul3R/

[Paper Note] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction, Chen Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NeuralNetwork #HumanComputerInteraction #LongSequence #4D (Video) #ImageSynthesis #NovelViewSynthesis #Test Time Training (TTT) Issue Date: 2026-02-27 GPT Summary- tttLRMは、テスト時訓練（TTT）層を用いて自己回帰型3D再構成を線形計算量で実現する新モデルです。複数の画像を圧縮し、潜在空間で3D表現を形成し、Gaussian Splatsなどへデコード可能です。また、オンライン学習によりストリーミング観測から逐次的に再構成が可能になります。新規視点合成タスクでの事前学習が3Dモデリングの改善に寄与し、高品質な再構成と早い収束を実現。実験により、最先端手法と比較して卓越した性能を示すことが確認されました。 Comment

pj page: https://cwchenwang.github.io/tttLRM/

元ポスト:

Loading…

[Paper Note] V-DPM: 4D Video Reconstruction with Dynamic Point Maps, Edgar Sucar+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Transformer #3D (Scene) #4D Reconstruction #4D (Video) #SpatialUnderstanding Issue Date: 2026-01-16 GPT Summary- DPMをビデオ入力に適用するV-DPMを提案し、動的な3D再構築を実現。3D形状とカメラパラメータを表現し、VGGTを基にしたアプローチで最新の性能を達成。動的な深さと3D動作を完全に回復可能。 Comment

pj page: https://www.robots.ox.ac.uk/~vgg/research/vdpm/

元ポスト:

Loading…

VGGT:
- [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25

[Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #FoundationModel #ICLR #3D (Scene) #UMM #SpatialUnderstanding Issue Date: 2025-10-28 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

openreview: https://openreview.net/forum?id=swiL18PmUV

[Paper Note] AutoNeural: Co-Designing Vision-Language Models for NPU Inference, Wei Chen+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #NLP #SmallModel #OpenWeight #Selected Papers/Blogs #VisionLanguageModel #Realtime Issue Date: 2025-12-04 GPT Summary- AutoNeuralは、NPU向けに最適化されたVLMアーキテクチャで、量子化の脆弱性とI/Oバウンドな注意メカニズムの問題を解決。MobileNetV5スタイルのバックボーンを採用し、量子化誤差を最大7倍削減、エンドツーエンドのレイテンシを14倍短縮。実世界の自動車ケーススタディでリアルタイム性能を実証し、NPU制約に特化したモデル設計の重要性を示した。 Comment

pj page: https://nexa.ai/solution/intelligent-cockpit

HF: https://huggingface.co/NexaAI/AutoNeural

元ポスト:

Loading…

[Paper Note] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos, Yuzheng Liu+, CVPR'25 Highlight, 2024.12

Paper/Blog Link My Issue
#ComputerVision #CVPR Issue Date: 2025-11-20 GPT Summary- SLAM3Rは、RGBビデオを用いたリアルタイムの高品質な密な3D再構築システムで、フィードフォワードニューラルネットワークを活用してローカル3D再構築とグローバル座標登録を統合。スライディングウィンドウメカニズムでビデオを重なり合ったクリップに変換し、RGB画像から直接3Dポイントマップを回帰。実験により、最先端の再構築精度と20 FPS以上のリアルタイム性能を達成。コードは公開されている。 Comment

元ポスト:

Loading…

[Paper Note] MapAnything: Universal Feed-Forward Metric 3D Reconstruction, Nikhil Keetha+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Transformer #2D (Image) #3D (Scene) #Backbone Issue Date: 2025-09-20 GPT Summary- MapAnythingは、画像と幾何学的入力を用いて3Dシーンの幾何学とカメラを回帰するトランスフォーマーベースのモデルです。多視点シーンの因子化された表現を活用し、様々な3Dビジョンタスクに対応可能です。実験により、専門モデルと同等またはそれを上回る性能を示し、効率的な共同トレーニングを実現しています。 Comment

pj page: https://map-anything.github.io

元ポスト:

Loading…

v1.1がリリース:

Loading…

[Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25

Paper/Blog Link My Issue
#ComputerVision #Transformer #CVPR #read-later #Selected Papers/Blogs #Backbone #Reference Collection Issue Date: 2025-06-22 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment

元ポスト:

Loading…

様々な研究のBackboneとして活用されている。

[Paper Note] Objaverse-XL: A Universe of 10M+ 3D Objects, Matt Deitke+, arXiv'23, 2023.07

Paper/Blog Link My Issue
#ComputerVision #Dataset #FoundationModel #InductiveBias #NeurIPS #Selected Papers/Blogs #3D (Scene) #NovelViewSynthesis #3D Object Generation Issue Date: 2023-07-12 GPT Summary- 1000万以上の3Dオブジェクトから構成されるデータセットObjaverse-XLを紹介。手作業で設計されたオブジェクトや写真測量スキャンからの多様なオブジェクトを含む。Objaverse-XLは3Dビジョン分野の最大規模と多様性を持ち、Zero123を用いた新規ビュー合成で強力なゼロショット一般化を実現。これにより、3Dビジョンでのさらなる革新が期待される。 Comment

10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。
元ツイートのGifがわかりやすい。

Loading…

たとえばinputされたイメージに対して、自由にカメラの視点を設定し、その視点からの物体の画像を出力できる。

openreview: https://openreview.net/forum?id=Sq3CLKJeiz¬eId=hnXWj1z2rI

Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11

Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel #Blog #read-later #Selected Papers/Blogs #3D (Scene) Issue Date: 2025-11-20 Comment

元ポスト:

Loading…

解説:

Loading…