DepthEstimation


Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket Issue Date: 2026-01-14 GPT Summary- 単眼深度推定に関する新しい軽量フレームワークを提案し、DINOv3を用いて高品質な特徴を取得。Simple Depth Transformerを設計し、計算オーバーヘッドを削減して精度を保ちながら85%-89%のパラメータ削減を実現。品質フィルタリング戦略でデータセットのサイズを縮小しつつトレーニング品質を向上。広範な実験により、DPTを上回る精度を確認。本研究は効率的なゼロショット深度推定の実現に向けたモデル設計とデータ品質の重要性を示す。 Comment

pj page: https://aigeeksgroup.github.io/AnyDepth/

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #4D (Video) Issue Date: 2025-12-21 GPT Summary- Video Depth Anythingは、超長時間動画における高品質で一貫した深度推定を実現するモデルであり、Depth Anything V2を基にした効率的な空間-時間ヘッドを採用。時間的一貫性損失を設計し、幾何学的事前情報なしで深度推定を行う。新しいキーフレームベースの戦略により、任意の長さの動画に適用可能で、ゼロショット動画深度推定において新たな最先端を達成。最小モデルは30 FPSでリアルタイム性能を発揮。 Comment

pj page: https://videodepthanything.github.io




Paper/Blog Link My Issue
#ComputerVision #Pocket #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #WorldModels #4D (Video) #reading #One-Line Notes Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment

pj page: https://vchitect.github.io/LongVie2-project/

元ポスト:

Loading…

関連:
- [Paper Note] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation, Jianxiong Gao+, arXiv'25, 2025.08

最大5分間のlong videoの生成が可能で、マルチモーダルな入力(depth map(空間の構造の制御; dense control signal), point map(キーポイントの時間軸での軌跡; sparse control signal))に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。

関連:
- [Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04
- [Paper Note] Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control, Zekai Gu+, SIGGRAPH'25, 2025.01
- [Paper Note] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, Sili Chen+, CVPR'25 Highlight, 2025.01




Paper/Blog Link My Issue
#ComputerVision #Pocket #CVPR #2D (Image) #3D (Scene) #4D (Video) #MotionEstimation Issue Date: 2025-12-21 GPT Summary- 本研究では、動画における密な長距離ピクセル運動の回復の難しさを解決するため、3D空間における点の軌跡を推定する手法SpatialTrackerを提案。単眼深度推定器を用いて2Dピクセルを3Dに変換し、トランスフォーマーで3D軌跡を推定。剛体制約を活用しつつ、ピクセルをクラスタリングする剛性埋め込みを同時に学習。評価の結果、特に平面外回転のシナリオで最先端の追跡性能を達成した。

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #SyntheticData #2D (Image) Issue Date: 2025-11-18 GPT Summary- Depth Anything V2を提案し、合成画像の使用、教師モデルの能力拡大、擬似ラベル付き実画像を用いた学生モデルの教育を通じて、より細かく堅牢な深度推定を実現。最新のStable Diffusionモデルと比較して、効率的かつ正確であり、異なるスケールのモデルを提供。多様なシーンを考慮した評価ベンチマークも構築。 Comment

pj page: https://depth-anything-v2.github.io

openreview: https://openreview.net/forum?id=cFTi3gLJ1X&referrer=%5Bthe%20profile%20of%20Hengshuang%20Zhao%5D(%2Fprofile%3Fid%3D~Hengshuang_Zhao2)




Paper/Blog Link My Issue
#ComputerVision #Pocket #DataAugmentation #FoundationModel #CVPR #2D (Image) Issue Date: 2025-11-18 GPT Summary- Depth Anythingは、堅牢な単眼深度推定のための基盤モデルを提案し、6200万の未ラベルデータを自動的に注釈付けしてデータセットを拡大。データ拡張と補助的な監視を用いてモデルの一般化能力を向上させ、ゼロショット評価で優れた結果を示した。NYUv2およびKITTIでファインチューニングし、最先端の性能を達成。モデルは公開されている。 Comment

日本語解説: https://computray.com/98/depth-anything/




Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #read-later #ICCV #Encoder #Backbone #SemanticSegmentation Issue Date: 2025-12-29 GPT Summary- 密なビジョントランスフォーマーは、畳み込みネットワークの代わりにビジョントランスフォーマーを用いた密な予測タスク向けの新しいアーキテクチャです。異なる解像度のトークンを集め、畳み込みデコーダでフル解像度の予測に統合します。このアーキテクチャは、グローバルな受容野を持ち、より一貫した予測を提供します。実験により、特に大量のトレーニングデータがある場合に、単眼深度推定で最大28%の性能向上を示し、セマンティックセグメンテーションではADE20Kで49.02%のmIoUを達成しました。さらに、他の小規模データセットでも最先端の結果を記録しています。モデルは公開されています。 Comment

DPT headの解説: https://qiita.com/Chi_corp_123/items/8a2e9a4f542a3404a700