4D (Video)
Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3(DA3)は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2(DA2)と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment
関連:
- [Paper Note] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, Lihe Yang+, arXiv'24, 2024.01
- [Paper Note] Depth Anything V2, Lihe Yang+, arXiv'24, 2024.06
元ポスト:
pj page: https://depth-anything-3.github.io/
#ComputerVision #Pocket #Transformer #ImageSegmentation #Prompting #FoundationModel #2D (Image)
Issue Date: 2025-11-09 [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08 GPT Summary- Segment Anything Model 2(SAM 2)は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment
openreview: https://openreview.net/forum?id=Ha6RTeWMd0
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #Omni #text
Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment
pj page: https://meituan-longcat.github.io/UNO-Bench/
元ポスト:
元ポスト:
おー、もう++が出てきた。すごいスピード感だ。
Self Forcingと比較して50s以上での生成の性能が向上しているように見える
#ComputerVision #Pocket #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #Omni #audio #text Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment
pj page: https://nvlabs.github.io/OmniVinci/
元ポスト:
image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様
#ComputerVision #Controllable #Pocket #DiffusionModel #ComputerUse #VideoGeneration/Understandings Issue Date: 2025-10-19 [Paper Note] Ctrl-VI: Controllable Video Synthesis via Variational Inference, Haoyi Duan+, arXiv'25, 2025.10 GPT Summary- ビデオ生成モデルの制約を克服するために、Ctrl-VIという新しいビデオ合成手法を提案。指定要素に対して高い制御性を持ち、非指定要素には多様性を維持。変分推論を用いて複数のビデオ生成バックボーンで合成分布を近似し、KLダイバージェンスの最小化を段階的に行う。実験により、制御性、多様性、3Dの一貫性が向上したことを示す。 Comment
元ポスト:
#ComputerVision #Pocket #Dataset #Transformer #DiffusionModel #PEFT(Adaptor/LoRA) #Encoder-Decoder Issue Date: 2025-09-16 [Paper Note] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy, Zhaoxi Chen+, arXiv'25 GPT Summary- 4DNeXは、単一の画像から動的3Dシーンを生成する初のフィードフォワードフレームワークであり、事前学習されたビデオ拡散モデルをファインチューニングすることで効率的な4D生成を実現。大規模データセット4DNeX-10Mを構築し、RGBとXYZシーケンスを統一的にモデル化。実験により、4DNeXは既存手法を上回る効率性と一般化能力を示し、動的シーンの生成的4Dワールドモデルの基盤を提供。 Comment
pj page: https://4dnex.github.io
元ポスト:
#Survey #ComputerVision #Pocket #3D (Scene) #WorldModels Issue Date: 2025-09-11 [Paper Note] 3D and 4D World Modeling: A Survey, Lingdong Kong+, arXiv'25 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment
元ポスト:
#Survey #ComputerVision #Pocket #DiffusionModel #TMLR #VideoGeneration/Understandings Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。 #ComputerVision #Pocket #DiffusionModel #Selected Papers/Blogs #VideoGeneration/Understandings Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models, Jonathan Ho+, arXiv'22, 2022.04 GPT Summary- 高忠実度で一貫した動画生成のための拡散モデルを提案。画像と動画データを共同でトレーニングし、最適化を加速。新しい条件付きサンプリング技術により、長く高解像度の動画生成で優れた性能を発揮。大規模なテキスト条件付き動画生成タスクでの初期結果と、既存ベンチマークでの最先端結果を示す。 Comment
Surveyはこちら:
- [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05
#Article #ComputerVision #ImageSegmentation #FoundationModel #Blog #read-later #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment
元ポスト:
今度はSAM3、最近毎日なんか新しいの出てるな
#Article #Dataset #Robotics #EmbodiedAI #One-Line Notes Issue Date: 2025-11-13 Egocentric-10K, Build AI, 2025.11 Comment
元ポスト:
工場での主観視点での作業動画の大規模データセット。Apache 2.0!?
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #Omni #audio #text Issue Date: 2025-11-01 LongCat-Flash-Omni Technical Report, 2025.10 Comment
元ポスト:
HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
text, image/video, audioをinputし、audioを生成するomniモデル