4D (Video)


Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #3D Reconstruction #3D (Scene) #4D Reconstruction #SpatialUnderstanding Issue Date: 2026-01-16 GPT Summary- DPMをビデオ入力に適用するV-DPMを提案し、動的な3D再構築を実現。3D形状とカメラパラメータを表現し、VGGTを基にしたアプローチで最新の性能を達成。動的な深さと3D動作を完全に回復可能。 Comment

pj page: https://www.robots.ox.ac.uk/~vgg/research/vdpm/

元ポスト:

Loading…

VGGT:
- [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #AIAgents #Evaluation #MultiModal #VisionLanguageModel #DeepResearch #One-Line Notes Issue Date: 2026-01-14 GPT Summary- VideoDRは、ビデオを基にしたオープンドメインのビデオ質問応答のための新たな深層研究ベンチマークで、フレーム間の視覚的手がかり抽出やインタラクティブなウェブ検索、マルチホップ推論を要求する。高品質なビデオサンプルを提供し、複数のマルチモーダル大規模言語モデルの評価を行った結果、エージェントの性能はワークフローに依存することが示された。VideoDRは次世代ビデオ深層研究エージェントへの重要な課題を明らかにする。 Comment

元ポスト:

Loading…

初めてのvideo deep researchベンチマークとのこと




Paper/Blog Link My Issue
#ComputerVision #Controllable #Pocket #WorldModels #Geometric Issue Date: 2026-01-14 GPT Summary- VerseCrafterは、カメラとオブジェクトの動きを一貫して制御する4Dビデオワールドモデルを提案。静的な背景と3Dガウス軌跡を使用して、オブジェクトの確率的な3D占有を表現し、高忠実度なビデオ生成を可能にする。自動データエンジンにより、大規模な4Dアノテーションデータセットを野生のビデオから抽出し、モデルのトレーニングを支援。 Comment

pj page: https://sixiaozheng.github.io/VerseCrafter_page/

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #SyntheticData #Evaluation #DiffusionModel #Generalization #3D (Scene) #FlowMatching #Robotics #HumanMotionGeneration Issue Date: 2026-01-11 GPT Summary- 3D人間動作生成(MoGen)は一般化能力に課題があるが、動画生成(ViGen)は優れた一般化を示す。これを受けて、ViGenからMoGenへの知識移転のためのフレームワークを提案。228,000の高品質な動作サンプルを含むデータセットViMoGen-228Kを作成し、MoCapデータとViGenモデルからの情報を統合したフローマッチングベースの拡散トランスフォーマーViMoGenを開発。さらに、動作の質や一般化能力を評価するための階層的ベンチマークMBenchを提示。実験結果は、提案手法が既存のアプローチを大幅に上回ることを示した。 Comment

dataset: https://huggingface.co/datasets/wruisi/ViMoGen-228K
leaderboard: https://huggingface.co/spaces/wruisi/MBench_leaderboard

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #VideoGeneration/Understandings #Encoder-Decoder #Omni #One-Line Notes #audio #AudioVisualGeneration Issue Date: 2026-01-03 GPT Summary- JavisGPTは、音声と映像の理解・生成のための初の統合型マルチモーダル大規模言語モデルであり、SyncFusionモジュールを用いて音声と映像の融合を実現。三段階のトレーニングパイプラインを設計し、高品質な指示データセットJavisInst-Omniを構築。広範な実験により、JavisGPTは既存のモデルを上回る性能を示し、特に複雑な同期設定で優れた結果を出した。 Comment

pj page: https://javisverse.github.io/JavisGPT-page/

元ポスト:

Loading…

音声と映像を同時に生成可能なadapterタイプのMLLM




Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Evaluation #Distillation #read-later #VideoGeneration/Understandings #VisionLanguageModel #3D (Scene) Issue Date: 2025-12-30 GPT Summary- 4D-RGPTという専門的なMLLMを導入し、動画から4D表現を捉えることで時間的知覚を強化。知覚的4D蒸留(P4D)を用いて4D表現を転送し、包括的な4D知覚を実現。新たに構築したR4D-Benchは、領域レベルのプロンプトを備えた動的シーンのベンチマークで、4D-RGPTは既存の4D VQAベンチマークとR4D-Benchの両方で顕著な改善を達成。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Multi #ComputerVision #Pocket #read-later #3D (Scene) #InverseRendering Issue Date: 2025-12-28 GPT Summary- フィードフォワード型のマルチビュー逆レンダリングフレームワークを提案し、RGB画像のシーケンスから空間的に変化する材料特性を直接予測。視点間の注意を交互に行うことで、一貫したシーンレベルの推論を実現。ラベルのない実世界のビデオを用いたファインチューニング戦略により、実世界の画像への一般化を向上。実験により、マルチビューの一貫性と推定精度で最先端の性能を達成。 Comment

pj page: https://maddog241.github.io/mvinverse-page/

元ポスト:

Loading…

headは以下の研究を踏襲しているとのこと:
- [Paper Note] Vision Transformers for Dense Prediction, René Ranftl+, ICCV'21, 2021.03




Paper/Blog Link My Issue
#ComputerVision #Pocket #DepthEstimation Issue Date: 2025-12-21 GPT Summary- Video Depth Anythingは、超長時間動画における高品質で一貫した深度推定を実現するモデルであり、Depth Anything V2を基にした効率的な空間-時間ヘッドを採用。時間的一貫性損失を設計し、幾何学的事前情報なしで深度推定を行う。新しいキーフレームベースの戦略により、任意の長さの動画に適用可能で、ゼロショット動画深度推定において新たな最先端を達成。最小モデルは30 FPSでリアルタイム性能を発揮。 Comment

pj page: https://videodepthanything.github.io




Paper/Blog Link My Issue
#ComputerVision #Pocket #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #WorldModels #reading #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment

pj page: https://vchitect.github.io/LongVie2-project/

元ポスト:

Loading…

関連:
- [Paper Note] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation, Jianxiong Gao+, arXiv'25, 2025.08

最大5分間のlong videoの生成が可能で、マルチモーダルな入力(depth map(空間の構造の制御; dense control signal), point map(キーポイントの時間軸での軌跡; sparse control signal))に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。

関連:
- [Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04
- [Paper Note] Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control, Zekai Gu+, SIGGRAPH'25, 2025.01
- [Paper Note] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, Sili Chen+, CVPR'25 Highlight, 2025.01




Paper/Blog Link My Issue
#Survey #ComputerVision #Pocket #read-later #VideoGeneration/Understandings #WorldModels #Physics Issue Date: 2025-12-17 GPT Summary- ビデオ生成は、視覚的クリップの生成から物理的妥当性を持つ仮想環境の構築へと進化している。本研究では、現代のビデオ基盤モデルを暗黙の世界モデルとビデオレンダラーの2つのコアコンポーネントとして概念化し、物理法則やエージェントの行動をエンコードする世界モデルが視覚的推論や計画を可能にすることを示す。ビデオレンダラーはシミュレーションを現実的な視覚に変換し、ビデオ生成の進展を4つの世代にわたって追跡する。各世代の特性を定義し、ロボティクスや自律運転などの応用を考察し、次世代の世界モデルに関する課題と設計原則についても議論する。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #LongSequence #VideoGeneration/Understandings Issue Date: 2025-12-17 GPT Summary- LongVieは、制御可能な超長動画生成のためのエンドツーエンドの自己回帰フレームワークであり、時間的一貫性を保つための統一ノイズ初期化戦略とグローバル制御信号の正規化を導入。視覚的劣化を軽減するために、マルチモーダル制御フレームワークを採用し、劣化認識トレーニング戦略を用いる。LongVGenBenchという100本の高解像度動画からなるベンチマークを提案し、LongVieが長距離の制御可能性、一貫性、品質で最先端の性能を達成したことを示す。 Comment

pj page: https://vchitect.github.io/LongVie-project/

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Transformer #SyntheticData #DiffusionModel #Robotics #WorldModels #VisionLanguageActionModel #EmbodiedAI #One-Line Notes #Third-Person View Issue Date: 2025-12-12 GPT Summary- X-Humanoidは、動画から動画への生成的な編集アプローチを用いて、人間からヒューマノイドへの翻訳を実現するモデルです。Unreal Engineを活用し、17時間以上のペア合成動画を生成するデータ作成パイプラインを設計し、60時間のEgo-Exo4D動画を用いて360万以上の「ロボティクス化」されたヒューマノイド動画フレームを生成しました。定量的分析とユーザー調査により、69%のユーザーが動きの一貫性で最も優れていると評価し、62.1%が具現化の正確さで最も優れていると評価しました。 Comment

pj page: https://showlab.github.io/X-Humanoid/

元ポスト:

Loading…

既存研究は主観視点の動画における人の腕をロボットアームにルールベースで置き換えるなどの方法で動画をオーバレイすることでdata scarcityの問題に対処してきており、これは有望なアプローチだが、第三者視点の動画はしばしばより複雑(全身が写り、背景が動的に変化し遮蔽に隠れたりもする)で課題がある。このため、第三者視点での動画を人間からヒューマノイドに置換するモデルを学習[^1]し(強力なvideo editingモデルでもこの点はまだ苦戦するタスクとのこと)、私生活における人間の動画をヒューマノイドに置き換えてデータを合成することでロボットのポリシーや世界モデルの学習データ不足を補います、という話に見える。

[^1]: この部分の学習データはUnreal Engineを用いて17+時間に及ぶ人間-ヒューマノイドペアの動画を合成

(以下Chatgptとの問答により得た情報なのでハルシネーションの恐れがあります)

主観視点での人間の腕をロボットアームに置き換えて学習データを合成するというのは気持ちが分かりやすかったのだが(=人間の腕と実際にロボット自身がカメラを通じて見る自分の腕は形状が違うため学習時と運用時にgapが生じる)、なぜ第三者視点でのこのようなHuman-Humanoid gapを埋めた学習データが必要なのか、という話はざーっと論文を見た限り書いておらず門外漢の私ではわからなかったので、ChatgptやGeminiにきいてみた。LLMの応答によると
- 主観視点での動画には限りがあり、第三者視点での動画の方が単純にデータ量が多い
- 主観視点動画では見える範囲が限定的であり、たとえばロボットに特定の動作を学習させたいときに、全身動作や背景の動き、物体との位置関係などはわからない。
- ロボットが実際に得る視界もロボットから見た時の主観視点であるが、それとは別の話としてこのような第三者視点がロボットが多様なタスクを学ぶときに全身が写っている動画は有用であるか(タスク、意図、行動の選択パターンなどの動作の意味情報を学ぶ)。また、第三者視点動画をロボットの視点に変換するようなモデルを作るためにもこのようなデータは必要で、これによりロボットは第三者視点の人間動画から学び、最終的にそれらを自分の主観視点に対応する表現として学習(retargetと呼ぶらしい)できる。

といった背景があるらしい。

(LLMから得た情報ここまで)

↑のLLMからの情報は妥当なように感じる。
まああとは、そもそも、ロボットが溢れかえる世界になったときに、ロボットが写っている学習データがないとまずいよね、というのも将来的にはあるのかなという感想。




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #ReinforcementLearning #MultiModal #Reasoning #OpenWeight #VisionLanguageModel #2D (Image) #UMM #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment

pj page: https://github.com/tulerfeng/OneThinker
HF: https://huggingface.co/OneThink

元ポスト:

Loading…

image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM
image

Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。
image




Paper/Blog Link My Issue
#ComputerVision #Pocket #MultiModal #VariationalAutoEncoder #VisionLanguageModel #2D (Image) #FlowMatching #UMM Issue Date: 2025-12-03 GPT Summary- TUNAという統一マルチモーダルモデル(UMM)を提案し、VAEエンコーダと表現エンコーダを連鎖させて統一された視覚表現を構築。これにより、画像と動画の理解・生成タスクをエンドツーエンドで処理可能にし、従来の分離されたUMMsを上回る性能を実現。事前学習された表現エンコーダの重要性も強調され、共同訓練により理解と生成が相互に利益を得ることが示された。広範な実験により、TUNAが最先端の結果を達成したことが確認された。 Comment

pj page: https://tuna-ai.org/




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #SpeechProcessing #VideoGeneration/Understandings #VisionLanguageModel #Science #TTS #TextToVideoGeneration Issue Date: 2025-11-29 GPT Summary- Paper2Videoは、研究論文から学術プレゼンテーション動画を自動生成するための新しいベンチマークとフレームワークを提案。101の研究論文に基づくデータセットを用い、動画生成のための評価指標を設計。PaperTalkerは、スライド生成や字幕、音声合成を統合し、効率的な生成を実現。実験により、提案手法が既存の方法よりも情報量が多く、忠実な動画を生成することを示した。データセットやコードは公開されている。 Comment

pj page: https://showlab.github.io/Paper2Video/

元ポスト:

Loading…

関連:
- [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05




Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Transformer #Evaluation #FoundationModel #2D (Image) #SpatialUnderstanding Issue Date: 2025-11-17 GPT Summary- Depth Anything 3(DA3)は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2(DA2)と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

関連:
- [Paper Note] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, Lihe Yang+, CVPR'24, 2024.01
- [Paper Note] Depth Anything V2, Lihe Yang+, NeurIPS'24, 2024.06

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

openreview: https://openreview.net/forum?id=yirunib8l8




Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #ImageSegmentation #Prompting #FoundationModel #2D (Image) Issue Date: 2025-11-09 GPT Summary- Segment Anything Model 2(SAM 2)は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment

openreview: https://openreview.net/forum?id=Ha6RTeWMd0

SAMはこちら:
- Segment Anything, Alexander Kirillov+, arXiv'23




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #Omni #text Issue Date: 2025-11-05 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #TextToVideoGeneration #SparseAttention #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #Evaluation #MultiModal #Reasoning #VideoGeneration/Understandings #ICCV #Robustness Issue Date: 2025-10-24 GPT Summary- ビデオ理解における正確性と堅牢性のギャップを評価するために、Video Thinking Test(Video-TT)を導入。1,000本のYouTube Shortsビデオを用い、オープンエンドの質問と敵対的質問を通じて、ビデオLLMsと人間のパフォーマンスの違いを示す。 Comment

pj page: https://zhangyuanhan-ai.github.io/video-tt/

関連:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #LongSequence #read-later #VideoGeneration/Understandings Issue Date: 2025-10-22 GPT Summary- 本論文では、長い動画生成における品質劣化を軽減する新しいアプローチを提案します。教師モデルの知識を活用し、自己生成した長い動画から抽出したサンプルセグメントを通じて学生モデルにガイダンスを提供することで、長さを最大20倍にスケールアップしつつ時間的一貫性を維持します。これにより、最大4分15秒の動画を生成可能で、従来の手法よりも忠実度と一貫性で大幅に優れた結果を示しました。 Comment

元ポスト:

Loading…

おー、もう++が出てきた。すごいスピード感だ。

関連:
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

Self Forcingと比較して50s以上での生成の性能が向上しているように見える




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #Omni #audio #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様




Paper/Blog Link My Issue
#ComputerVision #Controllable #Pocket #DiffusionModel #ComputerUse #VideoGeneration/Understandings Issue Date: 2025-10-19 GPT Summary- ビデオ生成モデルの制約を克服するために、Ctrl-VIという新しいビデオ合成手法を提案。指定要素に対して高い制御性を持ち、非指定要素には多様性を維持。変分推論を用いて複数のビデオ生成バックボーンで合成分布を近似し、KLダイバージェンスの最小化を段階的に行う。実験により、制御性、多様性、3Dの一貫性が向上したことを示す。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Transformer #DiffusionModel #PEFT(Adaptor/LoRA) #Encoder-Decoder Issue Date: 2025-09-16 GPT Summary- 4DNeXは、単一の画像から動的3Dシーンを生成する初のフィードフォワードフレームワークであり、事前学習されたビデオ拡散モデルをファインチューニングすることで効率的な4D生成を実現。大規模データセット4DNeX-10Mを構築し、RGBとXYZシーケンスを統一的にモデル化。実験により、4DNeXは既存手法を上回る効率性と一般化能力を示し、動的シーンの生成的4Dワールドモデルの基盤を提供。 Comment

pj page: https://4dnex.github.io

元ポスト:

Loading…



Paper/Blog Link My Issue
#Survey #ComputerVision #Pocket #3D (Scene) #WorldModels Issue Date: 2025-09-11 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #CVPR #2D (Image) #3D (Scene) #DepthEstimation #MotionEstimation Issue Date: 2025-12-21 GPT Summary- 本研究では、動画における密な長距離ピクセル運動の回復の難しさを解決するため、3D空間における点の軌跡を推定する手法SpatialTrackerを提案。単眼深度推定器を用いて2Dピクセルを3Dに変換し、トランスフォーマーで3D軌跡を推定。剛体制約を活用しつつ、ピクセルをクラスタリングする剛性埋め込みを同時に学習。評価の結果、特に平面外回転のシナリオで最先端の追跡性能を達成した。

Paper/Blog Link My Issue
#Survey #ComputerVision #Pocket #DiffusionModel #TMLR #VideoGeneration/Understandings Issue Date: 2025-10-17 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。

Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #Selected Papers/Blogs #VideoGeneration/Understandings Issue Date: 2025-10-17 GPT Summary- 高忠実度で一貫した動画生成のための拡散モデルを提案。画像と動画データを共同でトレーニングし、最適化を加速。新しい条件付きサンプリング技術により、長く高解像度の動画生成で優れた性能を発揮。大規模なテキスト条件付き動画生成タスクでの初期結果と、既存ベンチマークでの最先端結果を示す。 Comment

Surveyはこちら:
- [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NaturalLanguageGeneration #NLP #DataToTextGeneration #INLG #Game Issue Date: 2022-09-15 GPT Summary- モーターレーシングゲームにおける自動解説生成タスクを提案し、視覚データ、数値データ、テキストデータを用いて解説を生成する。タスクは発話タイミングの特定と発話生成の2つのサブタスクに分かれ、129,226の発話を含む新しい大規模データセットを紹介。解説の特性は時間や視点によって変化し、最先端の視覚エンコーダでも正確な解説生成が難しいことが示された。データセットとベースライン実装は今後の研究のために公開される。 Comment

データセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NaturalLanguageGeneration #Pocket #NLP #MultitaskLearning #ACL #Encoder-Decoder #One-Line Notes #VideoCaptioning Issue Date: 2017-12-31 GPT Summary- ビデオキャプショニングの改善のため、教師なしビデオ予測タスクと論理的言語含意生成タスクを共有し、リッチなビデオエンコーダ表現を学習。パラメータを共有するマルチタスク学習モデルを提案し、標準データセットで大幅な改善を達成。 Comment

解説スライド: https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1

multitask learningで動画(かなり短め)のキャプション生成を行なった話




Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #OpenWeight #WorldModels #interactive #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment

blog: https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page: https://over.world/

元ポスト:

Loading…

リアルタイムにzero latencyでマウス(カメラも自由に動かせる)、キーボード、テキストでinteraction可能なworld model




Paper/Blog Link My Issue
#Article #ComputerVision #Pocket #Library #MultiModal #SpeechProcessing #python #Encoder #2D (Image) #audio Issue Date: 2025-12-19 Comment

元ポスト:

Loading…

様々なモダリティ(画像・動画・音声等)をエンコードできるPerception Encoderに最近リリースされたSAM Audio (Audio-Visual / Audio-frame) も組み込まれた模様
code: https://github.com/facebookresearch/perception_models




Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Selected Papers/Blogs #DataMixture #Robotics #VisionLanguageActionModel #EmbodiedAI #KeyPoint Notes #EmergentAbilities #EgocentricView #DomainGap Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。
image

人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ(事前学習時点では人間の動画は含まれないことに注意)をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。

これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SmallModel #OpenWeight #OpenSource #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #2D (Image) #KeyPoint Notes Issue Date: 2025-12-17 Comment

テクニカルレポート: https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
HF: https://huggingface.co/collections/allenai/molmo2

関連:
- Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09

Qwen3とOlmoをベースにしたvariantsが存在し、Olmoの方はバックボーンのLLMも含めて全てがオープンになっている。MetaのPerceptionLMと比較して1/8の動画データ量で高い性能を達成できており、データのcurationの品質と、grounding basedな目的関数の工夫によって実現されているとのこと。

proprietaryなモデル群と比較すると、trackingは圧勝、そのほかはGPT5-miniと同様なものが多い。モデルによってタスクの優劣が結構分かれており、Video関連タスクをタスクをまたいで汎化させることにはclosedでも苦戦しているように見える。

image

オープンモデルとの比較で言うと圧勝で、LongVideoのQAに関してだけは、Eagle2.5-8Bと呼ばれるモデルが勝っている。
image

あとは全体を通じてLLMのバックボーンがQwen3の場合の性能が良いことが興味深い。バックボーンに採用するLLMに応じて性能が結構変わる。これはアーキテクチャがそもそもConnectorを利用するタイプのもので、Unifiedなアーキテクチャではないことが要因としては考えられる。

image

元ポスト:

Loading…