4D (Video)に関する論文・技術記事メモの一覧

4D (Video)

[Paper Note] Visual Jigsaw Post-Training Improves MLLMs, Penghao Wu+, ICLR'26, 2025.09

Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #ReinforcementLearning #MultiModal #Self-SupervisedLearning #ICLR #PostTraining #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #SpatialUnderstanding Issue Date: 2026-04-25 GPT Summary- 視覚理解を強化するための自己教師付きポストトレーニングフレームワーク「Visual Jigsaw」を提案。視覚入力を分割・シャッフルし、モデルは正しい順列を自然言語で出力。これにより強化学習と一致し、追加の視覚生成なしで自動的に監督信号を得る。広範な実験で知覚、時間的推論、3D理解の改善を確認し、視覚中心タスクの可能性を示唆。 Comment

pj page: https://penghao-wu.github.io/visual_jigsaw/

openreview: https://openreview.net/forum?id=tBf2SUzfZw

元ポスト:

Loading…

[Paper Note] Context Unrolling in Omni Models, Ceyuan Yang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Reasoning #VisionLanguageModel #2D (Image) #3D (Scene) #UMM #Omni #One-Line Notes #Reference Collection #AudioLanguageModel #Fidelity #audio #text Issue Date: 2026-04-24 GPT Summary- Omniは、多様なモダリティにネイティブに訓練されたマルチモーダルモデルで、Context Unrollingを通じて異なるモダリティの情報を統合。これにより、下流の推論忠実度が向上し、高い生成・理解性能を発揮。テキスト、画像、動画、3Dジオメトリを用いた高度な推論能力を示す。 Comment

元ポスト:

Loading…

モダリティを跨いでtaskに対してrelevantなcontextを活性化させることで、omniモデルの生成時の推論能力と、忠実度を向上させる

[Paper Note] HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions, Yukang Cao+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #3D Reconstruction #Robotics #Simulation Issue Date: 2026-03-20 GPT Summary- HSImul3Rは、疎視点画像と単眼ビデオを用いた3D再構成の統一フレームワークです。従来の手法は、知覚とシミュレーションのギャップのために物理的制約に反することが多く、これを克服するために物理シミュレーターを監督者として利用し、人間のダイナミクスとシーンジオメトリを共同で改善する双方向最適化パイプラインを導入しました。シーン指向の強化学習で人間の運動を最適化し、シミュレーションのフィードバックを基にシーンジオメトリを改良します。また、新しいベンチマークHSIBenchも提案しています。実験により、HSImul3Rは安定した再構成結果を生み出し、実世界のヒューマノイドロボットへの展開が可能であることを示しました。 Comment

元ポスト:

Loading…

pj page: https://yukangcao.github.io/HSImul3R/

[Paper Note] Solaris: Building a Multiplayer Video World Model in Minecraft, Georgy Savva+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Multi #WorldModels Issue Date: 2026-03-17 GPT Summary- Solarisは、マルチプレイヤー対応のビデオ生成モデルであり、既存の単一エージェント視点の限界を克服する。Minecraftなどのゲームで協調的なマルチエージェント相互作用を捉えるためのデータシステムを開発し、1264万のマルチプレイヤーフレームを収集。段階的な訓練パイプラインにより、単一プレイヤーからマルチプレイヤーへの移行を実現し、Checkpoined Self Forcingという新しいメモリ効率型アプローチを導入。実験結果は、提案したアーキテクチャが既存の手法を上回ることを示し、オープンソース化によってマルチエージェント・ワールドモデルの基盤を築くことを目指す。

[Paper Note] OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding, Zixian Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #VisionLanguageModel #SpatialUnderstanding #Author Thread-Post Issue Date: 2026-03-12 GPT Summary- MLLMに空間理解を持たせるためのフレームワークOnlineSIを提案。動画ストリームを利用して、有限の空間メモリを用いた継続的な推論を実現し、計算量を増加させない。3D点群と意味情報を統合し、物体の位置決定を向上。ファジーF1スコアを用いて実験し、現実世界の具現化システムへの展開の可能性を示した。 Comment

pj page: https://onlinesi.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors, Zihao Huang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #4D Reconstruction #interactive #Reference Collection #Author Thread-Post Issue Date: 2026-03-06 GPT Summary- ArtHOIは、単眼動画からの情報を用いて4Dの関節付き人間-物体相互作用を合成する初のゼロショットフレームワークである。このアプローチでは、動画の逆レンダリングを通じて接触や関節運動を自然に満たす物理的に妥当な4Dシーンを再構成する。提案手法は、光学フローを基に動的および静的領域を分離し、安定した物体のアーティキュレーションを回復した後、条件として人間の運動を生成する。また、多様なシーンにおいて、従来手法を上回る精度で相互作用を実現する。 Comment

pj page: https://arthoi.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model, Narges Norouzi+, CVPR'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #ImageSegmentation #CVPR #read-later #Selected Papers/Blogs #Encoder #2D (Image) #Initial Impression Notes Issue Date: 2026-02-28 GPT Summary- VidEoMTは、専用の追跡モジュールなしで動画セグメンテーションを実現するエンコーダーのみのモデルである。軽量なクエリ伝搬機構を導入し、前フレームの情報を活用することで、フレーム間の連携を図る。時系列に依存しない学習済みクエリと融合により、利益を生み出しつつ追加の複雑さを回避し、最大160 FPSで競争力のある精度を達成した。 Comment

元ポスト:

Loading…

他タスクでも色々使えそうなアーキテクチャに見える

[Paper Note] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction, Chen Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NeuralNetwork #HumanComputerInteraction #LongSequence #3D Reconstruction #ImageSynthesis #NovelViewSynthesis #Test Time Training (TTT) Issue Date: 2026-02-27 GPT Summary- tttLRMは、テスト時訓練（TTT）層を用いて自己回帰型3D再構成を線形計算量で実現する新モデルです。複数の画像を圧縮し、潜在空間で3D表現を形成し、Gaussian Splatsなどへデコード可能です。また、オンライン学習によりストリーミング観測から逐次的に再構成が可能になります。新規視点合成タスクでの事前学習が3Dモデリングの改善に寄与し、高品質な再構成と早い収束を実現。実験により、最先端手法と比較して卓越した性能を示すことが確認されました。 Comment

pj page: https://cwchenwang.github.io/tttLRM/

元ポスト:

Loading…

[Paper Note] A Very Big Video Reasoning Suite, Maijunxian Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Dataset #Supervised-FineTuning (SFT) #Evaluation #Reasoning #mid-training #PostTraining #VideoGeneration/Understandings #Author Thread-Post Issue Date: 2026-02-27 GPT Summary- ビデオ推論の能力を探究するため、100万本以上のビデオクリップを含む前例のないVBVRデータセットを導入。200の推論タスクを網羅し、既存データセットの約1000倍の規模で、評価フレームワークとしてVBVR-Benchを提示。これにより、ビデオ推論の研究における再現性と解釈可能性を向上させ、新規タスクへの応用の初期兆候を示す。VBVRは次の研究段階の基盤となる。データ、ツール、モデルは公開中。 Comment

pj page: https://video-reason.com/

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] MultiShotMaster: A Controllable Multi-Shot Video Generation Framework, Qinghe Wang+, CVPR'26, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Controllable #CVPR #VideoGeneration/Understandings Issue Date: 2026-02-24 GPT Summary- MultiShotMasterは、マルチショット動画生成のための高度に制御可能なフレームワークを提案する。これにより、ショット遷移の位相シフトを適用し、柔軟なショット配置を実現。参照トークンとグラウンディング信号を用いた設計により、時空間的参照を強化し、データ不足を克服するための自動データ注釈パイプラインを確立。結果として、テキスト駆動の一貫性とカスタム対象を持つマルチショット動画生成を支援し、高性能と卓越した制御性を示した。 Comment

pj page: https://qinghew.github.io/MultiShotMaster/

元ポスト:

Loading…

[Paper Note] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control, Linxi Xie+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #VideoGeneration/Understandings #interactive Issue Date: 2026-02-24 GPT Summary- 人間中心のビデオワールドモデルを提案し、追跡された頭部および手の姿勢に基づく生成モデルを導入。既存の条件付け戦略を改善し、巧妙な手と物体の相互作用を可能にする。双方向のビデオ拡散モデルを訓練し、自分視点の仮想環境を作成。評価実験により、タスクパフォーマンスの向上と高い知覚的制御感を示す。 Comment

pj page: https://codeysun.github.io/generated-reality/

[Paper Note] SLA2: Sparse-Linear Attention with Learnable Routing and QAT, Jintao Zhang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #VideoGeneration/Understandings #Routing #One-Line Notes #SparseAttention #LinearAttention Issue Date: 2026-02-20 GPT Summary- SLA2は、スパース注意とリニア注意を動的に選択する学習可能なルータを導入し、パフォーマンスを向上させる。さらに、アテンションブランチを組み合わせるための比率や量子化を意識した設計を採用。実験により、動画生成モデルで97%のスパース性を達成し、18.6倍の速度向上を実現した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Sparse AttentionとLinear Attentionを動的に選択するルータを学習して効率を向上させる

[Paper Note] EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing, Yehonathan Litman+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #DiffusionModel #VideoGeneration/Understandings #Editing #One-Line Notes #Author Thread-Post Issue Date: 2026-02-19 GPT Summary- 高忠実度なビデオ編集には、新しい局所的ビデオ文脈モジュールを使用するEditCtrlフレームワークを提案。これにより、マスクされたトークンのみに集中し、計算コストを編集サイズに比例させる。全体の文脈の一貫性を保持しつつ、他の手法に比べて計算効率が10倍向上し、編集品質も改善。テキストプロンプトを利用した新機能を実現。 Comment

pj page: https://yehonathanlitman.github.io/edit_ctrl/

元ポスト:

Loading…

著者ポスト:

Loading…

video editing/inpaintingタスクにおいて、editに必要なlocal contextとeditとの一貫性を保つためのglobal contextを分離し、global contextに対するfull-attention計算を削減する（i.e., local contextに計算量を集中させる）ことで効率を向上、という話に見える。

[Paper Note] CoPE-VideoLM: Codec Primitives For Efficient Video Language Models, Sayan Deb Sarkar+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #VisionLanguageModel #Encoder #One-Line Notes Issue Date: 2026-02-17 GPT Summary- 動画理解のために、動画コーデックのプリミティブを活用し、計算オーバーヘッドを軽減。軽量トランスフォーマーエンコーダにより、トークン生成を大幅に効率化し、一般的なベンチマークで性能を維持。最大で86%の時間短縮と93%のトークン削減を実現。 Comment

元ポスト:

Loading…

VideoLanguageModelのinputにおあて、より効率的な画像のΔエンコーダを導入して高速化しつつ性能向上

[Paper Note] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition, Yuhao Dong+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #In-ContextLearning #VisionLanguageModel Issue Date: 2026-02-10 GPT Summary- デモ駆動型ビデオインコンテキスト学習を提案し、ビデオに関する質問に対してインコンテキストデモから学ぶ新たなタスクを定義。1200本のYouTubeビデオを用いた「Demo-ICL-Bench」を作成し、テキストと動画のデモを提供。Demo-ICLモデルを開発し、ビデオ監督付きファインチューニングによってインコンテキスト学習能力を向上。実験によりベンチマークの難易度を検証し、モデルの性能を明示。 Comment

元ポスト:

Loading…

[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel #OpenWeight #Robotics #WorldModels #Realtime #Physics #EgocentricView #Author Thread-Post Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment

pj page: https://dreamdojo-world.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

[Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #Proprietary #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #2D (Image) #UMM #Omni #text #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- ERNIE 5.0は、テキスト、画像、ビデオ、音声に対応したマルチモーダル理解と生成のための基盤モデルです。超スパースな専門家の混合アーキテクチャを使用し、依存しないルーティングでトークン予測を行います。新たなトレーニングパラダイムにより、モデルは性能、サイズ、推論レイテンシを柔軟に調整可能です。幅広い実験において、ERNIE 5.0は複数のモダリティで優れた性能を示し、初の商用規模の兆パラメータモデルとして注目されています。 Comment

元ポスト:

Loading…

リリース時の公式ポスト:

Loading…

あくまでskim readingをして得た印象なのだが、非常に興味深い研究で、Omniモダリティを超大規模モデルでスクラッチからUnified Multimodal Modelとして学習し、MoEで効率的に推論するというアーキテクチャと手法に見え（個人的にこういう手法でやったらどうなるのだろう？と思っていたドンピシャな設定）、各種ベンチマークの性能指標を見ると多くの指標で全体的に良いスコアを達成しており様々なタスクを高性能で実現できる一方、特定の分野のベンチマークでGemini Pro 3の方が強い面が多く（たとえばテキストモダリティのstem, coding, vision全般, ASR全般)、Omniモダリティの統合は一筋縄ではいかず、どのようにモダリティを統合し、学習することが効果的なのか？という根源的な問いがあらためて思い浮かぶ。

Ming Omniでも同様のことがやられていた:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06

[Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Zero/Few/ManyShotPrompting #TransferLearning #OpenWeight #read-later #Selected Papers/Blogs #Generalization #Robotics #WorldModels #Backbone #WorldActionModel Issue Date: 2026-02-05 GPT Summary- 最先端のVLAモデルは新環境での物理的動作の一般化に困難を抱えている。DreamZeroは、動画と行動を共同でモデル化するWorld Action Model（WAM）を導入し、物理的ダイナミクスを学習。これにより、繰り返しデモなしで多様なスキルを学び、タスクや環境への一般化を2倍以上向上。14Bの自己回帰型ビデオ拡散モデルがリアルタイム制御を実現。また、動画デモによって未見タスクの性能が42%以上改善され、少数ショットでの適応も可能に。 Comment

pj page: https://dreamzero0.github.io/

元ポスト:

Loading…

[Paper Note] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space, FSVideo Team+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #DiffusionModel #ImageToVideoGeneration Issue Date: 2026-02-05 GPT Summary- FSVideoは、高速なトランスフォーマーベースの画像から動画（I2V）への拡散フレームワークで、圧縮された潜在空間を持つ動画オートエンコーダー、強化された層間の情報フローを持つ拡散トランスフォーマー、少数ステップのアップサンプラーを利用して多解像度生成を実現。最終モデルは14BのDITベースとアップサンプラーを含み、競争力のある性能と優れた速度を誇る。モデル設計とトレーニング戦略も詳述。 Comment

pj page: https://kingofprank.github.io/fsvideo/

元ポスト:

Loading…

[Paper Note] Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning, Moo Jin Kim+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #PostTraining #read-later #Selected Papers/Blogs #Robotics Issue Date: 2026-01-25 GPT Summary- 動画生成モデルを用いてロボットポリシーを単一のポストトレーニング段階で適応させる「Cosmos Policy」を提案。これにより、動画モデルがエンコードしたロボットアクションを直接生成し、複雑な行動を捉える。評価では、LIBEROとRoboCasaで最高のパフォーマンスを記録し、他のモデルを上回る成功率を達成。ポリシーのロールアウトデータを利用して、経験から学び世界モデルを洗練させることが可能。 Comment

元ポスト:

Loading…

[Paper Note] V-DPM: 4D Video Reconstruction with Dynamic Point Maps, Edgar Sucar+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Transformer #3D Reconstruction #3D (Scene) #4D Reconstruction #SpatialUnderstanding Issue Date: 2026-01-16 GPT Summary- DPMをビデオ入力に適用するV-DPMを提案し、動的な3D再構築を実現。3D形状とカメラパラメータを表現し、VGGTを基にしたアプローチで最新の性能を達成。動的な深さと3D動作を完全に回復可能。 Comment

pj page: https://www.robots.ox.ac.uk/~vgg/research/vdpm/

元ポスト:

Loading…

VGGT:
- [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25

[Paper Note] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning, Chengwen Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #Evaluation #MultiModal #VisionLanguageModel #DeepResearch #One-Line Notes Issue Date: 2026-01-14 GPT Summary- VideoDRは、ビデオを基にしたオープンドメインのビデオ質問応答のための新たな深層研究ベンチマークで、フレーム間の視覚的手がかり抽出やインタラクティブなウェブ検索、マルチホップ推論を要求する。高品質なビデオサンプルを提供し、複数のマルチモーダル大規模言語モデルの評価を行った結果、エージェントの性能はワークフローに依存することが示された。VideoDRは次世代ビデオ深層研究エージェントへの重要な課題を明らかにする。 Comment

元ポスト:

Loading…

初めてのvideo deep researchベンチマークとのこと

[Paper Note] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control, Sixiao Zheng+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Controllable #OpenWeight #WorldModels #Geometric Issue Date: 2026-01-14 GPT Summary- VerseCrafterは、カメラとオブジェクトの動きを一貫して制御する4Dビデオワールドモデルを提案。静的な背景と3Dガウス軌跡を使用して、オブジェクトの確率的な3D占有を表現し、高忠実度なビデオ生成を可能にする。自動データエンジンにより、大規模な4Dアノテーションデータセットを野生のビデオから抽出し、モデルのトレーニングを支援。 Comment

pj page: https://sixiaozheng.github.io/VerseCrafter_page/

元ポスト:

Loading…

[Paper Note] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation, Jing Lin+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #SyntheticData #Evaluation #DiffusionModel #ICLR #Generalization #3D (Scene) #FlowMatching #Robotics #HumanMotionGeneration Issue Date: 2026-01-11 GPT Summary- 3D人間動作生成（MoGen）は一般化能力に課題があるが、動画生成（ViGen）は優れた一般化を示す。これを受けて、ViGenからMoGenへの知識移転のためのフレームワークを提案。228,000の高品質な動作サンプルを含むデータセットViMoGen-228Kを作成し、MoCapデータとViGenモデルからの情報を統合したフローマッチングベースの拡散トランスフォーマーViMoGenを開発。さらに、動作の質や一般化能力を評価するための階層的ベンチマークMBenchを提示。実験結果は、提案手法が既存のアプローチを大幅に上回ることを示した。 Comment

dataset: https://huggingface.co/datasets/wruisi/ViMoGen-228K
leaderboard: https://huggingface.co/spaces/wruisi/MBench_leaderboard

元ポスト:

Loading…

ポイント解説:

Loading…

openreview: https://openreview.net/forum?id=KNke6Pkq4o

[Paper Note] Light-X: Generative 4D Video Rendering with Camera and Illumination Control, Tianqi Liu+, ICLR'26, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Controllable #SyntheticData #DiffusionModel #ICLR #VideoGeneration/Understandings #One-Line Notes #Relighting #Author Thread-Post Issue Date: 2025-12-06 GPT Summary- Light-Xは、単眼動画から視点と照明を制御可能にする動画生成フレームワークで、幾何学と照明信号を分離する設計を採用。これにより高品質な照明を実現し、ペアのマルチビューおよびマルチ照明動画の不足に対処するために逆マッピングを用いた合成手法を導入。実験結果では、Light-Xがカメラと照明の共同制御において従来手法を上回る性能を示した。 Comment

pj page: https://lightx-ai.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=VBew6vESGL

単眼で撮影された動画の視点と照明を同時に制御しながら動画を生成するフレームワークな模様。
背景画像をあたえた

単眼で撮影された動画の視点と照明を同時に制御しながら動画を生成するフレームワークな模様。
背景画像を与えた上での動画のRelighting, Text Promptに基づくRelighting, ユーザがtrajectoryを指定した上でのRelightingなどができるようである。

[Paper Note] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing, Runjia Li+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Editing #EgocentricView #Initial Impression Notes Issue Date: 2026-03-17 GPT Summary- 自己視点動画編集のためのエコシステムを提案。EgoEditDataを構築し、手と物体の相互作用に特化したデータセットを提供。リアルタイム推論を可能にするEgoEditを開発し、指示に従いながら高品質の編集を実現。評価スイートEgoEditBenchを導入し、自己視点編集での進歩を示しつつ、一般編集タスクでも強力な性能を維持。EgoEditDataとEgoEditBenchは研究コミュニティに公開予定。 Comment

pj page: https://snap-research.github.io/EgoEdit/

元ポスト:

Loading…

完全にARの上位互換

[Paper Note] Epona: Autoregressive Diffusion World Model for Autonomous Driving, Kaiwen Zhang+, ICCV'25, 2025.06

Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #DiffusionModel #LongSequence #OpenWeight #ICCV #WorldModels Issue Date: 2026-02-08 GPT Summary- Eponaという自回帰型拡散世界モデルを提案し、長期予測と軌道計画の統合を実現。デカップル型因子分解により局所的な時空間分布をモデリングし、エンドツーエンドで動作計画と視覚モデリングを統合。実験により7.4%のFVD改善を達成し、数分間の長期予測が可能。学習したモデルはリアルタイム動作プランナーとしても優れた性能を示す。 Comment

日本語解説: https://speakerdeck.com/kentosasaki/di-66hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-epona-autoregressive-diffusion-world-model-for-autonomous-driving?slide=3

元ポスト:

Loading…

[Paper Note] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation, Kai Liu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #VideoGeneration/Understandings #Encoder-Decoder #Omni #One-Line Notes #audio #AudioVisualGeneration Issue Date: 2026-01-03 GPT Summary- JavisGPTは、音声と映像の理解・生成のための初の統合型マルチモーダル大規模言語モデルであり、SyncFusionモジュールを用いて音声と映像の融合を実現。三段階のトレーニングパイプラインを設計し、高品質な指示データセットJavisInst-Omniを構築。広範な実験により、JavisGPTは既存のモデルを上回る性能を示し、特に複雑な同期設定で優れた結果を出した。 Comment

pj page: https://javisverse.github.io/JavisGPT-page/

元ポスト:

Loading…

音声と映像を同時に生成可能なadapterタイプのMLLM

[Paper Note] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation, Chiao-An Yang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Distillation #read-later #VideoGeneration/Understandings #VisionLanguageModel #3D (Scene) Issue Date: 2025-12-30 GPT Summary- 4D-RGPTという専門的なMLLMを導入し、動画から4D表現を捉えることで時間的知覚を強化。知覚的4D蒸留（P4D）を用いて4D表現を転送し、包括的な4D知覚を実現。新たに構築したR4D-Benchは、領域レベルのプロンプトを備えた動的シーンのベンチマークで、4D-RGPTは既存の4D VQAベンチマークとR4D-Benchの両方で顕著な改善を達成。 Comment

元ポスト:

Loading…

[Paper Note] MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds, Xiangzuo Wu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Multi #ComputerVision #read-later #3D (Scene) #InverseRendering Issue Date: 2025-12-28 GPT Summary- フィードフォワード型のマルチビュー逆レンダリングフレームワークを提案し、RGB画像のシーケンスから空間的に変化する材料特性を直接予測。視点間の注意を交互に行うことで、一貫したシーンレベルの推論を実現。ラベルのない実世界のビデオを用いたファインチューニング戦略により、実世界の画像への一般化を向上。実験により、マルチビューの一貫性と推定精度で最先端の性能を達成。 Comment

pj page: https://maddog241.github.io/mvinverse-page/

元ポスト:

Loading…

headは以下の研究を踏襲しているとのこと:
- [Paper Note] Vision Transformers for Dense Prediction, René Ranftl+, ICCV'21, 2021.03

[Paper Note] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, Sili Chen+, CVPR'25 Highlight, 2025.01

Paper/Blog Link My Issue
#ComputerVision #DepthEstimation Issue Date: 2025-12-21 GPT Summary- Video Depth Anythingは、超長時間動画における高品質で一貫した深度推定を実現するモデルであり、Depth Anything V2を基にした効率的な空間-時間ヘッドを採用。時間的一貫性損失を設計し、幾何学的事前情報なしで深度推定を行う。新しいキーフレームベースの戦略により、任意の長さの動画に適用可能で、ゼロショット動画深度推定において新たな最先端を達成。最小モデルは30 FPSでリアルタイム性能を発揮。 Comment

pj page: https://videodepthanything.github.io

[Paper Note] LongVie 2: Multimodal Controllable Ultra-Long Video World Model, Jianxiong Gao+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #WorldModels #reading #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment

pj page: https://vchitect.github.io/LongVie2-project/

元ポスト:

Loading…

最大5分間のlong videoの生成が可能で、マルチモーダルな入力（depth map（空間の構造の制御; dense control signal）, point map(キーポイントの時間軸での軌跡; sparse control signal）)に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。

[Paper Note] Simulating the Visual World with Artificial Intelligence: A Roadmap, Jingtong Yue+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Survey #ComputerVision #read-later #VideoGeneration/Understandings #WorldModels #Physics Issue Date: 2025-12-17 GPT Summary- ビデオ生成は、視覚的クリップの生成から物理的妥当性を持つ仮想環境の構築へと進化している。本研究では、現代のビデオ基盤モデルを暗黙の世界モデルとビデオレンダラーの2つのコアコンポーネントとして概念化し、物理法則やエージェントの行動をエンコードする世界モデルが視覚的推論や計画を可能にすることを示す。ビデオレンダラーはシミュレーションを現実的な視覚に変換し、ビデオ生成の進展を4つの世代にわたって追跡する。各世代の特性を定義し、ロボティクスや自律運転などの応用を考察し、次世代の世界モデルに関する課題と設計原則についても議論する。 Comment

元ポスト:

Loading…

[Paper Note] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation, Jianxiong Gao+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#LongSequence #VideoGeneration/Understandings Issue Date: 2025-12-17 GPT Summary- LongVieは、制御可能な超長動画生成のためのエンドツーエンドの自己回帰フレームワークであり、時間的一貫性を保つための統一ノイズ初期化戦略とグローバル制御信号の正規化を導入。視覚的劣化を軽減するために、マルチモーダル制御フレームワークを採用し、劣化認識トレーニング戦略を用いる。LongVGenBenchという100本の高解像度動画からなるベンチマークを提案し、LongVieが長距離の制御可能性、一貫性、品質で最先端の性能を達成したことを示す。 Comment

pj page: https://vchitect.github.io/LongVie-project/

元ポスト:

Loading…

[Paper Note] X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale, Pei Yang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #SyntheticData #DiffusionModel #Robotics #WorldModels #VisionLanguageActionModel #EmbodiedAI #One-Line Notes #Third-Person View Issue Date: 2025-12-12 GPT Summary- X-Humanoidは、動画から動画への生成的な編集アプローチを用いて、人間からヒューマノイドへの翻訳を実現するモデルです。Unreal Engineを活用し、17時間以上のペア合成動画を生成するデータ作成パイプラインを設計し、60時間のEgo-Exo4D動画を用いて360万以上の「ロボティクス化」されたヒューマノイド動画フレームを生成しました。定量的分析とユーザー調査により、69%のユーザーが動きの一貫性で最も優れていると評価し、62.1%が具現化の正確さで最も優れていると評価しました。 Comment

pj page: https://showlab.github.io/X-Humanoid/

元ポスト:

Loading…

既存研究は主観視点の動画における人の腕をロボットアームにルールベースで置き換えるなどの方法で動画をオーバレイすることでdata scarcityの問題に対処してきており、これは有望なアプローチだが、第三者視点の動画はしばしばより複雑（全身が写り、背景が動的に変化し遮蔽に隠れたりもする）で課題がある。このため、第三者視点での動画を人間からヒューマノイドに置換するモデルを学習[^1]し（強力なvideo editingモデルでもこの点はまだ苦戦するタスクとのこと）、私生活における人間の動画をヒューマノイドに置き換えてデータを合成することでロボットのポリシーや世界モデルの学習データ不足を補います、という話に見える。

[^1]: この部分の学習データはUnreal Engineを用いて17+時間に及ぶ人間-ヒューマノイドペアの動画を合成

（以下Chatgptとの問答により得た情報なのでハルシネーションの恐れがあります）

主観視点での人間の腕をロボットアームに置き換えて学習データを合成するというのは気持ちが分かりやすかったのだが（＝人間の腕と実際にロボット自身がカメラを通じて見る自分の腕は形状が違うため学習時と運用時にgapが生じる）、なぜ第三者視点でのこのようなHuman-Humanoid gapを埋めた学習データが必要なのか、という話はざーっと論文を見た限り書いておらず門外漢の私ではわからなかったので、ChatgptやGeminiにきいてみた。LLMの応答によると
- 主観視点での動画には限りがあり、第三者視点での動画の方が単純にデータ量が多い
- 主観視点動画では見える範囲が限定的であり、たとえばロボットに特定の動作を学習させたいときに、全身動作や背景の動き、物体との位置関係などはわからない。
- ロボットが実際に得る視界もロボットから見た時の主観視点であるが、それとは別の話としてこのような第三者視点がロボットが多様なタスクを学ぶときに全身が写っている動画は有用であるか（タスク、意図、行動の選択パターンなどの動作の意味情報を学ぶ）。また、第三者視点動画をロボットの視点に変換するようなモデルを作るためにもこのようなデータは必要で、これによりロボットは第三者視点の人間動画から学び、最終的にそれらを自分の主観視点に対応する表現として学習（retargetと呼ぶらしい）できる。

といった背景があるらしい。

（LLMから得た情報ここまで）

↑のLLMからの情報は妥当なように感じる。
まああとは、そもそも、ロボットが溢れかえる世界になったときに、ロボットが写っている学習データがないとまずいよね、というのも将来的にはあるのかなという感想。

[Paper Note] OneThinker: All-in-one Reasoning Model for Image and Video, Kaituo Feng+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #MultiModal #Reasoning #OpenWeight #VisionLanguageModel #2D (Image) #UMM #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment

pj page: https://github.com/tulerfeng/OneThinker
HF: https://huggingface.co/OneThink

元ポスト:

Loading…

image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM

Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。

[Paper Note] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models, Zhiheng Liu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #MultiModal #VariationalAutoEncoder #read-later #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #FlowMatching #UMM Issue Date: 2025-12-03 GPT Summary- TUNAという統一マルチモーダルモデル（UMM）を提案し、VAEエンコーダと表現エンコーダを連鎖させて統一された視覚表現を構築。これにより、画像と動画の理解・生成タスクをエンドツーエンドで処理可能にし、従来の分離されたUMMsを上回る性能を実現。事前学習された表現エンコーダの重要性も強調され、共同訓練により理解と生成が相互に利益を得ることが示された。広範な実験により、TUNAが最先端の結果を達成したことが確認された。 Comment

pj page: https://tuna-ai.org/

[Paper Note] Paper2Video: Automatic Video Generation from Scientific Papers, Zeyu Zhu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #SpeechProcessing #VideoGeneration/Understandings #VisionLanguageModel #Science #TTS #TextToVideoGeneration Issue Date: 2025-11-29 GPT Summary- Paper2Videoは、研究論文から学術プレゼンテーション動画を自動生成するための新しいベンチマークとフレームワークを提案。101の研究論文に基づくデータセットを用い、動画生成のための評価指標を設計。PaperTalkerは、スライド生成や字幕、音声合成を統合し、効率的な生成を実現。実験により、提案手法が既存の方法よりも情報量が多く、忠実な動画を生成することを示した。データセットやコードは公開されている。 Comment

pj page: https://showlab.github.io/Paper2Video/

元ポスト:

Loading…

[Paper Note] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data, Yunxin Li+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #SpeechProcessing #DiffusionModel #PositionalEncoding #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #DataMixture #2D (Image) #Routing #UMM #Omni #KeyPoint Notes #audio #text Issue Date: 2025-11-18 GPT Summary- Uni-MoE 2.0は、Lycheeファミリーから発表されたオープンソースのオムニモーダル大規模モデルで、言語中心のマルチモーダル理解と生成を大幅に向上させる。動的容量のMixture-of-Experts設計や進行的トレーニング戦略を採用し、画像、テキスト、音声の生成が可能。約75Bトークンのデータでトレーニングされ、85のベンチマークで競争力のある性能を示し、特にビデオ理解やオムニモーダリティ理解で優れた結果を達成。 Comment

pj page: https://idealistxy.github.io/Uni-MoE-v2.github.io/

元ポスト:

Loading…

pj pageをみた感じ、アーキテクチャは下記で、モダリティごとのエンコーダを用意しトークン化し同じ空間上で各モダリティを学習するUnified Multi Modalモデルとなっている。MoEアーキテクチャを採用しモダリティごとのexpertと共有のexpert、null expert(パラメータも必要とせず何も処理しないexpertでアーキテクチャをMoEから変えずに不要な計算を排除して効率を向上可能)を用意しルータで制御する。また、speechやvideoなどの時系列性に対処するためにRoPEを3次元に拡張したPEを用いて、各モダリティがシームレスにalignmentをとれるようにしている。

事前学習ではまずテキストを中心としたクロスモーダルな学習をする。たとえば、image/audio/video-textタスクで学習をする。このフェーズで各モダリティをテキストのsemantic spaceに写像する能力を鍛える(Figure5 left)。

その後SFTで各モダリティに特化したexpertを学習する。ここでは段階的にSFTを実施し、まずまずAudio, Visualのexpertを同時にwarmupし、その後Textのexpertsを追加して次のアニーリングフェーズを学習しているように見える。

続いてアニーリングフェーズとして、様々なモダリティのデータをバランスさせてDataMixtureし、徐々に学習率を下げながら特定のタスクやモダリティに特化せず、全体の性能が向上するように学習する。その後、long sequenceのreasoningの能力を向上させるためにGSPO-DPOをiterativeに適用する。DPOの嗜好データはLLM as a Judgeでロールアウトに基づいて構成する、

という感じらしい。

Table2にDataMixtureの比率がかかれているし、各種データの概要も3.2節にかかれているように見える。素晴らしい。

[Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #Evaluation #FoundationModel #2D (Image) #SpatialUnderstanding Issue Date: 2025-11-17 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

openreview: https://openreview.net/forum?id=yirunib8l8

[Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08

Paper/Blog Link My Issue
#ComputerVision #Transformer #ImageSegmentation #Prompting #FoundationModel #2D (Image) Issue Date: 2025-11-09 GPT Summary- Segment Anything Model 2（SAM 2）は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment

openreview: https://openreview.net/forum?id=Ha6RTeWMd0

SAMはこちら:
- [Paper Note] Segment Anything, Alexander Kirillov+, arXiv'23, 2023.04

[Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #Omni #text Issue Date: 2025-11-05 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #TextToVideoGeneration #SparseAttention #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…

[Paper Note] Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding, Yuanhan Zhang+, ICCV'25, 2025.07

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #MultiModal #Reasoning #VideoGeneration/Understandings #ICCV #Robustness Issue Date: 2025-10-24 GPT Summary- ビデオ理解における正確性と堅牢性のギャップを評価するために、Video Thinking Test（Video-TT）を導入。1,000本のYouTube Shortsビデオを用い、オープンエンドの質問と敵対的質問を通じて、ビデオLLMsと人間のパフォーマンスの違いを示す。 Comment

pj page: https://zhangyuanhan-ai.github.io/video-tt/

[Paper Note] Self-Forcing++: Towards Minute-Scale High-Quality Video Generation, Justin Cui+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #LongSequence #read-later #VideoGeneration/Understandings Issue Date: 2025-10-22 GPT Summary- 本論文では、長い動画生成における品質劣化を軽減する新しいアプローチを提案します。教師モデルの知識を活用し、自己生成した長い動画から抽出したサンプルセグメントを通じて学生モデルにガイダンスを提供することで、長さを最大20倍にスケールアップしつつ時間的一貫性を維持します。これにより、最大4分15秒の動画を生成可能で、従来の手法よりも忠実度と一貫性で大幅に優れた結果を示しました。 Comment

元ポスト:

Loading…

おー、もう++が出てきた。すごいスピード感だ。

Self Forcingと比較して50s以上での生成の性能が向上しているように見える

[Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #Omni #audio #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

image, video, テキスト, 音声を理解しテキストを出力（TTSも可）するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様

[Paper Note] Ctrl-VI: Controllable Video Synthesis via Variational Inference, Haoyi Duan+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Controllable #DiffusionModel #ComputerUse #VideoGeneration/Understandings Issue Date: 2025-10-19 GPT Summary- ビデオ生成モデルの制約を克服するために、Ctrl-VIという新しいビデオ合成手法を提案。指定要素に対して高い制御性を持ち、非指定要素には多様性を維持。変分推論を用いて複数のビデオ生成バックボーンで合成分布を近似し、KLダイバージェンスの最小化を段階的に行う。実験により、制御性、多様性、3Dの一貫性が向上したことを示す。 Comment

元ポスト:

Loading…

[Paper Note] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy, Zhaoxi Chen+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #DiffusionModel #PEFT(Adaptor/LoRA) #Encoder-Decoder Issue Date: 2025-09-16 GPT Summary- 4DNeXは、単一の画像から動的3Dシーンを生成する初のフィードフォワードフレームワークであり、事前学習されたビデオ拡散モデルをファインチューニングすることで効率的な4D生成を実現。大規模データセット4DNeX-10Mを構築し、RGBとXYZシーケンスを統一的にモデル化。実験により、4DNeXは既存手法を上回る効率性と一般化能力を示し、動的シーンの生成的4Dワールドモデルの基盤を提供。 Comment

pj page: https://4dnex.github.io

元ポスト:

Loading…

[Paper Note] 3D and 4D World Modeling: A Survey, Lingdong Kong+, arXiv'25

Paper/Blog Link My Issue
#Survey #ComputerVision #3D (Scene) #WorldModels Issue Date: 2025-09-11 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment

元ポスト:

Loading…

[Paper Note] Sekai: A Video Dataset towards World Exploration, Zhen Li+, NeurIPS'25

Paper/Blog Link My Issue
#ComputerVision #Dataset #NeurIPS #VideoGeneration/Understandings #WorldModels Issue Date: 2025-06-23 GPT Summary- 高品質な一人称視点のビデオデータセット「Sekai」を紹介。750の都市から5,000時間以上のビデオを収集し、位置やシーンなどの豊富な注釈を付与。データセットを用いてインタラクティブなビデオ世界探査モデル「YUME」をトレーニング。Sekaiはビデオ生成と世界探査に貢献することが期待される。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=I3F7w8MvY9&referrer=%5Bthe%20profile%20of%20Kaipeng%20Zhang%5D(%2Fprofile%3Fid%3D~Kaipeng_Zhang1)

pj page: https://lixsp11.github.io/sekai-project/

[Paper Note] Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #OpenWeight #2D (Image) #Omni #One-Line Notes #Reference Collection #audio #text Issue Date: 2025-03-31 GPT Summary- Qwen2.5-Omniは、テキスト、画像、音声、映像を同時に認識し、自然な音声応答をストリーミング生成するエンドツーエンドのマルチモーダルモデルです。音声と映像の同期には新しい位置埋め込み手法TMRoPEを導入し、Thinker-Talkerアーキテクチャにより干渉を避けつつ同時生成を実現。ストリーミング音声トークンのデコードにはスライディングウィンドウDiTを用いて初期遅延を削減。Qwen2.5-Omniは、マルチモーダルベンチマークで最先端の性能を示し、音声生成の自然さにおいて既存手段を上回ります。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

[Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04

Paper/Blog Link My Issue
#ComputerVision #CVPR #2D (Image) #3D (Scene) #DepthEstimation #MotionEstimation Issue Date: 2025-12-21 GPT Summary- 本研究では、動画における密な長距離ピクセル運動の回復の難しさを解決するため、3D空間における点の軌跡を推定する手法SpatialTrackerを提案。単眼深度推定器を用いて2Dピクセルを3Dに変換し、トランスフォーマーで3D軌跡を推定。剛体制約を活用しつつ、ピクセルをクラスタリングする剛性埋め込みを同時に学習。評価の結果、特に平面外回転のシナリオで最先端の追跡性能を達成した。

[Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05

Paper/Blog Link My Issue
#Survey #ComputerVision #DiffusionModel #TMLR #VideoGeneration/Understandings Issue Date: 2025-10-17 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。

[Paper Note] Track Anything: Segment Anything Meets Videos, Jinyu Yang+, arXiv'23, 2023.04

Paper/Blog Link My Issue
#ComputerVision #ImageSegmentation #TechnicalReport #One-Line Notes Issue Date: 2023-04-25 GPT Summary- 動画セグメンテーションにおいて、Track Anything Model (TAM)を提案。少数のクリックで関心の対象を効果的に追跡・セグメント化し、追加訓練なしで高性能を実現。全リソースはオンラインで提供。 Comment

MetaのSAMを、videoに適用し、videow内のsegmentationを追加学習なしでやりました、という話だと思われる。

[Paper Note] Video PreTraining （VPT）: Learning to Act by Watching Unlabeled Online Videos, Bowen Baker+, arXiv'22, 2022.06

Paper/Blog Link My Issue
#ComputerVision #Pretraining #FoundationModel #One-Line Notes #VideoActionModel Issue Date: 2026-02-27 GPT Summary- オンラインのラベルなし動画を用いた半教師付き模倣学習により、逐次決定領域へインターネット規模の事前学習を拡張。逆ダイナミクスモデルを利用して、少量のラベル付きデータから一般的な行動知識を獲得。これにより、模倣学習と強化学習でのファインチューニングが可能となり、困難な探索課題に対するゼロショット能力を示す。初めて、ダイヤモンドの道具を作成できるコンピュータエージェントが報告され、人間レベルの性能を実現。 Comment

Inverse Dynamics Model (IDM)

observationによる状態の変化が、どのアクションによって引き起こされたかを推定するモデル（Inverse Dynamics Model）を学習し（すべてのobservationのtrajectoryから時刻tでのアクションを予測するモデル）アクション-状態遷移のダイナミクスの知識を理解したモデルを学習。その後大量のunlabeled dataに対してIDM Modelによって、アクションをラベル付けし、当該アクションラベルを教師として、Forward Dynamics Model （時刻tまでの状態遷移が与えられた時に次にどのようなアクションが実施されるかを予測するモデル）を学習することで事前学習をする手法な模様。

[Paper Note] Video Diffusion Models, Jonathan Ho+, arXiv'22, 2022.04

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #Selected Papers/Blogs #VideoGeneration/Understandings Issue Date: 2025-10-17 GPT Summary- 高忠実度で一貫した動画生成のための拡散モデルを提案。画像と動画データを共同でトレーニングし、最適化を加速。新しい条件付きサンプリング技術により、長く高解像度の動画生成で優れた性能を発揮。大規模なテキスト条件付き動画生成タスクでの初期結果と、既存ベンチマークでの最先端結果を示す。 Comment

Surveyはこちら:
- [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05

[Paper Note] Generating Racing Game Commentary from Vision, Language, and Structured Data, Tatsuya+, INLG'21

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NaturalLanguageGeneration #NLP #DataToTextGeneration #INLG #Game Issue Date: 2022-09-15 GPT Summary- モーターレーシングゲームにおける自動解説生成タスクを提案し、視覚データ、数値データ、テキストデータを用いて解説を生成する。タスクは発話タイミングの特定と発話生成の2つのサブタスクに分かれ、129,226の発話を含む新しい大規模データセットを紹介。解説の特性は時間や視点によって変化し、最先端の視覚エンコーダでも正確な解説生成が難しいことが示された。データセットとベースライン実装は今後の研究のために公開される。 Comment

データセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary

[Paper Note] Multi-Task Video Captioning with Video and Entailment Generation, Ramakanth Pasunuru+, ACL'17, 2017.04

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NaturalLanguageGeneration #NLP #MultitaskLearning #ACL #Encoder-Decoder #One-Line Notes #VideoCaptioning Issue Date: 2017-12-31 GPT Summary- ビデオキャプショニングの改善のため、教師なしビデオ予測タスクと論理的言語含意生成タスクを共有し、リッチなビデオエンコーダ表現を学習。パラメータを共有するマルチタスク学習モデルを提案し、標準データセットで大幅な改善を達成。 Comment

解説スライド： https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1

multitask learningで動画（かなり短め）のキャプション生成を行なった話

Introducing WildDet3D: Open-world 3D detection from a single image, Ai2, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #ObjectDetection #Initial Impression Notes Issue Date: 2026-04-07 Comment

元ポスト:

Loading…

wildな環境においてzero shot（click, text, bounding boxで対象を指定)で動作する単眼の3D Object Detectionモデルとのこと。データセットもコードも公開

Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI, Qwen Team, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #Proprietary #VisionLanguageModel #2D (Image) #Omni #AudioLanguageModel #audio #text Issue Date: 2026-04-04 Comment

元ポスト:

Loading…

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory, Skywork AI, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #SyntheticData #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #interactive #Game #LongHorizon #Realtime #Initial Impression Notes Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

Unreal Engineで合成されたデータに基づいて学習されたDiTベースのWorld Modelらしい。

Acknowleagementから察するに、Wan2.2がベースモデルで、self-forcingが学習に用いられている。
- Wan2.2, Alibaba Wan, 2025.07
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

また、action control moduleをアーキテクチャに導入することで、汎用的な動画生成モデルにキーボード、マウス等のアクションによるコントロールを実現している模様。
- [Paper Note] GameFactory: Creating New Games with Generative Interactive Videos, Jiwen Yu+, arXiv'25, 2025.01

デコードの高速化には量子化を利用しているとのこと。

HF: https://huggingface.co/Skywork/Matrix-Game-3.0

Gemma 4: Byte for byte, the most capable open models, Google, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #2D (Image) #One-Line Notes #Reference Collection #audio #text #Initial Impression Notes Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

2B, 4B, 26BのMoEモデルと31BのDenseモデルの4種類のモデルファミリーで、マルチモーダル（vision)対応。2B, 4Bはaudioも入力として扱える。

edgeデバイス向けのモデルは128k, 他は256kのコンテキストウィンドウ。140+の多言語サポート。

Apache 2.0ライセンス

arenaで同サイズのモデル群でSoTAといった話がブログ中に記述されている。

モデルカードには一般的なベンチマーク群とのスコアも記載されている。
https://ai.google.dev/gemma/docs/core/model_card_4?hl=ja

（そもそも既存のベンチマークにもコンタミネーションがあると思われるが、）arenaに関しては特定の企業に対してデータを提供し、複数のモデルの亜種をテストできるという慣行があり、リーダーボードにバイアスがあるであろう点には注意:
- [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25

artificial analysisによる評価:

Loading…

Qwenがproprietaryになったことから、ライセンス的に使いやすく、日本語に強そうなモデルとしては筆頭ではなかろうか。日本語性能が気になる。

アーキテクチャ解説:

Loading…

ポイント解説:

Loading…

所見:

Loading…

attentionのscaleをsqrt(d)でスケールさせる代わりに、QK-norm, V normを適用するなど。

NvidiaによるNVFP4へのpost-trainingによる量子化:
https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4

量子化後の性能も比較されており、知識、数学、コーディング、terminac useなど6種類のベンチマークでオリジナルのモデルと遜色ない性能が出ている旨記載されている。

解説:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

xperience-10m, ropedia-ai, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2026-03-17 Comment

元ポスト:

Loading…

Ropediaとは:
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12

アナウンス:

Loading…

5日で1.66M downloadsとのこと:

Loading…

computer-use-large, markov-ai, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #AIAgents #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2026-03-15 Comment

元ポスト:

Loading…

12,300時間程度の、プロフェッショナルなソフトウェア（AutoCAD, Blender, Excel, Photoshop, Salesforce VSCode)利用しているスクリーンのレコーディングデータとのこと。

CC-BY-4.0！？

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis, Black Forest Labs, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #SpeechProcessing #Self-SupervisedLearning #read-later #2D (Image) #FlowMatching #Omni #RectifiedFlow #audio Issue Date: 2026-03-10 Comment

backbone modelは下記のFLUX.2と呼ばれるモデル:
FLUX Commercial Licensing: https://bfl.ai/licensing

先行研究:
- The Simulation Company, Simile, 2026.02

先行研究から読みたい

元ポスト:

Loading…

The First Fully General Computer Action Model, Standard Intelligence Team, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #FoundationModel #DiffusionModel #ComputerUse #One-Line Notes #VideoActionModel Issue Date: 2026-02-27 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

関連:
- [Paper Note] Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos, Bowen Baker+, arXiv'22, 2022.06

Training Recipeの部分を読むと、上記研究で提案されているVideo PreTrainingと同じ手法を用いているように見える。
つまり、Inverse Dynamics Modelを学習し、大量のvideoデータに対してアクションラベルを付与し、付与されたアクションラベルを用いて半教師あり学習によるnext action predictionを実施することによって基盤モデルを学習する、というアプローチ。

この基盤モデルによってたとえば1時間のサンフランシスコをdrivingしている動画によってfinetuningすることで、自動運転をするようなモデルが学習できる、といったことが実現可能な模様。

Accelerating Diffusion Models with an Open, Plug-and-Play Offering, Nvidia, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Tools #NLP #Library #DiffusionModel #TextToImageGeneration #Distillation #PostTraining #2D (Image) #Editing #TextToVideoGeneration #ImageToTextGeneration Issue Date: 2026-01-29 Comment

元ポスト:

Loading…

self forcingも実装されている
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #OpenWeight #WorldModels #interactive #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment

blog: https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page: https://over.world/

元ポスト:

Loading…

リアルタイムにzero latencyでマウス（カメラも自由に動かせる）、キーボード、テキストでinteraction可能なworld model

action100m-preview, Meta, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #Robotics #VisionLanguageActionModel Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

LightX2V: Light Video Generation Inference Framework, ModelTC, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #Library #LLMServing #VideoGeneration/Understandings Issue Date: 2025-12-24 Comment

元ポスト:

Loading…

[Paper Note] NitroGen: An Open Foundation Model for Generalist Gaming Agents, Loïc Magne, Nvidia, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #Game #UMM #VisionActionModel Issue Date: 2025-12-21 Comment

元ポスト:

Loading…

HF: https://huggingface.co/nvidia/NitroGen
pj page: https://nitrogen.minedojo.org/

1000以上のゲームの40000時間を超えるゲームプレイから学習されたVideo to Action Model

[Paper Note] Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning, Meta, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #Library #MultiModal #SpeechProcessing #python #Encoder #2D (Image) #audio Issue Date: 2025-12-19 Comment

元ポスト:

Loading…

様々なモダリティ（画像・動画・音声等）をエンコードできるPerception Encoderに最近リリースされたSAM Audio (Audio-Visual / Audio-frame) も組み込まれた模様
code: https://github.com/facebookresearch/perception_models

Emergence of Human to Robot Transfer in VLAs, Physical Intelligence （π）, 2025.12

Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Selected Papers/Blogs #DataMixture #Robotics #VisionLanguageActionModel #EmbodiedAI #KeyPoint Notes #EmergentAbilities #EgocentricView #DomainGap #Author Thread-Post Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。

人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ（事前学習時点では人間の動画は含まれないことに注意）をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。

これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12

Molmo 2: State-of-the-art video understanding, pointing, and tracking, Ai2, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SmallModel #OpenWeight #OpenSource #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #2D (Image) #KeyPoint Notes Issue Date: 2025-12-17 Comment

テクニカルレポート: https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
HF: https://huggingface.co/collections/allenai/molmo2

Qwen3とOlmoをベースにしたvariantsが存在し、Olmoの方はバックボーンのLLMも含めて全てがオープンになっている。MetaのPerceptionLMと比較して1/8の動画データ量で高い性能を達成できており、データのcurationの品質と、grounding basedな目的関数の工夫によって実現されているとのこと。

proprietaryなモデル群と比較すると、trackingは圧勝、そのほかはGPT5-miniと同様なものが多い。モデルによってタスクの優劣が結構分かれており、Video関連タスクをタスクをまたいで汎化させることにはclosedでも苦戦しているように見える。

オープンモデルとの比較で言うと圧勝で、LongVideoのQAに関してだけは、Eagle2.5-8Bと呼ばれるモデルが勝っている。

あとは全体を通じてLLMのバックボーンがQwen3の場合の性能が良いことが興味深い。バックボーンに採用するLLMに応じて性能が結構変わる。これはアーキテクチャがそもそもConnectorを利用するタイプのもので、Unifiedなアーキテクチャではないことが要因としては考えられる。