TextToVideoGenerationに関する論文・技術記事メモの一覧

TextToVideoGeneration

[Paper Note] Video Generation Models are General-Purpose Vision Learners, Letian Wang+, ECCV'26, 2026.07

Paper/Blog Link My Issue
#ComputerVision #Pretraining #FoundationModel #DiffusionModel #ECCV #PostTraining #UMM #3D (Video) #Author Thread-Post Issue Date: 2026-07-19 GPT Summary- 大規模テキストからの動画生成がコンピュータビジョンにおける強力な事前学習パラダイムとして機能し、一般的な視覚知性を支えることを提案。GenCeptionという前方伝播型の知覚モデルは、テキスト指示で多様な視覚タスクを実行し、専門モデルと同等またはそれを上回る性能を示す。また、動画生成の事前学習バックボーンは他のパラダイムより優れており、少ないデータで同等の性能を達成。さらに、合成ビデオで訓練されたモデルが現実世界に一般化することを示唆している。 Comment

元ポスト:

Loading…

似たようなタイトルを見たことあるなと思ったら以下だった:
- [Paper Note] Image Generators are Generalist Vision Learners, Valentin Gabeur+, arXiv'26, 2026.04

著者ポスト:

Loading…

[Paper Note] minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models, Min Zhao+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #VideoGeneration/Understandings #WorldModels #3D (Video) #Realtime #Initial Impression Notes Issue Date: 2026-05-31 GPT Summary- リアルタイムのインタラクティブなビデオワールドモデル構築のため、フルスタックのオープンソースフレームワークminWMを提案。双方向ビデオディフュージョンモデルをカメラ制御可能な少数ステップ自回帰モデルへ変換し、低遅延のロールアウトを実現。モジュール化されており、異なるアーキテクチャに対応。実用的なアブレーションも提供し、再現性や拡張性を目指す。 Comment

元ポスト:

Loading…

Text-to-Videoの基盤モデルを、actionによって条件付けされて生成をするvideo world modelへ変換する

[Paper Note] Seedance 2.0: Advancing Video Generation for World Complexity, Team Seedance+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Proprietary #VideoGeneration/Understandings #audio #ImageToVideoGeneration Issue Date: 2026-04-16 GPT Summary- Seedance 2.0は新しい多モーダル音声・映像生成モデルで、480pおよび720pの解像度で4〜15秒のコンテンツを生成可能。テキスト、画像、音声、映像を統一的に扱い、先行モデルより多様な機能を提供。専門家評価で最先端な性能を示し、低遅延用に改善されたFast版も提供。ユーザーに強化されたクリエイティブ体験を提供。 Comment

pj page: https://seed.bytedance.com/en/seedance2_0

元ポスト:

Loading…

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #FoundationModel #TextToImageGeneration #2D (Image) #3D (Scene) #WorldModels #KeyPoint Notes Issue Date: 2025-12-19 GPT Summary- MMGR（Multi-Modal Generative Reasoning Evaluation and Benchmark）を導入し、物理的、論理的、空間的、時間的な推論能力に基づくビデオ基盤モデルの評価フレームワークを提案。既存の指標では見落とされる因果関係や物理法則の違反を考慮し、主要なビデオおよび画像モデルをベンチマークした結果、抽象的推論でのパフォーマンスが低いことが明らかに。MMGRは、生成的世界モデルの推論能力向上に向けた統一診断ベンチマークを提供。 Comment

pj page: https://zefan-cai.github.io/MMGR.github.io/

元ポスト:

Loading…

video/image 生成モデルを（単なる動画生成という枠ではなく世界モデルという観点で評価するために）
- physical reasoning: ロボットのシミュレーションやinteractionに必要な物理世界の理解力
- logical (abstract) reasoning: System2 Thinkingい必要な抽象的なコンテプトやルールに従う能力（Aが起きたらBが続く）
- 3D spatial reasoning: 世界の認知mapを内包するために必要な3D空間における関係性や、環境の案内、物事の構造や全体像を把握する能力
- 2D spatial reasoning: 複雑なpromptをgroundingするために必要な2D空間に写像されたレイアウト、形状、相対位置を理解する能力
- Temporal Reasoning: coherenceを保つために必要な、因果関係、イベントの順序、長期的な依存関係を捉える能力
の5つの軸で評価するフレームワーク。

[Paper Note] Paper2Video: Automatic Video Generation from Scientific Papers, Zeyu Zhu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #SpeechProcessing #VideoGeneration/Understandings #VisionLanguageModel #Science #TTS #3D (Video) Issue Date: 2025-11-29 GPT Summary- Paper2Videoは、研究論文から学術プレゼンテーション動画を自動生成するための新しいベンチマークとフレームワークを提案。101の研究論文に基づくデータセットを用い、動画生成のための評価指標を設計。PaperTalkerは、スライド生成や字幕、音声合成を統合し、効率的な生成を実現。実験により、提案手法が既存の方法よりも情報量が多く、忠実な動画を生成することを示した。データセットやコードは公開されている。 Comment

pj page: https://showlab.github.io/Paper2Video/

元ポスト:

Loading…

[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #3D (Video) #SparseAttention #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…

[Paper Note] Sketching the Future （STF）: Applying Conditional Control Techniques to Text-to-Video Models, Rohan Dhesikan+, arXiv'23, 2023.05

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Controllable #NLP #VideoGeneration/Understandings Issue Date: 2023-05-12 GPT Summary- ゼロショットのテキストからビデオ生成にControlNetを組み合わせた新しいアプローチを提案。複数のスケッチ風フレームを入力とし、それに一致するビデオを生成。フレーム補間とControlNetによる制御で高品質で一貫性のあるビデオを実現。デモ動画やリソースも提供し、さらなる研究を促進。

FLUX 3 - Real World Models: Towards Multimodal Flow Models as the Backbone of Visual Intelligence, Black Forest Labs, 2026.07

Paper/Blog Link My Issue
#Article #ComputerVision #TextToAudio #MultiModal #TextToImageGeneration #Blog #Proprietary #VideoGeneration/Understandings #Editing #UMM #One-Line Notes #ImageSynthesis #WorldActionModel #Author Thread-Post Issue Date: 2026-07-24 Comment

元ポスト:

Loading…

モデルは将来的にオープンになるようである

A Functional Taxonomy of World Models, Fei-Fei Li, 2026.06

Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #NLP #Post #Selected Papers/Blogs #VideoGeneration/Understandings #Robotics #WorldModels #VisionLanguageActionModel #KeyPoint Notes #Reading Reflections #WorldActionModel #Author Thread-Post Issue Date: 2026-06-04 Comment

元ポスト:

Loading…

以下ポストの内容の要約（と意訳、間違ってたらごめんなさい）

- 世界モデルは現在最も重要だが、最も多義的な概念の一つになっている。
- 様々な分野がWorld Modelを構築していると主張するが、意味するところが実際には大きく異なる
- （実際 [Paper Note] Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond, Meng Chu+, arXiv'26, 2026.04 のような研究も存在し似たような問題意識のもと様々な分野での統一的な分類体系が提案されている）
- 世界モデルという用語のもともとの枠組みは「部分観測マルコフ決定過程 (POMDP)」であり、
- エージェントは行動を実行し、行動は世界の状態に影響を与え、エージェントは観測データを受け取り（≠状態を認識する）、新たな観測データに基づいてアクションが実行される、といったループが繰り返される枠組みである
- ここで、「状態」とは、ある時点における世界で何が起きているかに関する完全なdescriptionであり、エージェントは状態自体を認識することはできず、行動と状態から生じた部分的な観測データのみである。
- 現在様々な世界モデルと呼ばれるものが存在するが、構造としては上記のループを持っており、それらの切り口が異なっているにすぎない。
- 世界モデルのカテゴリ1: Renderer
- Rendererは人間の目に見えるピクセルで「観測」を出力する。
- たとえば、テキストのプロンプトを映像に変換するText-To-Videoモデル、ユーザの入力に応じてリアルタイムにフレームを生成するシステムはレンダラーに相当する。
- これらモデルは観測者にとって「見えるもの」を生成しているにすぎず、実際の3次元構造を明示的に理解しているわけではない（i.e., 見えるもの≠実在するもの）。
- ビジネスとして最も成長（してきており、学習データもインターネット上の動画が活用できるため他の2カテゴリと比べて多い）
- 世界モデルのカテゴリ2: Simulator
- Simulatorは「状態」を出力する。これは実際に人間やコンピュータが相互作用可能な世界の表現である。
- Rendererは単に視覚的なものであるが、Simulatorは実世界の幾何学的・物理的・動的なダイナミクスを理解することが求められる。
- Simulatorは建築家やゲーム開発者などの視覚を超えた（たとえば構造・物理的な）正確性を必要とする職種や、RLの学習の環境として利用できる。
- Simulator は Rendererと次のPlannerの土台となる技術（Simulatorは RendererとPlannnerの双方をバイパスできる）であるが、学習データが最も不足
- 世界モデルのカテゴリ3: Planner
- Plannerは「行動」を出力する。観測と目標が与えられた時に「次に何をすべきか」を出力する。
- Vision Language Action Model / World Action Model は Planner に該当し、これらはロボットが次に何をすべきかを決定できる。
- 現在研究初期段階で、研究所内での閉じられた環境でのデモ中心で、実世界で活用するためにはまだまだ多くの課題が残る。
- これら3つのカテゴリは現在世に出ているWorld Modelの多くを説明しており、区別をする際に役に立つ。
- が、これらカテゴリは独立したものではなく、これらは世界の機能に関する基本的な知識（幾何学、物理学、ダイナミクス）の上に成り立つ。
- これら3つのカテゴリは最近は互いが融合してくる流れにあり、たとえば事前学習された Renderer は、次に何が起こるか・何をすべきか（=Planner）を予測するためのバックボーンとして利用できることが示されてきており、これは Renderer と Plannerが融合した例と言える。
- （この辺の話はBackboneとしてVision Encoderを持つVLA系全般の研究と、事前学習済みのVision Encoderを用いずに事前学習の方法をそもそも改善するような方向などだろうか）

上記の話に基づくと、たとえばターミナルでのWorld Modelに相当すると考えられる
- [Paper Note] ECHO: Terminal Agents Learn World Models for Free, Vaishnavi Shrivastava+, arXiv'26, 2026.05

は3つのカテゴリのうちにどれに該当するだろうか。

次のアクションを予測できるので、まずPlannerには該当すると思われる。また、ある時点においてターミナル上で何が起きているかの記述（ターミナルの出力）を予測しているので、Simulatorの役割を果たしていると思われる（ただ、ターミナルの出力だけがターミナルの状態を完全に記述した情報なの？定義としてそれでいいの？という疑問はあるのが）。このため、Planner と Simulator が融合した研究と言えるのではなかろうか。

Build with Veo 3.1 Lite, our most cost-effective video generation model, Google, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #NLP #Proprietary #VideoGeneration/Understandings #ImageToVideoGeneration Issue Date: 2026-04-04 Comment

元ポスト:

Loading…

Accelerating Diffusion Models with an Open, Plug-and-Play Offering, Nvidia, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Tools #NLP #Library #DiffusionModel #TextToImageGeneration #Distillation #PostTraining #2D (Image) #Editing #3D (Video) #ImageToTextGeneration Issue Date: 2026-01-29 Comment

元ポスト:

Loading…

self forcingも実装されている
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25