WorldModelsに関する論文・技術記事メモの一覧

WorldModels

[Paper Note] Mode Seeking meets Mean Seeking for Fast Long Video Generation, Shengqu Cai+, arXiv'26, 2026.02

Paper/Blog Link My Issue
Issue Date: 2026-03-05 GPT Summary- 短編動画データの豊富さと長編データの希少性という課題に対処するため、Mode SeekingとMean Seekingを融合したトレーニングパラダムを提案。デカップルド拡散トランスフォーマーを用いて、局所的忠実度と長期的一貫性をデカップリング。グローバルなFlow Matchingヘッドと局所的Distribution Matchingヘッドを併用し、限られた長編動画から一貫性を学びつつ短編動画のリアリズムを維持。評価により、局所的なシャープネスや長距離の一貫性が改善されることが確認された。 Comment

元ポスト:

Loading…

[Paper Note] Beyond Language Modeling: An Exploration of Multimodal Pretraining, Shengbang Tong+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #Transformer #MultiModal #Architecture #MoE(Mixture-of-Experts) #Scaling Laws #read-later #Selected Papers/Blogs #UMM Issue Date: 2026-03-05 GPT Summary- 視覚的データは言語を超えるマルチモーダルモデルの進展に重要で、我々は制御された前訓練実験を通じてその要因を明らかにした。Transfusionフレームワークを用い、テキストや視覚データで統一的に訓練し、以下の洞察を得た：(i) RAEが最適な視覚表現を提供；(ii) 視覚とテキストは相補的で相乗効果を生む；(iii) 統一学習が世界モデリングに繋がる；(iv) MoEが効率的なスケーリングを可能にする。視覚データが言語より多く必要であることを示し、MoEが両者の調和を図ることを提案。 Comment

元ポスト:

Loading…

RAE:
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

著者ポスト:

Loading…

[Paper Note] The Trinity of Consistency as a Defining Principle for General World Models, Jingxuan Wei+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #read-later Issue Date: 2026-02-28 GPT Summary- 世界モデルの構築は人工汎用知能の基本課題であり、Soraの動画生成モデルやUnified Multimodal Model (UMM)の進展がデータ駆動型の物理ダイナミクス近似の可能性を示している。しかし、一般的な世界モデルに必要な理論フレームワークは未整備である。本研究では、世界モデルが整合性の三位一体（モーダル・空間的・時間的整合性）に基づくべきと提案し、マルチモーダル学習の進化をレビュー。新たにCoW-Benchを導入し、これを用いて動画生成モデルとUMMを評価する。研究は一般的世界モデルへの道筋を確立し、現行システムの限界と将来のアーキテクチャ要件を明らかにする。 Comment

pj page: https://openraiser.github.io/CoW-Bench/

[Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Embeddings #EfficiencyImprovement #RepresentationLearning #Transformer #Self-SupervisedLearning #OpenWeight #Encoder #KeyPoint Notes Issue Date: 2026-02-16 GPT Summary- C-JEPAは、オブジェクト中心の世界モデルで、画像パッチからの埋め込み予測を通じてオブジェクトの相互作用を捉えることを目的としている。オブジェクトレベルのマスキングを導入し、潜在的介入を誘発することで反事実的推論を強化し、ショートカット解法を防ぐ。実験結果では、視覚質問応答において約20％の性能向上を示し、エージェント制御タスクでは必要な潜在入力のわずか1％で同等の結果を達成した。さらに、因果的帰納的バイアスを誘発することも示している。 Comment

元ポスト:

Loading…

pj page: https://hazel-heejeong-nam.github.io/cjepa/

（JEPAはあまり馴染みがなく、以下の私の解説はどこかに誤りがある可能性が高い）

video basedなシステムを前提、すなわちimageのsequenceが与えられる前提である。このとき、各タイムステップごとに選択されたobjectの状態をマスクし、マスクされたobjectのhistoryを予測し、予測された状態から将来の状態を予測する。objectは状態だけでなく、補足的な観測可能な情報を保持することができ（たとえばアクションと感覚に関するシグナルなど）状態遷移に利用される。また、マスク対象として選択されたオブジェクトの最初のステップの状態だけは、アンカーとして保持する。マスク処理はlatent levelはでのinteiventionとして解釈でき、これにより予測のためにobject間の相互作用を捉えることが誘発され、object centricな潜在表現が学習される。マスクされたオブジェクトの状態は、予測された一つ前のステップでの状態に対してlinearで変換しpositional embeddingを足し合わせることで求められ（式3）、これらの予測されたhistoryの状態がViTの入力となり（bidirectionalなattentionを通じて）将来の状態を予測する。lossは予測されたhistoryの状態と将来の状態が与えられたときに、freezeされたobjectのエンコーダから得られる潜在表現との距離が最小化されるように学習される（エンコーダ側はstop gradientする）。

解説:

Loading…

[Paper Note] Code2World: A GUI World Model via Renderable Code Generation, Yuhao Zheng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Coding #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-02-12 GPT Summary- 自律的なGUIエージェントは、GUI Worldモデルを用いて行動を実行し、人間のような先見性を持つ。既存のアプローチは視覚的忠実性と構造的制御の両立が困難である。そこで、Code2Worldを提案し、レンダリング可能なコード生成を通じて次の視覚状態をシミュレートする。GUIトラジェクトリを高忠実度のHTMLに変換し、合成コードを洗練。Render-Aware Reinforcement Learningを用いて視覚的意味の忠実性と行動の一貫性を強化。広範な実験により、Code2World-8Bは競争力のあるモデルに匹敵するパフォーマンスを達成し、ナビゲーション成功率を大幅に向上させた。 Comment

pj page: https://amap-ml.github.io/Code2World/

元ポスト:

Loading…

現在のスクリーンショットと、アクションのペアから、次のスクリーンショットをレンダリング可能なコードを通じて予測する(Next UI Prediction)

[Paper Note] When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning, Shoubin Yu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Test-Time Scaling #SpatialUnderstanding #Adaptive Issue Date: 2026-02-11 GPT Summary- 視覚的空間推論における想像の役割を分析し、制御可能なリソースとしてのテスト時視覚的想像の効果を評価。静的証拠が十分であるか、想像が改善に寄与するかを探求し、適応型フレームワークAVICを導入。結果は、想像の必要性や有害性の明確なシナリオを示し、制御された想像が固定戦略に匹敵するかそれを超える成果を達成。効率的な空間推論には、想像の分析と制御が不可欠であることを強調。 Comment

元ポスト:

Loading…

[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel #OpenWeight #Robotics #4D (Video) #Realtime #Physics #EgocentricView Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment

pj page: https://dreamdojo-world.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

[Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Zero/Few/ManyShotPrompting #TransferLearning #OpenWeight #read-later #Selected Papers/Blogs #Generalization #Robotics #Backbone #4D (Video) #WorldActionModel Issue Date: 2026-02-05 GPT Summary- 最先端のVLAモデルは新環境での物理的動作の一般化に困難を抱えている。DreamZeroは、動画と行動を共同でモデル化するWorld Action Model（WAM）を導入し、物理的ダイナミクスを学習。これにより、繰り返しデモなしで多様なスキルを学び、タスクや環境への一般化を2倍以上向上。14Bの自己回帰型ビデオ拡散モデルがリアルタイム制御を実現。また、動画デモによって未見タスクの性能が42%以上改善され、少数ショットでの適応も可能に。 Comment

pj page: https://dreamzero0.github.io/

元ポスト:

Loading…

[Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #DiffusionModel #OpenWeight #interactive Issue Date: 2026-01-30 GPT Summary- LingBot-Worldは、リアルで多様な環境を持つオープンソースの世界シミュレーターで、高忠実度と堅牢なダイナミクスを提供。文脈の一貫性を保つ「長期記憶」機能や、1秒未満のレイテンシーでのリアルタイム生成を実現。オープンソースの技術提供により、コンテンツ制作やゲーム、ロボット学習に貢献することを目指す。 Comment

pj page: https://technology.robbyant.com/lingbot-world

元ポスト:

Loading…

[Paper Note] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control, Sixiao Zheng+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Controllable #OpenWeight #4D (Video) #Geometric Issue Date: 2026-01-14 GPT Summary- VerseCrafterは、カメラとオブジェクトの動きを一貫して制御する4Dビデオワールドモデルを提案。静的な背景と3Dガウス軌跡を使用して、オブジェクトの確率的な3D占有を表現し、高忠実度なビデオ生成を可能にする。自動データエンジンにより、大規模な4Dアノテーションデータセットを野生のビデオから抽出し、モデルのトレーニングを支援。 Comment

pj page: https://sixiaozheng.github.io/VerseCrafter_page/

元ポスト:

Loading…

[Paper Note] Epona: Autoregressive Diffusion World Model for Autonomous Driving, Kaiwen Zhang+, ICCV'25, 2025.06

Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #DiffusionModel #LongSequence #OpenWeight #ICCV #4D (Video) Issue Date: 2026-02-08 GPT Summary- Eponaという自回帰型拡散世界モデルを提案し、長期予測と軌道計画の統合を実現。デカップル型因子分解により局所的な時空間分布をモデリングし、エンドツーエンドで動作計画と視覚モデリングを統合。実験により7.4%のFVD改善を達成し、数分間の長期予測が可能。学習したモデルはリアルタイム動作プランナーとしても優れた性能を示す。 Comment

日本語解説: https://speakerdeck.com/kentosasaki/di-66hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-epona-autoregressive-diffusion-world-model-for-autonomous-driving?slide=3

元ポスト:

Loading…

[Paper Note] NeuralOS: Towards Simulating Operating Systems via Neural Generative Models, Luke Rivard+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #interactive #RecurrentModels #GUI Issue Date: 2026-01-17 GPT Summary- NeuralOSは、ユーザーの入力に基づいてGUIをシミュレーションするニューラルフレームワークであり、RNNと拡散ベースのレンダラーを組み合わせています。Ubuntu XFCEの録画データを用いた訓練により、リアルなGUIシーケンスをレンダリングし、状態遷移を信頼性高く予測可能であることが実証されました。キーボードインタラクションのモデル化は依然として難しいものの、NeuralOSは将来のヒューマンコンピュータインタラクションのための適応的なインターフェイスの一歩を示します。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=TE2Vu7WJki

[Paper Note] Web World Models, Jichen Feng+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #text Issue Date: 2025-12-30 GPT Summary- 本研究では、言語エージェントのための中間的なアプローチとしてWeb World Model（WWM）を提案。WWMは、ウェブコードで実装された世界の状態と物理法則を基に、大規模言語モデルが高レベルの意思決定を生成する仕組み。実際の地理に基づく旅行地図や架空の探検など、様々な環境を構築し、実用的な設計原則を特定。これにより、制御可能でありながら無限の探索が可能な環境を実現することを示した。 Comment

pj page: https://github.com/Princeton-AI2-Lab/Web-World-Models

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] LongVie 2: Multimodal Controllable Ultra-Long Video World Model, Jianxiong Gao+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #4D (Video) #reading #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment

pj page: https://vchitect.github.io/LongVie2-project/

元ポスト:

Loading…

最大5分間のlong videoの生成が可能で、マルチモーダルな入力（depth map（空間の構造の制御; dense control signal）, point map(キーポイントの時間軸での軌跡; sparse control signal）)に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #FoundationModel #TextToImageGeneration #2D (Image) #3D (Scene) #KeyPoint Notes #TextToVideoGeneration Issue Date: 2025-12-19 GPT Summary- MMGR（Multi-Modal Generative Reasoning Evaluation and Benchmark）を導入し、物理的、論理的、空間的、時間的な推論能力に基づくビデオ基盤モデルの評価フレームワークを提案。既存の指標では見落とされる因果関係や物理法則の違反を考慮し、主要なビデオおよび画像モデルをベンチマークした結果、抽象的推論でのパフォーマンスが低いことが明らかに。MMGRは、生成的世界モデルの推論能力向上に向けた統一診断ベンチマークを提供。 Comment

pj page: https://zefan-cai.github.io/MMGR.github.io/

元ポスト:

Loading…

video/image 生成モデルを（単なる動画生成という枠ではなく世界モデルという観点で評価するために）
- physical reasoning: ロボットのシミュレーションやinteractionに必要な物理世界の理解力
- logical (abstract) reasoning: System2 Thinkingい必要な抽象的なコンテプトやルールに従う能力（Aが起きたらBが続く）
- 3D spatial reasoning: 世界の認知mapを内包するために必要な3D空間における関係性や、環境の案内、物事の構造や全体像を把握する能力
- 2D spatial reasoning: 複雑なpromptをgroundingするために必要な2D空間に写像されたレイアウト、形状、相対位置を理解する能力
- Temporal Reasoning: coherenceを保つために必要な、因果関係、イベントの順序、長期的な依存関係を捉える能力
の5つの軸で評価するフレームワーク。

[Paper Note] Simulating the Visual World with Artificial Intelligence: A Roadmap, Jingtong Yue+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Survey #ComputerVision #read-later #VideoGeneration/Understandings #4D (Video) #Physics Issue Date: 2025-12-17 GPT Summary- ビデオ生成は、視覚的クリップの生成から物理的妥当性を持つ仮想環境の構築へと進化している。本研究では、現代のビデオ基盤モデルを暗黙の世界モデルとビデオレンダラーの2つのコアコンポーネントとして概念化し、物理法則やエージェントの行動をエンコードする世界モデルが視覚的推論や計画を可能にすることを示す。ビデオレンダラーはシミュレーションを現実的な視覚に変換し、ビデオ生成の進展を4つの世代にわたって追跡する。各世代の特性を定義し、ロボティクスや自律運転などの応用を考察し、次世代の世界モデルに関する課題と設計原則についても議論する。 Comment

元ポスト:

Loading…

[Paper Note] Closing the Train-Test Gap in World Models for Gradient-Based Planning, Arjun Parthasarathy+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #train-inference-gap Issue Date: 2025-12-13 GPT Summary- 世界モデルとMPCを組み合わせ、勾配ベースの計画を改善する手法を提案。トレーニング時のデータ合成技術により、テスト時に物体操作やナビゲーションタスクで従来のCEMを上回る性能を実現。 Comment

元ポスト:

Loading…

[Paper Note] X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale, Pei Yang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #SyntheticData #DiffusionModel #Robotics #VisionLanguageActionModel #4D (Video) #EmbodiedAI #One-Line Notes #Third-Person View Issue Date: 2025-12-12 GPT Summary- X-Humanoidは、動画から動画への生成的な編集アプローチを用いて、人間からヒューマノイドへの翻訳を実現するモデルです。Unreal Engineを活用し、17時間以上のペア合成動画を生成するデータ作成パイプラインを設計し、60時間のEgo-Exo4D動画を用いて360万以上の「ロボティクス化」されたヒューマノイド動画フレームを生成しました。定量的分析とユーザー調査により、69%のユーザーが動きの一貫性で最も優れていると評価し、62.1%が具現化の正確さで最も優れていると評価しました。 Comment

pj page: https://showlab.github.io/X-Humanoid/

元ポスト:

Loading…

既存研究は主観視点の動画における人の腕をロボットアームにルールベースで置き換えるなどの方法で動画をオーバレイすることでdata scarcityの問題に対処してきており、これは有望なアプローチだが、第三者視点の動画はしばしばより複雑（全身が写り、背景が動的に変化し遮蔽に隠れたりもする）で課題がある。このため、第三者視点での動画を人間からヒューマノイドに置換するモデルを学習[^1]し（強力なvideo editingモデルでもこの点はまだ苦戦するタスクとのこと）、私生活における人間の動画をヒューマノイドに置き換えてデータを合成することでロボットのポリシーや世界モデルの学習データ不足を補います、という話に見える。

[^1]: この部分の学習データはUnreal Engineを用いて17+時間に及ぶ人間-ヒューマノイドペアの動画を合成

（以下Chatgptとの問答により得た情報なのでハルシネーションの恐れがあります）

主観視点での人間の腕をロボットアームに置き換えて学習データを合成するというのは気持ちが分かりやすかったのだが（＝人間の腕と実際にロボット自身がカメラを通じて見る自分の腕は形状が違うため学習時と運用時にgapが生じる）、なぜ第三者視点でのこのようなHuman-Humanoid gapを埋めた学習データが必要なのか、という話はざーっと論文を見た限り書いておらず門外漢の私ではわからなかったので、ChatgptやGeminiにきいてみた。LLMの応答によると
- 主観視点での動画には限りがあり、第三者視点での動画の方が単純にデータ量が多い
- 主観視点動画では見える範囲が限定的であり、たとえばロボットに特定の動作を学習させたいときに、全身動作や背景の動き、物体との位置関係などはわからない。
- ロボットが実際に得る視界もロボットから見た時の主観視点であるが、それとは別の話としてこのような第三者視点がロボットが多様なタスクを学ぶときに全身が写っている動画は有用であるか（タスク、意図、行動の選択パターンなどの動作の意味情報を学ぶ）。また、第三者視点動画をロボットの視点に変換するようなモデルを作るためにもこのようなデータは必要で、これによりロボットは第三者視点の人間動画から学び、最終的にそれらを自分の主観視点に対応する表現として学習（retargetと呼ぶらしい）できる。

といった背景があるらしい。

（LLMから得た情報ここまで）

↑のLLMからの情報は妥当なように感じる。
まああとは、そもそも、ロボットが溢れかえる世界になったときに、ロボットが写っている学習データがないとまずいよね、というのも将来的にはあるのかなという感想。

[Paper Note] Agentic Large Language Models, a survey, Aske Plaat+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #LanguageModel #AIAgents #VisionLanguageModel #Robotics Issue Date: 2025-12-08 GPT Summary- エージェント的LLMに関する研究をレビューし、推論、行動、相互作用の三つのカテゴリーに整理。各カテゴリーは相互に利益をもたらし、医療診断や物流などの応用が期待される。エージェント的LLMは新たなトレーニング状態を生成し、データセットの必要性を軽減する可能性があるが、安全性や責任といったリスクも存在する。 Comment

元ポスト:

Loading…

pj page: https://askeplaat.github.io/agentic-llm-survey-site/

Robotics, World Modelなどの話も含まれているように見える。

[Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #NLP #VisionLanguageActionModel #UMM #One-Line Notes Issue Date: 2025-11-25 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション（VLA）モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002

元ポスト:

Loading…

VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。

[Paper Note] Robot Learning from a Physical World Model, Jiageng Mao+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Zero/Few/ManyShotPrompting #VideoGeneration/Understandings #Robotics #EmbodiedAI #One-Line Notes Issue Date: 2025-11-12 GPT Summary- PhysWorldは、物理世界のモデル化を通じてビデオ生成とロボット学習を結びつけるフレームワークです。従来のビデオ生成モデルは物理を無視しがちで、ロボットの操作に不正確さをもたらしますが、PhysWorldはタスク条件付きのビデオを生成し、物理世界を再構築します。これにより、生成されたビデオの動きを物理的に正確なアクションに変換し、実際のロボットデータ収集なしでゼロショットのロボット操作を実現します。実験により、PhysWorldは操作精度を大幅に向上させることが示されました。 Comment

pj page: https://pointscoder.github.io/PhysWorld_Web/

画像とタスクプロンプトを与えて動画を生成し、生成された動画に対してworld modelを用いて物理世界の情報を再構築し、そこからロボットのアクションとして何が必要かを推定することでRLをする、結果的にzeroshotでのロボット操作が実現できる、みたいな話に見える(Figure2)

元ポスト:

Loading…

[Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-11 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment

HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers

LoRAによるUpscaler: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora

元ポスト:

Loading…

スケッチ+promptでの編集
HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora

元ポスト:

Loading…

[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #4D (Video) #TextToVideoGeneration #SparseAttention #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…

VAGEN Reinforcing World Model Reasoning for Multi-Turn VLM Agents, Wang+, NeurIPS'25

Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel Issue Date: 2025-10-19 Comment

元ポスト:

Loading…

[Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Self-SupervisedLearning #SelfCorrection #mid-training #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-14 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment

元ポスト:

Loading…

LLM AgentのためのWarmup手法を提案している。具体的にはRLVRやImitation LearningによってRewardが定義できるデータに基づいてこれまではRLが実現されてきたが、これらはスケールせず、Rewardが定義されない環境のtrajectoryなどは学習されないので汎化性能が低いという課題がある。このため、これらのsupervisionつきの方法で学習をする前のwarmup手法として、reward-freeの学習パラダイム Early Experienceを提案している。

手法としてはシンプルな手法が2種類提案されている。
### Implicit World Modeling (IWM, 式(3)):
ある状態s_i において action a_i^{j}を (1 < j < |K|)をとった時の状態をs_i^{j}としたときに、(s_i, a_i^{j}, s_i^{j}) の3つ組を考える。これらはポリシーからのK回のrolloutによって生成可能。
このときに、状態sを全てテキストで表現するようにし、言語モデルのnext-token-prediction lossを用いて、ある状態s_jにおいてaction a_i^{k} をとったときに、s_j^{k} になることを予測できるように学習する。これにより例えばブックフライトのサイトで誤った日時を入れてしまった場合や、どこかをクリックしたときにどこに遷移するかなどの学習する環境の世界知識をimplicitにモデルに組み込むことができる。

### Self-Reflection（式4）
もう一つのパラダイムとして、専門家によるアクション a_i によって得られた状態 s_i と、それら以外のアクション a_i^{j} によって得られた状態 s_i^{j}が与えられたときに、s_iとs_i^{j}を比較したときに、なぜ a_i の方がa_i^{j} よりも好ましいかを説明するCoT C_i^{j}を生成し、三つ組データ(s_i, a_i^{j}, c_i^{j}) を構築する。このデータを用いて、状態s_iがgivenなときに、a_i に c_i^{j} をconcatしたテキストを予測できるようにnext-token-prediction lossで学習する。また、このデータだけでなく汎化性能をより高めるためにexpertによるimitation learningのためのデータCoTなしのデータもmixして学習をする。これにより、expertによるactionだけで学習するよりも、なぜexpertのアクションが良いかという情報に基づいてより豊富で転移可能な学習シグナルを活用し学習することができる。

この結果、downstreamタスクでのperformanceが単にImitation Learningを実施した場合と比較して提案手法でwarmupした方が一貫して向上する。また、5.4節にpost-trainingとして追加でGRPOを実施した場合も提案手法によるwarmupを実施した場合が最終的な性能が向上することが報告されている。

IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。

著者ポスト:

Loading…

[Paper Note] Training Agents Inside of Scalable World Models, Danijar Hafner+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #read-later #Off-Policy Issue Date: 2025-10-02 GPT Summary- 「Dreamer 4」は、ビデオゲーム「Minecraft」において物体の相互作用を正確に予測し、強化学習を用いて制御タスクを解決するスケーラブルなエージェントです。このワールドモデルは、ショートカット強制目的と効率的なトランスフォーマーアーキテクチャを活用し、リアルタイムのインタラクティブ推論を実現します。さらに、少量のデータから一般的な行動を学習し、オフラインデータのみでダイヤモンドを取得するタスクを成功させました。Dreamer 4は、環境との相互作用なしに学ぶ能力を持つ初のエージェントであり、知能エージェントへの新たな道を示しています。 Comment

解説:

Loading…

[Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Survey #LanguageModel #Robotics #EmbodiedAI Issue Date: 2025-09-25 GPT Summary- 具現化されたAIはAGI達成のための知的システムであり、LLMsとWMsの進展が注目されている。本論文では、具現化されたAIの歴史や技術、コンポーネントを紹介し、LLMsとWMsの役割を詳細に検討。MLLM-WM駆動のアーキテクチャの必要性を論じ、物理世界での複雑なタスクの実現における意義を明らかにする。具現化されたAIのアプリケーションと今後の研究方向についても触れる。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] CWM: An Open-Weights LLM for Research on Code Generation with World Models, FAIR CodeGen team+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #OpenWeight #mid-training #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-25 GPT Summary- 320億パラメータのCode World Model (CWM)をリリースし、コード生成のための世界モデルの研究を進める。静的コードだけでなく、PythonインタプリタやDocker環境から得た観測-行動トレジェクトリで中間トレーニングを実施し、マルチタスク推論RLによる広範な能力を評価。CWMは強力なテストベッドを提供し、世界モデルがエージェンティックコーディングに貢献できることを示す。主要なタスクで高いパフォーマンスを記録し、モデルチェックポイントも提供。 Comment

元ポスト:

Loading…

World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている（大量の実トレースデータが利用されている模様）ので、World Modelと銘打たれている模様？

GRPOに対するモダンなtweakがまとまっている模様:

Loading…

DeepSeek-R1で提案されてから細かな調整が重ねられて来た。

[Paper Note] 3D and 4D World Modeling: A Survey, Lingdong Kong+, arXiv'25

Paper/Blog Link My Issue
#Survey #ComputerVision #3D (Scene) #4D (Video) Issue Date: 2025-09-11 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment

元ポスト:

Loading…

[Paper Note] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model, Xianglong He+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #OpenWeight #VideoGeneration/Understandings #Game Issue Date: 2025-08-28 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment

元ポスト:

Loading…

pj page: https://matrix-game-v2.github.io

公式:

Loading…

[Paper Note] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, Mahmoud Assran+, CVPR'23, 2023.01

Paper/Blog Link My Issue
#ComputerVision #Embeddings #Pretraining #RepresentationLearning #Transformer #Self-SupervisedLearning #CVPR #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-07-24 GPT Summary- 本論文では、手作りのデータ拡張に依存せずに意味的な画像表現を学習するI-JEPAという自己教師あり学習アプローチを提案。I-JEPAは、単一のコンテキストブロックから異なるターゲットブロックの表現を予測する。重要な設計選択として、意味的に大きなターゲットブロックと情報量の多いコンテキストブロックのサンプリングが挙げられる。実験により、I-JEPAはVision Transformersと組み合わせることでスケーラブルであり、ImageNet上で強力な下流性能を達成した。 Comment

Joint-Embedding Predictive Architecture (JEPA)を提案した研究。ピクセルやトークンのreconstruction lossではなく、潜在表現を再構成するようなself-supervised learningによってより意味的な特徴を学習するように誘導するもの（と思われるがこれが本質的な理解として正しいかは自信がない）。

元ポスト:

Loading…

Towards Efficient World Models, Moonlake, 2026.03

Paper/Blog Link My Issue
#Article #Post #read-later Issue Date: 2026-03-07 Comment

Building Multimodal Worlds with Moonlake's World Modeling Agent, Moonlake, 2026.02

Paper/Blog Link My Issue
#Article #Blog #read-later Issue Date: 2026-02-28 Comment

元ポスト:

Loading…

The Simulation Company, Simile, 2026.02

Paper/Blog Link My Issue
#Article #MachineLearning #NLP #FoundationModel #Post #Initial Impression Notes Issue Date: 2026-02-13 Comment

やはり次のFoundation Modelsの軸としてWorld Modelsやシミュレーションが注目されているように感じる。実際、シミュレーションによって様々なデータが合成できれば現在の基盤モデルをさらに引き上げると思われる。

The Second Pre-training Paradigm, Jim Fan, X, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #Post #Robotics #One-Line Notes Issue Date: 2026-02-05 Comment

事前学習がnext word predictionから過去の行動と状態によって条件付けられ次の（ある期間の）世界の状態を予測するワールドモデリング（next physical state prediction）へのパラダイムシフトの予想（というよりこのパラダイムシフトの真っ只中にいる）。人間の脳が処理する情報の多くは視覚であり、言語的な領域は部分的なことであることや、猿は言語的な能力が低くても視覚や運動、触覚などの感覚的情報から世界の物理法則を理解し知的なアクションをとるメンタルモデルを確立していることなどを引き合いに説明している。

Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #GenerativeAI #Proprietary #interactive Issue Date: 2026-01-30 Comment

元ポスト:

Loading…

Googleからのworld model

Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #OpenWeight #interactive #4D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment

blog: https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page: https://over.world/

元ポスト:

Loading…

リアルタイムにzero latencyでマウス（カメラも自由に動かせる）、キーボード、テキストでinteraction可能なworld model

Interactive Intelligence from Human Xperience, Ropedia, 2025.12

Paper/Blog Link My Issue
#Article #Dataset #Blog #Robotics #VisionLanguageActionModel #EmbodiedAI #One-Line Notes #EgocentricView #Real-to-Sim Issue Date: 2025-12-17 Comment

pj page: https://ropedia.com/

元ポスト:

Loading…

頭に装着するデバイスでegocentric viewのデータセットを収集し、実際の人間の様々な状況での経験を収集されたegocentric viewデータに基づいて活用し、より強力なworld model, Real-to-Sim, Vision Action Langauge Modelsを作ることをミッションとする新たなプロジェクト（？）な模様。

Awesome World Models, Siqiao Huang, 2025.10

Paper/Blog Link My Issue
#Article #Survey #ComputerVision Issue Date: 2025-11-01 Comment

元ポスト:

Loading…

HunyuanWorld-Voyager: Technical Report, Tencent, 2025.09

Paper/Blog Link My Issue
#Article #ComputerVision #OpenWeight Issue Date: 2025-09-02 Comment

pj page: https://3d-models.hunyuan.tencent.com/world/

元ポスト:

Loading…

Genie 3: A new frontier for world models, Google DeepMind, 2025.08

Paper/Blog Link My Issue
#Article #ComputerVision #Online/Interactive #Blog #read-later Issue Date: 2025-08-06 Comment

元ポスト:

Loading…

ライブ操作が可能な世界モデル

日本語解説:

Loading…

デモ:

Loading…

すごいなあ

WorldModels

[Paper Note] Mode Seeking meets Mean Seeking for Fast Long Video Generation, Shengqu Cai+, arXiv'26, 2026.02

[Paper Note] Beyond Language Modeling: An Exploration of Multimodal Pretraining, Shengbang Tong+, arXiv'26, 2026.03

[Paper Note] The Trinity of Consistency as a Defining Principle for General World Models, Jingxuan Wei+, arXiv'26, 2026.02

[Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02

[Paper Note] Code2World: A GUI World Model via Renderable Code Generation, Yuhao Zheng+, arXiv'26, 2026.02

[Paper Note] When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning, Shoubin Yu+, arXiv'26, 2026.02

[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02

[Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02

[Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01

[Paper Note] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control, Sixiao Zheng+, arXiv'26, 2026.01

[Paper Note] Epona: Autoregressive Diffusion World Model for Autonomous Driving, Kaiwen Zhang+, ICCV'25, 2025.06

[Paper Note] NeuralOS: Towards Simulating Operating Systems via Neural Generative Models, Luke Rivard+, arXiv'25, 2025.07

[Paper Note] Web World Models, Jichen Feng+, arXiv'25, 2025.12

[Paper Note] LongVie 2: Multimodal Controllable Ultra-Long Video World Model, Jianxiong Gao+, arXiv'25, 2025.12

[Paper Note] MMGR: Multi-Modal Generative Reasoning, Zefan Cai+, arXiv'25, 2025.12

[Paper Note] Simulating the Visual World with Artificial Intelligence: A Roadmap, Jingtong Yue+, arXiv'25, 2025.11

[Paper Note] Closing the Train-Test Gap in World Models for Gradient-Based Planning, Arjun Parthasarathy+, arXiv'25, 2025.12

[Paper Note] X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale, Pei Yang+, arXiv'25, 2025.12

[Paper Note] Agentic Large Language Models, a survey, Aske Plaat+, arXiv'25, 2025.03

[Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11

[Paper Note] Robot Learning from a Physical World Model, Jiageng Mao+, arXiv'25, 2025.11

[Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10

[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10

VAGEN Reinforcing World Model Reasoning for Multi-Turn VLM Agents, Wang+, NeurIPS'25

[Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10

[Paper Note] Training Agents Inside of Scalable World Models, Danijar Hafner+, arXiv'25, 2025.09

[Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09

[Paper Note] CWM: An Open-Weights LLM for Research on Code Generation with World Models, FAIR CodeGen team+, arXiv'25, 2025.09

[Paper Note] 3D and 4D World Modeling: A Survey, Lingdong Kong+, arXiv'25

[Paper Note] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model, Xianglong He+, arXiv'25

[Paper Note] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, Mahmoud Assran+, CVPR'23, 2023.01

Awesome World Models, knightnemo,

Awesome World Models for Robotics, leofan90,

Awesome From Video Generation to World Model, ziqihuangg, 2026.03

Towards Efficient World Models, Moonlake, 2026.03

Building Multimodal Worlds with Moonlake's World Modeling Agent, Moonlake, 2026.02

The Simulation Company, Simile, 2026.02

The Second Pre-training Paradigm, Jim Fan, X, 2026.02

Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01

Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01

Interactive Intelligence from Human Xperience, Ropedia, 2025.12

Awesome World Models, Siqiao Huang, 2025.10

HunyuanWorld-Voyager: Technical Report, Tencent, 2025.09

Genie 3: A new frontier for world models, Google DeepMind, 2025.08