WorldModels
[Paper Note] minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models, Min Zhao+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #VideoGeneration/Understandings #4D (Video) #TextToVideoGeneration #Realtime #Initial Impression Notes Issue Date: 2026-05-31 GPT Summary- リアルタイムのインタラクティブなビデオワールドモデル構築のため、フルスタックのオープンソースフレームワークminWMを提案。双方向ビデオディフュージョンモデルをカメラ制御可能な少数ステップ自回帰モデルへ変換し、低遅延のロールアウトを実現。モジュール化されており、異なるアーキテクチャに対応。実用的なアブレーションも提供し、再現性や拡張性を目指す。 Comment
元ポスト:
Text-to-Videoの基盤モデルを、actionによって条件付けされて生成をするvideo world modelへ変換する
[Paper Note] Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players, Fangfu Liu+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Multi #ComputerVision #Transformer #DiffusionModel #VideoGeneration/Understandings #interactive #Initial Impression Notes Issue Date: 2026-05-31 GPT Summary- マルチエージェント環境におけるインタラクティブなビデオ生成のために、私たちの生成的マルチエージェントワールドモデルを提案。エージェント間の順列対称性を保ちながら、異なる位相で独立に制御可能であるSimplex Rotaryエージェントエンコーディングを用い、Sparse Hub Attentionでアテンション計算を効率化。トレーニングなしで2人から4人への一般化が可能で、映像の忠実度やアクション制御、一貫性を向上。 Comment
元ポスト:
pj page: https://research.nvidia.com/labs/sil/projects/gamma-world/
複数のエージェント環境における(エージェントのaction, 前回アクションからのobservationが与えられた上で、次の世界の状態を予測し画像で出力するという文脈での)World Model
[Paper Note] ECHO: Terminal Agents Learn World Models for Free, Vaishnavi Shrivastava+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SelfImprovement #PostTraining #Selected Papers/Blogs #Non-VerifiableRewards #reading #One-Line Notes #ContinualLearning #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- ECHOは、CLIエージェントのトレーニングにおいて環境のフィードバックを活用するハイブリッド目的関数を提案。標準的な政策勾配損失と、自己行動による環境観測トークン予測を組み合わせ、ロールアウトに既存の信号を密接な監督として利用する。これにより、TerminalBench-2.0でGRPOのpass@1を倍増させ、環境ダイナミクスの予測精度も向上させる。ECHOは専門家デモなしで、未知のOODタスクのポリシー改善を可能にすることを示している。 Comment
反響がすごそうに見える
- 通常のAgentのRLは環境からの応答に対してマスクをかけてしまい、エージェントが環境(本研究ではターミナル)にどう影響したかを示すground-truthのsignalであるにもかかわらず応答を切り捨ててしまう。
- 提案手法であるECHOはアクションと環境からの応答の双方で学習を行う。通常のaction tokenに対する損失はそのままに、ターミナル出力に対するシンプルなcross-entropy lossを追加する(環境からの応答はcontextに含まれ、モデル内を通過しているため追加のコストはかからない。)。
- このシンプルな修正によって、ベンチマークのスコアが改善し、特にTerminalBench-2.0のスコアはほぼ倍増した。これは言い換えると通常のRLと比較して2.3倍高速になっている。
- また、ターミナルの応答を学習したことでターミナルのダイナミクスをポリシーが学習し、held-out trajectoriesにおいて環境からの応答トークンのクロスエントロピーはECHOでは急激に低下するが、通常のGRPOではほとんどい変化しない。これは、ECHOがモデルに対してターミナルがどう応答するかを学習させていることを示唆する。
- エキスパートによる教師モデルを持たない場合でも、ECHOによってエキスパートによるdemonstrationでSFTを行った後のGRPOが達成するパフォーマンスにほぼ匹敵可能
- エキスパートのtrajectoryから模倣学習するSFTと比較して、ECHOではモデル自身がターミナルの応答を予測することで、ターミナルの応答のうち何が有用なのかを学習する。模倣からではなく、インタラクションを通じて優れた戦略を創発する。
- ECHOを使うことで、AI AgentはVerifierの報酬なしでも自己改善ができる。Verifierの報酬が一切なくても、ECHOはAI Agentが環境内で行動し、何が起こるかを予測するだけで、(GRPOなしで)さらに性能を向上させることができる。つまり、taskのpromptに対して、モデルに環境がどのような応答を返すか予測をさせ、observationに対するクロスエントロピーlossを計算し更新するだけで性能(in-distribution, OOD共に)が改善する。
環境が多くのシグナルを返してくれる場合はterminal以外の環境でもうまくいきそうな話で、非常にシンプルな変更で実現でき、かなりインパクトが大きく見える。
元ポスト:
[Paper Note] WebWorld: A Large-Scale World Model for Web Agent Training, Zikai Xiao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #LongHorizon #Environment Issue Date: 2026-05-13 GPT Summary- WebWorldシリーズは、膨大な軌跡を必要とするウェブエージェントの訓練において、100万件以上のオープン・ウェブの相互作用を利用した初のオープンウェブ・シミュレーターです。これにより、長期的なシミュレーションと複数フォーマットのデータ処理が可能になります。内部評価では、9つの次元に基づく指標を用いたWebWorld-Benchで、Gemini-3-Proと同等の性能を達成。外部評価では、WebWorldで訓練されたQwen3-14BがWebArenaでの性能を+9.2%向上させ、GPT-4oと同等の結果を示しました。WebWorldは探索を効率的に実行し、世界モデル構築においてGPT-5を上回る能力を持ち、さらにはコード、GUI、ゲーム環境への応用も可能です。 Comment
HF: https://huggingface.co/Qwen/WebWorld-8B
元ポスト:
[Paper Note] Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond, Meng Chu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #LanguageModel #AIAgents #VisionLanguageModel #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-28 GPT Summary- AIシステムの目標達成能力の向上には、環境のダイナミクスをモデル化することが必要不可欠である。この研究では、能力レベル(L1からL3)と支配法則(物理、デジタル、社会、科学)を軸にした「levels x laws」分類法を導入し、400件以上の研究を統合して、AIの世界モデルの制約と失敗モードを示す。提案する評価原則と最小再現可能なパッケージがアーキテクチャの指針を提供し、分断されたコミュニティの統合を目指す。最終的には、より予測可能で再構築可能な環境モデルへと進む道筋を示す。 Comment
pj page: https://agentic-world-modeling.xyz/
元ポスト:
著者ポスト:
分野ごとに意味が異なるWorld Modelsを統合的に分類できる枠組みを提案しているSurveyで、Levels * Laws のtaxonomyで分類する。Levelsとはどのような能力を持つか、
- L1: L1 Predictor, 1ステップの予測
- L2: L2 Simulator, 複数ステップのシミュレーション/反実仮想のロールアウト
- L3: L3 Evolver, 失敗からの進化
LawsはWorld Modelsがどのような制約に従わなければならないかという視点で
- Physical: 物理法則
- Digital: program semantics
- Social: 社会規範
- Scientific: scientific mechanism
によって構成される、といった話が著者ポストに記述されている。論文を見ると、個々のtaxonomyについては、より多様な観点を含むようである。
[Paper Note] WorldMark: A Unified Benchmark Suite for Interactive Video World Models, Xiaojie Xu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #Evaluation #read-later #Selected Papers/Blogs #interactive Issue Date: 2026-04-26 GPT Summary- WorldMarkは、インタラクティブなImage-to-Videoワールドモデルのための初の共通ベンチマークを提供。これにより、6つの主要モデルを同一条件下で比較可能にするためのアクションマッピング、500件の評価ケースを含むテストスイート、およびモジュール式の評価ツールキットを提供。すべてのデータとコードは公開され、オンラインプラットフォームでのリアルタイム対戦も可能。 Comment
pj page: https://alaya-studio.github.io/WorldMark/
元ポスト:
interactiveなWorldModelsを統一的に評価できる評価スイートなようなので、こういった研究はこれまでにないような気がしており、重要研究に感じる。
[Paper Note] Lyra 2.0: Explorable Generative 3D Worlds, Tianchang Shen+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #LongSequence #read-later #VideoGeneration/Understandings #3D Reconstruction #3D (Scene) #SpatialUnderstanding Issue Date: 2026-04-16 GPT Summary- Lyra 2.0は、持続可能で探索可能な大規模3D世界を生成するフレームワークを提案。空間的忘却には3Dジオメトリを保持し、視点に応じた過去フレームを取得することで対応。時系列的ドリフトには自己拡張ヒストリーを活用し、誤差を訂正することで改善。これにより、長く一貫性のある動画軌道を実現し、高品質な3Dシーンの復元に活かす。 Comment
HF: https://huggingface.co/nvidia/Lyra-2.0
pj page: https://research.nvidia.com/labs/sil/projects/lyra2/
元ポスト:
[Paper Note] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens, Tommie Kerssies+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #CVPR #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2026-04-11 GPT Summary- ビデオ世界モデリングにおいて、多様な未来状態を効率的に予測するために、DeltaTokというトークナイザーを導入。これによりVFM特徴の差を連続的な「デルタ」トークンにエンコードし、DeltaWorldという生成的世界モデルを提案。これにより、ビデオを一次元の時系列に圧縮、512×512フレームでトークン数を1,024倍削減。多仮説訓練を通じて多様な未来を平行に生成し、単一のフォワードパスで多様な予測を得られる。実験結果においてDeltaWorldは、従来のモデルよりもパラメータ数が35倍、FLOPsは2000倍少ないにもかかわらず、現実に近い未来を予測することを示した。 Comment
過去と現在のフレームを入力し差分の潜在表現を出力するDeltaEncoderを学習し、潜在表現に基づいてnext token predictionをする(複数の推論結果を出力させ、最も学習データに近いものを用いて学習する。複数の候補を出力するため推論時は多様な候補を得られる)。
これにより、予測に必要なトークン数が大幅に削減され(Dino-basedなモデルと比較して1024--2048倍)、パラメータ数が削減されFLOPSも低下(generative modelsと比較して、35倍パラメータ数が小さく、2000倍計算に要するFLOPSが低下)。
といった話が著者ポストで説明されている。
[Paper Note] Grounding World Simulation Models in a Real-World Metropolis, Junyoung Seo+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #read-later Issue Date: 2026-04-04 GPT Summary- 実際の都市を再現するSeoul World Model (SWM)を提案。SWMはストリートビュー画像を利用して動画を生成するが、時間的ズレやデータの希薄化という課題に直面。これに対処するために、クロス・ペアリングや視点補間パイプラインを導入し、仮想先読みシンクで生成を安定化。ソウルや釜山などで比較評価した結果、SWMは長距離動画の生成において空間的かつ時間的一貫性で既存手法を上回るとともに、多様なシナリオ変化にも対応できることを示した。 Comment
pj page: https://seoul-world-model.github.io/
元ポスト:
[Paper Note] World Reasoning Arena, PAN Team+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #Planning #Evaluation #Reasoning #read-later #Selected Papers/Blogs #LongHorizon #Simulation #Arena Issue Date: 2026-03-30 GPT Summary- WR-Arenaは、ワールドモデル(WMs)の評価を進化させるための包括的なベンチマークであり、次状態予測と視覚的忠実度に限らず、知的行動に必要なシミュレーション能力を検証します。三つの基本次元に焦点を当て、アクションシミュレーション忠実度、長期予測、シミュレーション推論と計画を評価します。多様なデータセットを使用して、既存モデルと人間レベルの推論との間のギャップを明らかにし、次世代WMsの指針を提供します。コードはhttps://github.com/MBZUAI-IFM/WR-Arenaで入手可能です。 Comment
元ポスト:
[Paper Note] LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels, Lucas Maes+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #read-later #Selected Papers/Blogs #Stability #Pixel-based #Author Thread-Post Issue Date: 2026-03-24 GPT Summary- LeWorldModel(LeWM)は、原始ピクセルからエンドツーエンドで訓練できる最初のJoint Embedding Predictive Architecture(JEPA)を提案。従来の手法に比べ、調整可能な損失のハイパーパラメータを6個から1個に減らし、約1500万パラメータを持つLeWMは、ファウンデーションモデルより最大48倍速く学習。2Dおよび3Dの制御タスクで競争力を維持し、潜在空間が物理的構造を符号化していることを示す驚き評価も行われ、物理的に妥当でないイベントを検出する能力を確認。 Comment
元ポスト:
[Paper Note] Solaris: Building a Multiplayer Video World Model in Minecraft, Georgy Savva+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #4D (Video) Issue Date: 2026-03-17 GPT Summary- Solarisは、マルチプレイヤー対応のビデオ生成モデルであり、既存の単一エージェント視点の限界を克服する。Minecraftなどのゲームで協調的なマルチエージェント相互作用を捉えるためのデータシステムを開発し、1264万のマルチプレイヤーフレームを収集。段階的な訓練パイプラインにより、単一プレイヤーからマルチプレイヤーへの移行を実現し、Checkpoined Self Forcingという新しいメモリ効率型アプローチを導入。実験結果は、提案したアーキテクチャが既存の手法を上回ることを示し、オープンソース化によってマルチエージェント・ワールドモデルの基盤を築くことを目指す。
[Paper Note] Mode Seeking meets Mean Seeking for Fast Long Video Generation, Shengqu Cai+, arXiv'26, 2026.02
Paper/Blog Link My Issue
Issue Date: 2026-03-05 GPT Summary- 短編動画データの豊富さと長編データの希少性という課題に対処するため、Mode SeekingとMean Seekingを融合したトレーニングパラダムを提案。デカップルド拡散トランスフォーマーを用いて、局所的忠実度と長期的一貫性をデカップリング。グローバルなFlow Matchingヘッドと局所的Distribution Matchingヘッドを併用し、限られた長編動画から一貫性を学びつつ短編動画のリアリズムを維持。評価により、局所的なシャープネスや長距離の一貫性が改善されることが確認された。 Comment
元ポスト:
[Paper Note] Beyond Language Modeling: An Exploration of Multimodal Pretraining, Shengbang Tong+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #Transformer #MultiModal #Architecture #MoE(Mixture-of-Experts) #Scaling Laws #read-later #Selected Papers/Blogs #UMM #Author Thread-Post Issue Date: 2026-03-05 GPT Summary- 視覚的データは言語を超えるマルチモーダルモデルの進展に重要で、我々は制御された前訓練実験を通じてその要因を明らかにした。Transfusionフレームワークを用い、テキストや視覚データで統一的に訓練し、以下の洞察を得た:(i) RAEが最適な視覚表現を提供;(ii) 視覚とテキストは相補的で相乗効果を生む;(iii) 統一学習が世界モデリングに繋がる;(iv) MoEが効率的なスケーリングを可能にする。視覚データが言語より多く必要であることを示し、MoEが両者の調和を図ることを提案。 Comment
元ポスト:
著者ポスト:
解説:
[Paper Note] The Trinity of Consistency as a Defining Principle for General World Models, Jingxuan Wei+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #read-later Issue Date: 2026-02-28 GPT Summary- 世界モデルの構築は人工汎用知能の基本課題であり、Soraの動画生成モデルやUnified Multimodal Model (UMM)の進展がデータ駆動型の物理ダイナミクス近似の可能性を示している。しかし、一般的な世界モデルに必要な理論フレームワークは未整備である。本研究では、世界モデルが整合性の三位一体(モーダル・空間的・時間的整合性)に基づくべきと提案し、マルチモーダル学習の進化をレビュー。新たにCoW-Benchを導入し、これを用いて動画生成モデルとUMMを評価する。研究は一般的世界モデルへの道筋を確立し、現行システムの限界と将来のアーキテクチャ要件を明らかにする。 Comment
[Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #RepresentationLearning #Transformer #Self-SupervisedLearning #OpenWeight #Encoder #KeyPoint Notes #LatentRepresentation Issue Date: 2026-02-16 GPT Summary- C-JEPAは、オブジェクト中心の世界モデルで、画像パッチからの埋め込み予測を通じてオブジェクトの相互作用を捉えることを目的としている。オブジェクトレベルのマスキングを導入し、潜在的介入を誘発することで反事実的推論を強化し、ショートカット解法を防ぐ。実験結果では、視覚質問応答において約20%の性能向上を示し、エージェント制御タスクでは必要な潜在入力のわずか1%で同等の結果を達成した。さらに、因果的帰納的バイアスを誘発することも示している。 Comment
元ポスト:
pj page: https://hazel-heejeong-nam.github.io/cjepa/
(JEPAはあまり馴染みがなく、以下の私の解説はどこかに誤りがある可能性が高い)
video basedなシステムを前提、すなわちimageのsequenceが与えられる前提である。このとき、各タイムステップごとに選択されたobjectの状態をマスクし、マスクされたobjectのhistoryを予測し、予測された状態から将来の状態を予測する。objectは状態だけでなく、補足的な観測可能な情報を保持することができ(たとえばアクションと感覚に関するシグナルなど)状態遷移に利用される。また、マスク対象として選択されたオブジェクトの最初のステップの状態だけは、アンカーとして保持する。マスク処理はlatent levelはでのinteiventionとして解釈でき、これにより予測のためにobject間の相互作用を捉えることが誘発され、object centricな潜在表現が学習される。マスクされたオブジェクトの状態は、予測された一つ前のステップでの状態に対してlinearで変換しpositional embeddingを足し合わせることで求められ(式3)、これらの予測されたhistoryの状態がViTの入力となり(bidirectionalなattentionを通じて)将来の状態を予測する。lossは予測されたhistoryの状態と将来の状態が与えられたときに、freezeされたobjectのエンコーダから得られる潜在表現との距離が最小化されるように学習される(エンコーダ側はstop gradientする)。
解説:
[Paper Note] Code2World: A GUI World Model via Renderable Code Generation, Yuhao Zheng+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Coding #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-02-12 GPT Summary- 自律的なGUIエージェントは、GUI Worldモデルを用いて行動を実行し、人間のような先見性を持つ。既存のアプローチは視覚的忠実性と構造的制御の両立が困難である。そこで、Code2Worldを提案し、レンダリング可能なコード生成を通じて次の視覚状態をシミュレートする。GUIトラジェクトリを高忠実度のHTMLに変換し、合成コードを洗練。Render-Aware Reinforcement Learningを用いて視覚的意味の忠実性と行動の一貫性を強化。広範な実験により、Code2World-8Bは競争力のあるモデルに匹敵するパフォーマンスを達成し、ナビゲーション成功率を大幅に向上させた。 Comment
pj page: https://amap-ml.github.io/Code2World/
元ポスト:
現在のスクリーンショットと、アクションのペアから、次のスクリーンショットをレンダリング可能なコードを通じて予測する(Next UI Prediction)
[Paper Note] When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning, Shoubin Yu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Test-Time Scaling #SpatialUnderstanding #Adaptive Issue Date: 2026-02-11 GPT Summary- 視覚的空間推論における想像の役割を分析し、制御可能なリソースとしてのテスト時視覚的想像の効果を評価。静的証拠が十分であるか、想像が改善に寄与するかを探求し、適応型フレームワークAVICを導入。結果は、想像の必要性や有害性の明確なシナリオを示し、制御された想像が固定戦略に匹敵するかそれを超える成果を達成。効率的な空間推論には、想像の分析と制御が不可欠であることを強調。 Comment
元ポスト:
[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel #OpenWeight #Robotics #4D (Video) #Realtime #Physics #EgocentricView #Author Thread-Post Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment
pj page: https://dreamdojo-world.github.io/
元ポスト:
著者ポスト:
著者ポスト:
解説:
[Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Zero/Few/ManyShotPrompting #TransferLearning #OpenWeight #read-later #Selected Papers/Blogs #Generalization #Robotics #Backbone #4D (Video) #WorldActionModel Issue Date: 2026-02-05 GPT Summary- 最先端のVLAモデルは新環境での物理的動作の一般化に困難を抱えている。DreamZeroは、動画と行動を共同でモデル化するWorld Action Model(WAM)を導入し、物理的ダイナミクスを学習。これにより、繰り返しデモなしで多様なスキルを学び、タスクや環境への一般化を2倍以上向上。14Bの自己回帰型ビデオ拡散モデルがリアルタイム制御を実現。また、動画デモによって未見タスクの性能が42%以上改善され、少数ショットでの適応も可能に。 Comment
pj page: https://dreamzero0.github.io/
元ポスト:
[Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #DiffusionModel #OpenWeight #interactive Issue Date: 2026-01-30 GPT Summary- LingBot-Worldは、リアルで多様な環境を持つオープンソースの世界シミュレーターで、高忠実度と堅牢なダイナミクスを提供。文脈の一貫性を保つ「長期記憶」機能や、1秒未満のレイテンシーでのリアルタイム生成を実現。オープンソースの技術提供により、コンテンツ制作やゲーム、ロボット学習に貢献することを目指す。 Comment
pj page: https://technology.robbyant.com/lingbot-world
元ポスト:
[Paper Note] WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World, Ao Liang+, CVPR'26, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #CVPR #read-later #Selected Papers/Blogs #4D (Video) #One-Line Notes #Author Thread-Post Issue Date: 2026-01-30 GPT Summary- 生成的世界モデルはリアルな4D環境を合成しますが、物理的または行動的に失敗することが多いです。この課題に対処するため、WorldLensを導入し、生成された世界の評価を行う全範囲ベンチマークを提供します。これには生成、再構成、行動追従など五つの側面が含まれ、視覚的現実性や物理的妥当性を評価します。既存モデルには広範囲に優れたものがなく、WorldLens-26Kという大規模な人間注釈付きデータセットを構築し、評価モデルWorldLens-Agentを開発しました。これにより、世界の忠実性を測定する統一されたエコシステムを形成し、リアルな見た目と行動の両面で評価基準を標準化します。 Comment
pj page: https://worldbench.github.io/worldlens
元ポスト:
github: https://github.com/worldbench/WorldLens
(自動運転に関する)World Model(には限られないかもしれないが)を多角的な軸から評価できるベンチマーク。3D object detection/Tracking, Novel-view Discrepancy/Quality, Occupacy Prediction, Subject Fidelity/Consistency/Coherence, Temporal Concistencyなど、20以上のdimensionから評価可能なようである。
著者ポスト:
[Paper Note] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control, Sixiao Zheng+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Controllable #OpenWeight #4D (Video) #Geometric Issue Date: 2026-01-14 GPT Summary- VerseCrafterは、カメラとオブジェクトの動きを一貫して制御する4Dビデオワールドモデルを提案。静的な背景と3Dガウス軌跡を使用して、オブジェクトの確率的な3D占有を表現し、高忠実度なビデオ生成を可能にする。自動データエンジンにより、大規模な4Dアノテーションデータセットを野生のビデオから抽出し、モデルのトレーニングを支援。 Comment
pj page: https://sixiaozheng.github.io/VerseCrafter_page/
元ポスト:
[Paper Note] Epona: Autoregressive Diffusion World Model for Autonomous Driving, Kaiwen Zhang+, ICCV'25, 2025.06
Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #DiffusionModel #LongSequence #OpenWeight #ICCV #4D (Video) Issue Date: 2026-02-08 GPT Summary- Eponaという自回帰型拡散世界モデルを提案し、長期予測と軌道計画の統合を実現。デカップル型因子分解により局所的な時空間分布をモデリングし、エンドツーエンドで動作計画と視覚モデリングを統合。実験により7.4%のFVD改善を達成し、数分間の長期予測が可能。学習したモデルはリアルタイム動作プランナーとしても優れた性能を示す。 Comment
元ポスト:
[Paper Note] NeuralOS: Towards Simulating Operating Systems via Neural Generative Models, Luke Rivard+, arXiv'25, 2025.07
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #interactive #RecurrentModels #GUI Issue Date: 2026-01-17 GPT Summary- NeuralOSは、ユーザーの入力に基づいてGUIをシミュレーションするニューラルフレームワークであり、RNNと拡散ベースのレンダラーを組み合わせています。Ubuntu XFCEの録画データを用いた訓練により、リアルなGUIシーケンスをレンダリングし、状態遷移を信頼性高く予測可能であることが実証されました。キーボードインタラクションのモデル化は依然として難しいものの、NeuralOSは将来のヒューマンコンピュータインタラクションのための適応的なインターフェイスの一歩を示します。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=TE2Vu7WJki
[Paper Note] Web World Models, Jichen Feng+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #text Issue Date: 2025-12-30 GPT Summary- 本研究では、言語エージェントのための中間的なアプローチとしてWeb World Model(WWM)を提案。WWMは、ウェブコードで実装された世界の状態と物理法則を基に、大規模言語モデルが高レベルの意思決定を生成する仕組み。実際の地理に基づく旅行地図や架空の探検など、様々な環境を構築し、実用的な設計原則を特定。これにより、制御可能でありながら無限の探索が可能な環境を実現することを示した。 Comment
pj page: https://github.com/Princeton-AI2-Lab/Web-World-Models
元ポスト:
ポイント解説:
[Paper Note] LongVie 2: Multimodal Controllable Ultra-Long Video World Model, Jianxiong Gao+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #4D (Video) #reading #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment
pj page: https://vchitect.github.io/LongVie2-project/
元ポスト:
最大5分間のlong videoの生成が可能で、マルチモーダルな入力(depth map(空間の構造の制御; dense control signal), point map(キーポイントの時間軸での軌跡; sparse control signal))に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。
関連:
- [Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04
- [Paper Note] Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control, Zekai Gu+, SIGGRAPH'25, 2025.01
- [Paper Note] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, Sili Chen+, CVPR'25 Highlight, 2025.01
[Paper Note] MMGR: Multi-Modal Generative Reasoning, Zefan Cai+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #FoundationModel #TextToImageGeneration #2D (Image) #3D (Scene) #KeyPoint Notes #TextToVideoGeneration Issue Date: 2025-12-19 GPT Summary- MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)を導入し、物理的、論理的、空間的、時間的な推論能力に基づくビデオ基盤モデルの評価フレームワークを提案。既存の指標では見落とされる因果関係や物理法則の違反を考慮し、主要なビデオおよび画像モデルをベンチマークした結果、抽象的推論でのパフォーマンスが低いことが明らかに。MMGRは、生成的世界モデルの推論能力向上に向けた統一診断ベンチマークを提供。 Comment
pj page: https://zefan-cai.github.io/MMGR.github.io/
元ポスト:
video/image 生成モデルを(単なる動画生成という枠ではなく世界モデルという観点で評価するために)
- physical reasoning: ロボットのシミュレーションやinteractionに必要な物理世界の理解力
- logical (abstract) reasoning: System2 Thinkingい必要な抽象的なコンテプトやルールに従う能力(Aが起きたらBが続く)
- 3D spatial reasoning: 世界の認知mapを内包するために必要な3D空間における関係性や、環境の案内、物事の構造や全体像を把握する能力
- 2D spatial reasoning: 複雑なpromptをgroundingするために必要な2D空間に写像されたレイアウト、形状、相対位置を理解する能力
- Temporal Reasoning: coherenceを保つために必要な、因果関係、イベントの順序、長期的な依存関係を捉える能力
の5つの軸で評価するフレームワーク。
[Paper Note] Simulating the Visual World with Artificial Intelligence: A Roadmap, Jingtong Yue+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Survey #ComputerVision #read-later #VideoGeneration/Understandings #4D (Video) #Physics Issue Date: 2025-12-17 GPT Summary- ビデオ生成は、視覚的クリップの生成から物理的妥当性を持つ仮想環境の構築へと進化している。本研究では、現代のビデオ基盤モデルを暗黙の世界モデルとビデオレンダラーの2つのコアコンポーネントとして概念化し、物理法則やエージェントの行動をエンコードする世界モデルが視覚的推論や計画を可能にすることを示す。ビデオレンダラーはシミュレーションを現実的な視覚に変換し、ビデオ生成の進展を4つの世代にわたって追跡する。各世代の特性を定義し、ロボティクスや自律運転などの応用を考察し、次世代の世界モデルに関する課題と設計原則についても議論する。 Comment
元ポスト:
[Paper Note] Closing the Train-Test Gap in World Models for Gradient-Based Planning, Arjun Parthasarathy+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #train-inference-gap Issue Date: 2025-12-13 GPT Summary- 世界モデルとMPCを組み合わせ、勾配ベースの計画を改善する手法を提案。トレーニング時のデータ合成技術により、テスト時に物体操作やナビゲーションタスクで従来のCEMを上回る性能を実現。 Comment
元ポスト:
[Paper Note] X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale, Pei Yang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #SyntheticData #DiffusionModel #Robotics #VisionLanguageActionModel #4D (Video) #EmbodiedAI #One-Line Notes #Third-Person View Issue Date: 2025-12-12 GPT Summary- X-Humanoidは、動画から動画への生成的な編集アプローチを用いて、人間からヒューマノイドへの翻訳を実現するモデルです。Unreal Engineを活用し、17時間以上のペア合成動画を生成するデータ作成パイプラインを設計し、60時間のEgo-Exo4D動画を用いて360万以上の「ロボティクス化」されたヒューマノイド動画フレームを生成しました。定量的分析とユーザー調査により、69%のユーザーが動きの一貫性で最も優れていると評価し、62.1%が具現化の正確さで最も優れていると評価しました。 Comment
pj page: https://showlab.github.io/X-Humanoid/
元ポスト:
既存研究は主観視点の動画における人の腕をロボットアームにルールベースで置き換えるなどの方法で動画をオーバレイすることでdata scarcityの問題に対処してきており、これは有望なアプローチだが、第三者視点の動画はしばしばより複雑(全身が写り、背景が動的に変化し遮蔽に隠れたりもする)で課題がある。このため、第三者視点での動画を人間からヒューマノイドに置換するモデルを学習[^1]し(強力なvideo editingモデルでもこの点はまだ苦戦するタスクとのこと)、私生活における人間の動画をヒューマノイドに置き換えてデータを合成することでロボットのポリシーや世界モデルの学習データ不足を補います、という話に見える。
[^1]: この部分の学習データはUnreal Engineを用いて17+時間に及ぶ人間-ヒューマノイドペアの動画を合成
(以下Chatgptとの問答により得た情報なのでハルシネーションの恐れがあります)
主観視点での人間の腕をロボットアームに置き換えて学習データを合成するというのは気持ちが分かりやすかったのだが(=人間の腕と実際にロボット自身がカメラを通じて見る自分の腕は形状が違うため学習時と運用時にgapが生じる)、なぜ第三者視点でのこのようなHuman-Humanoid gapを埋めた学習データが必要なのか、という話はざーっと論文を見た限り書いておらず門外漢の私ではわからなかったので、ChatgptやGeminiにきいてみた。LLMの応答によると
- 主観視点での動画には限りがあり、第三者視点での動画の方が単純にデータ量が多い
- 主観視点動画では見える範囲が限定的であり、たとえばロボットに特定の動作を学習させたいときに、全身動作や背景の動き、物体との位置関係などはわからない。
- ロボットが実際に得る視界もロボットから見た時の主観視点であるが、それとは別の話としてこのような第三者視点がロボットが多様なタスクを学ぶときに全身が写っている動画は有用であるか(タスク、意図、行動の選択パターンなどの動作の意味情報を学ぶ)。また、第三者視点動画をロボットの視点に変換するようなモデルを作るためにもこのようなデータは必要で、これによりロボットは第三者視点の人間動画から学び、最終的にそれらを自分の主観視点に対応する表現として学習(retargetと呼ぶらしい)できる。
といった背景があるらしい。
(LLMから得た情報ここまで)
↑のLLMからの情報は妥当なように感じる。
まああとは、そもそも、ロボットが溢れかえる世界になったときに、ロボットが写っている学習データがないとまずいよね、というのも将来的にはあるのかなという感想。
[Paper Note] Agentic Large Language Models, a survey, Aske Plaat+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #LanguageModel #AIAgents #VisionLanguageModel #Robotics Issue Date: 2025-12-08 GPT Summary- エージェント的LLMに関する研究をレビューし、推論、行動、相互作用の三つのカテゴリーに整理。各カテゴリーは相互に利益をもたらし、医療診断や物流などの応用が期待される。エージェント的LLMは新たなトレーニング状態を生成し、データセットの必要性を軽減する可能性があるが、安全性や責任といったリスクも存在する。 Comment
元ポスト:
pj page: https://askeplaat.github.io/agentic-llm-survey-site/
Robotics, World Modelなどの話も含まれているように見える。
[Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #VisionLanguageActionModel #UMM #One-Line Notes Issue Date: 2025-11-25 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション(VLA)モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment
HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002
元ポスト:
関連:
- RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08
VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。
[Paper Note] Robot Learning from a Physical World Model, Jiageng Mao+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Zero/Few/ManyShotPrompting #VideoGeneration/Understandings #Robotics #EmbodiedAI #One-Line Notes Issue Date: 2025-11-12 GPT Summary- PhysWorldは、物理世界のモデル化を通じてビデオ生成とロボット学習を結びつけるフレームワークです。従来のビデオ生成モデルは物理を無視しがちで、ロボットの操作に不正確さをもたらしますが、PhysWorldはタスク条件付きのビデオを生成し、物理世界を再構築します。これにより、生成されたビデオの動きを物理的に正確なアクションに変換し、実際のロボットデータ収集なしでゼロショットのロボット操作を実現します。実験により、PhysWorldは操作精度を大幅に向上させることが示されました。 Comment
pj page: https://pointscoder.github.io/PhysWorld_Web/
画像とタスクプロンプトを与えて動画を生成し、生成された動画に対してworld modelを用いて物理世界の情報を再構築し、そこからロボットのアクションとして何が必要かを推定することでRLをする、結果的にzeroshotでのロボット操作が実現できる、みたいな話に見える(Figure2)
元ポスト:
[Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-11 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment
HF:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers
LoRAによるUpscaler:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora
元ポスト:
スケッチ+promptでの編集
HF:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora
元ポスト:
[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #4D (Video) #TextToVideoGeneration #SparseAttention #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment
pj page: https://github.com/meituan-longcat/LongCat-Video
元ポスト:
VAGEN Reinforcing World Model Reasoning for Multi-Turn VLM Agents, Wang+, NeurIPS'25
Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel Issue Date: 2025-10-19 Comment
元ポスト:
[Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Self-SupervisedLearning #SelfCorrection #mid-training #Selected Papers/Blogs #KeyPoint Notes #Author Thread-Post Issue Date: 2025-10-14 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment
元ポスト:
LLM AgentのためのWarmup手法を提案している。具体的にはRLVRやImitation LearningによってRewardが定義できるデータに基づいてこれまではRLが実現されてきたが、これらはスケールせず、Rewardが定義されない環境のtrajectoryなどは学習されないので汎化性能が低いという課題がある。このため、これらのsupervisionつきの方法で学習をする前のwarmup手法として、reward-freeの学習パラダイム Early Experienceを提案している。
手法としてはシンプルな手法が2種類提案されている。
### Implicit World Modeling (IWM, 式(3)):
ある状態s_i において action a_i^{j}を (1 < j < |K|)をとった時の状態をs_i^{j}としたときに、(s_i, a_i^{j}, s_i^{j}) の3つ組を考える。これらはポリシーからのK回のrolloutによって生成可能。
このときに、状態sを全てテキストで表現するようにし、言語モデルのnext-token-prediction lossを用いて、ある状態s_jにおいてaction a_i^{k} をとったときに、s_j^{k} になることを予測できるように学習する。これにより例えばブックフライトのサイトで誤った日時を入れてしまった場合や、どこかをクリックしたときにどこに遷移するかなどの学習する環境の世界知識をimplicitにモデルに組み込むことができる。
### Self-Reflection(式4)
もう一つのパラダイムとして、専門家によるアクション a_i によって得られた状態 s_i と、それら以外のアクション a_i^{j} によって得られた状態 s_i^{j}が与えられたときに、s_iとs_i^{j}を比較したときに、なぜ a_i の方がa_i^{j} よりも好ましいかを説明するCoT C_i^{j}を生成し、三つ組データ(s_i, a_i^{j}, c_i^{j}) を構築する。このデータを用いて、状態s_iがgivenなときに、a_i に c_i^{j} をconcatしたテキストを予測できるようにnext-token-prediction lossで学習する。また、このデータだけでなく汎化性能をより高めるためにexpertによるimitation learningのためのデータCoTなしのデータもmixして学習をする。これにより、expertによるactionだけで学習するよりも、なぜexpertのアクションが良いかという情報に基づいてより豊富で転移可能な学習シグナルを活用し学習することができる。
この結果、downstreamタスクでのperformanceが単にImitation Learningを実施した場合と比較して提案手法でwarmupした方が一貫して向上する。また、5.4節にpost-trainingとして追加でGRPOを実施した場合も提案手法によるwarmupを実施した場合が最終的な性能が向上することが報告されている。
IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。
著者ポスト:
[Paper Note] Training Agents Inside of Scalable World Models, Danijar Hafner+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #read-later #Off-Policy Issue Date: 2025-10-02 GPT Summary- 「Dreamer 4」は、ビデオゲーム「Minecraft」において物体の相互作用を正確に予測し、強化学習を用いて制御タスクを解決するスケーラブルなエージェントです。このワールドモデルは、ショートカット強制目的と効率的なトランスフォーマーアーキテクチャを活用し、リアルタイムのインタラクティブ推論を実現します。さらに、少量のデータから一般的な行動を学習し、オフラインデータのみでダイヤモンドを取得するタスクを成功させました。Dreamer 4は、環境との相互作用なしに学ぶ能力を持つ初のエージェントであり、知能エージェントへの新たな道を示しています。 Comment
解説:
[Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Survey #LanguageModel #Robotics #EmbodiedAI Issue Date: 2025-09-25 GPT Summary- 具現化されたAIはAGI達成のための知的システムであり、LLMsとWMsの進展が注目されている。本論文では、具現化されたAIの歴史や技術、コンポーネントを紹介し、LLMsとWMsの役割を詳細に検討。MLLM-WM駆動のアーキテクチャの必要性を論じ、物理世界での複雑なタスクの実現における意義を明らかにする。具現化されたAIのアプリケーションと今後の研究方向についても触れる。 Comment
元ポスト:
ポイント解説:
[Paper Note] CWM: An Open-Weights LLM for Research on Code Generation with World Models, FAIR CodeGen team+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #OpenWeight #mid-training #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-25 GPT Summary- 320億パラメータのCode World Model (CWM)をリリースし、コード生成のための世界モデルの研究を進める。静的コードだけでなく、PythonインタプリタやDocker環境から得た観測-行動トレジェクトリで中間トレーニングを実施し、マルチタスク推論RLによる広範な能力を評価。CWMは強力なテストベッドを提供し、世界モデルがエージェンティックコーディングに貢献できることを示す。主要なタスクで高いパフォーマンスを記録し、モデルチェックポイントも提供。 Comment
元ポスト:
World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている(大量の実トレースデータが利用されている模様)ので、World Modelと銘打たれている模様?
GRPOに対するモダンなtweakがまとまっている模様:
DeepSeek-R1で提案されてから細かな調整が重ねられて来た。
[Paper Note] 3D and 4D World Modeling: A Survey, Lingdong Kong+, arXiv'25
Paper/Blog Link My Issue
#Survey #ComputerVision #3D (Scene) #4D (Video) Issue Date: 2025-09-11 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment
元ポスト:
[Paper Note] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model, Xianglong He+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #OpenWeight #VideoGeneration/Understandings #Game Issue Date: 2025-08-28 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment
元ポスト:
pj page: https://matrix-game-v2.github.io
公式:
[Paper Note] Sekai: A Video Dataset towards World Exploration, Zhen Li+, NeurIPS'25
Paper/Blog Link My Issue
#ComputerVision #Dataset #NeurIPS #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-06-23 GPT Summary- 高品質な一人称視点のビデオデータセット「Sekai」を紹介。750の都市から5,000時間以上のビデオを収集し、位置やシーンなどの豊富な注釈を付与。データセットを用いてインタラクティブなビデオ世界探査モデル「YUME」をトレーニング。Sekaiはビデオ生成と世界探査に貢献することが期待される。 Comment
元ポスト:
[Paper Note] Diffusion Models Are Real-Time Game Engines, Dani Valevski+, ICLR'25, 2024.08
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #interactive #Initial Impression Notes Issue Date: 2024-09-01 GPT Summary- GameNGenは、初の完全にニューラルモデルで動作するゲームエンジンであり、DOOMを用いて訓練され、インタラクティブな新しい軌道を生成する能力を持つ。毎秒20フレームで動作し、9.4のPSNRを達成。評価者は自己回帰生成後もゲームクリップをわずかに識別可能である。GameNGenは、強化学習エージェントによるトレーニングと、次フレーム生成のための拡散モデルの2段階で訓練され、安定した生成を実現する。 Comment
Diffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい?
project pageにデモがのっている
https://gamengen.github.io/
openreview: https://openreview.net/forum?id=P8pqeEkn1H
[Paper Note] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, Mahmoud Assran+, CVPR'23, 2023.01
Paper/Blog Link My Issue
#ComputerVision #Pretraining #RepresentationLearning #Transformer #Self-SupervisedLearning #CVPR #read-later #Selected Papers/Blogs #One-Line Notes #LatentRepresentation Issue Date: 2025-07-24 GPT Summary- 本論文では、手作りのデータ拡張に依存せずに意味的な画像表現を学習するI-JEPAという自己教師あり学習アプローチを提案。I-JEPAは、単一のコンテキストブロックから異なるターゲットブロックの表現を予測する。重要な設計選択として、意味的に大きなターゲットブロックと情報量の多いコンテキストブロックのサンプリングが挙げられる。実験により、I-JEPAはVision Transformersと組み合わせることでスケーラブルであり、ImageNet上で強力な下流性能を達成した。 Comment
Joint-Embedding Predictive Architecture (JEPA)を提案した研究。ピクセルやトークンのreconstruction lossではなく、潜在表現を再構成するようなself-supervised learningによってより意味的な特徴を学習するように誘導するもの(と思われるがこれが本質的な理解として正しいかは自信がない)。
A Functional Taxonomy of World Models, Fei-Fei Li, 2026.06
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #NLP #Post #Selected Papers/Blogs #VideoGeneration/Understandings #Robotics #VisionLanguageActionModel #KeyPoint Notes #TextToVideoGeneration #Reading Reflections #WorldActionModel #Author Thread-Post Issue Date: 2026-06-04 Comment
元ポスト:
以下ポストの内容の要約(と意訳、間違ってたらごめんなさい)
- 世界モデルは現在最も重要だが、最も多義的な概念の一つになっている。
- 様々な分野がWorld Modelを構築していると主張するが、意味するところが実際には大きく異なる
- (実際 [Paper Note] Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond, Meng Chu+, arXiv'26, 2026.04
のような研究も存在し似たような問題意識のもと様々な分野での統一的な分類体系が提案されている)
- 世界モデルという用語のもともとの枠組みは「部分観測マルコフ決定過程 (POMDP)」であり、
- エージェントは行動を実行し、行動は世界の状態に影響を与え、エージェントは観測データを受け取り(≠状態を認識する)、新たな観測データに基づいてアクションが実行される、といったループが繰り返される枠組みである
- ここで、「状態」とは、ある時点における世界で何が起きているかに関する完全なdescriptionであり、エージェントは状態自体を認識することはできず、行動と状態から生じた部分的な観測データのみである。
- 現在様々な世界モデルと呼ばれるものが存在するが、構造としては上記のループを持っており、それらの切り口が異なっているにすぎない。
- 世界モデルのカテゴリ1: Renderer
- Rendererは人間の目に見えるピクセルで「観測」を出力する。
- たとえば、テキストのプロンプトを映像に変換するText-To-Videoモデル、ユーザの入力に応じてリアルタイムにフレームを生成するシステムはレンダラーに相当する。
- これらモデルは観測者にとって「見えるもの」を生成しているにすぎず、実際の3次元構造を明示的に理解しているわけではない(i.e., 見えるもの≠実在するもの)。
- ビジネスとして最も成長(してきており、学習データもインターネット上の動画が活用できるため他の2カテゴリと比べて多い)
- 世界モデルのカテゴリ2: Simulator
- Simulatorは「状態」を出力する。これは実際に人間やコンピュータが相互作用可能な世界の表現である。
- Rendererは単に視覚的なものであるが、Simulatorは実世界の幾何学的・物理的・動的なダイナミクスを理解することが求められる。
- Simulatorは建築家やゲーム開発者などの視覚を超えた(たとえば構造・物理的な)正確性を必要とする職種や、RLの学習の環境として利用できる。
- Simulator は Rendererと次のPlannerの土台となる技術(Simulatorは RendererとPlannnerの双方をバイパスできる)であるが、学習データが最も不足
- 世界モデルのカテゴリ3: Planner
- Plannerは「行動」を出力する。観測と目標が与えられた時に「次に何をすべきか」を出力する。
- Vision Language Action Model / World Action Model は Planner に該当し、これらはロボットが次に何をすべきかを決定できる。
- 現在研究初期段階で、研究所内での閉じられた環境でのデモ中心で、実世界で活用するためにはまだまだ多くの課題が残る。
- これら3つのカテゴリは現在世に出ているWorld Modelの多くを説明しており、区別をする際に役に立つ。
- が、これらカテゴリは独立したものではなく、これらは世界の機能に関する基本的な知識(幾何学、物理学、ダイナミクス)の上に成り立つ。
- これら3つのカテゴリは最近は互いが融合してくる流れにあり、たとえば事前学習された Renderer は、次に何が起こるか・何をすべきか(=Planner)を予測するためのバックボーンとして利用できることが示されてきており、これは Renderer と Plannerが 融合した例と言える。
- (この辺の話はBackboneとしてVision Encoderを持つVLA系全般の研究と、事前学習済みのVision Encoderを用いずに事前学習の方法をそもそも改善するような方向などだろうか)
上記の話に基づくと、たとえばターミナルでのWorld Modelに相当すると考えられる
- [Paper Note] ECHO: Terminal Agents Learn World Models for Free, Vaishnavi Shrivastava+, arXiv'26, 2026.05
は3つのカテゴリのうちにどれに該当するだろうか。
次のアクションを予測できるので、まずPlannerには該当すると思われる。また、ある時点においてターミナル上で何が起きているかの記述(ターミナルの出力)を予測しているので、Simulatorの役割を果たしていると思われる(ただ、ターミナルの出力だけがターミナルの状態を完全に記述した情報なの?定義としてそれでいいの?という疑問はあるのが)。このため、Planner と Simulator が融合した研究と言えるのではなかろうか。
Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3, nvidia, 2026.05
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #Selected Papers/Blogs #VideoGeneration/Understandings #Robotics #UMM #reading #Omni #One-Line Notes #WorldActionModel #Author Thread-Post Issue Date: 2026-06-02 Comment
元ポスト:
公式:
encoder-freeなOmniモダリティモデルで、かつ将来の世界の状態、およびactionを予測可能なWorldActionModel
HY-World-2.0, Tencent, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #OpenWeight #Author Thread-Post Issue Date: 2026-04-16 Comment
元ポスト:
テクニカルレポート: https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf
Moonlake: Causal World Models should be Multimodal, Interactive, and Efficient — with Chris Manning and Fan-yun Sun, LatentSpace, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #read-later Issue Date: 2026-04-05 Comment
元ポスト:
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory, Skywork AI, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #SyntheticData #DiffusionModel #OpenWeight #VideoGeneration/Understandings #interactive #Game #4D (Video) #LongHorizon #Realtime #Initial Impression Notes Issue Date: 2026-04-02 Comment
元ポスト:
Unreal Engineで合成されたデータに基づいて学習されたDiTベースのWorld Modelらしい。
Acknowleagementから察するに、Wan2.2がベースモデルで、self-forcingが学習に用いられている。
- Wan2.2, Alibaba Wan, 2025.07
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
また、action control moduleをアーキテクチャに導入することで、汎用的な動画生成モデルにキーボード、マウス等のアクションによるコントロールを実現している模様。
- [Paper Note] GameFactory: Creating New Games with Generative Interactive Videos, Jiwen Yu+, arXiv'25, 2025.01
デコードの高速化には量子化を利用しているとのこと。
Awesome World Models, knightnemo,
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #Robotics Issue Date: 2026-03-08
Awesome World Models for Robotics, leofan90,
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #Robotics Issue Date: 2026-03-08
Awesome From Video Generation to World Model, ziqihuangg, 2026.03
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #Robotics Issue Date: 2026-03-08 Comment
元ポスト:
Towards Efficient World Models, Moonlake, 2026.03
Paper/Blog Link My Issue
#Article #Post #read-later Issue Date: 2026-03-07 Comment
関連:
- Building Multimodal Worlds with Moonlake's World Modeling Agent, Moonlake, 2026.02
Building Multimodal Worlds with Moonlake's World Modeling Agent, Moonlake, 2026.02
Paper/Blog Link My Issue
#Article #Blog #read-later Issue Date: 2026-02-28 Comment
元ポスト:
The Simulation Company, Simile, 2026.02
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #FoundationModel #Post #Initial Impression Notes Issue Date: 2026-02-13 Comment
やはり次のFoundation Modelsの軸としてWorld Modelsやシミュレーションが注目されているように感じる。実際、シミュレーションによって様々なデータが合成できれば現在の基盤モデルをさらに引き上げると思われる。
関連:
Karpathy氏のポスト:
続報:
The Second Pre-training Paradigm, Jim Fan, X, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #Post #Robotics #One-Line Notes Issue Date: 2026-02-05 Comment
事前学習がnext word predictionから過去の行動と状態によって条件付けられ次の(ある期間の)世界の状態を予測するワールドモデリング(next physical state prediction)へのパラダイムシフトの予想(というよりこのパラダイムシフトの真っ只中にいる)。人間の脳が処理する情報の多くは視覚であり、言語的な領域は部分的なことであることや、猿は言語的な能力が低くても視覚や運動、触覚などの感覚的情報から世界の物理法則を理解し知的なアクションをとるメンタルモデルを確立していることなどを引き合いに説明している。
Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #GenerativeAI #Proprietary #interactive Issue Date: 2026-01-30 Comment
元ポスト:
Googleからのworld model
Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #OpenWeight #interactive #4D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment
blog:
https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page:
https://over.world/
元ポスト:
リアルタイムにzero latencyでマウス(カメラも自由に動かせる)、キーボード、テキストでinteraction可能なworld model
Interactive Intelligence from Human Xperience, Ropedia, 2025.12
Paper/Blog Link My Issue
#Article #Dataset #Blog #Robotics #VisionLanguageActionModel #EmbodiedAI #One-Line Notes #EgocentricView #Real-to-Sim Issue Date: 2025-12-17 Comment
pj page: https://ropedia.com/
元ポスト:
頭に装着するデバイスでegocentric viewのデータセットを収集し、実際の人間の様々な状況での経験を収集されたegocentric viewデータに基づいて活用し、より強力なworld model, Real-to-Sim, Vision Action Langauge Modelsを作ることをミッションとする新たなプロジェクト(?)な模様。
Awesome World Models, Siqiao Huang, 2025.10
Paper/Blog Link My Issue
#Article #Survey #ComputerVision Issue Date: 2025-11-01 Comment
元ポスト:
HunyuanWorld-Voyager: Technical Report, Tencent, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #OpenWeight Issue Date: 2025-09-02 Comment
pj page: https://3d-models.hunyuan.tencent.com/world/
元ポスト:
Genie 3: A new frontier for world models, Google DeepMind, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #Online/Interactive #Blog #read-later Issue Date: 2025-08-06 Comment
元ポスト:
ライブ操作が可能な世界モデル
日本語解説:
デモ:
すごいなあ
