WorldActionModelに関する論文・技術記事メモの一覧

WorldActionModel

[Paper Note] World Action Models: A Survey, Qiuhong Shen+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #Robotics Issue Date: 2026-07-03 GPT Summary- World Action Models（WAMs）は、未来予測と行動実行を統合した身体化されたモデルであり、最近では大規模な動画生成モデルを再利用する研究が進展している。現在のWAMsは、通常の動画生成モデルやVision-Languageのバックボーンに依存し、これにより関連領域の境界が曖昧になっている。本調査では、これらの境界を明確化し、手法を生成物の観点と予測基盤、バックボーン、アクション結合の観点から整理。WAMsは単なる動画生成モデルとは異なり、表現力とリソース間のトレードオフを重視した予測-行動手法として進化している。この分野は未来生成を抑えつつ、制御要件を満たす方法を模索している。

[Paper Note] Echo-Memory: A Controlled Study of Memory in Action World Models, Wayne King+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#ComputerVision #Evaluation #read-later #memory Issue Date: 2026-06-11 GPT Summary- Echo-Memoryを提案し、アクション条件付きの世界モデルにおける記憶メカニズムを探究。モデルは初期フレームやカメラアクションから動画を生成し、記憶の効果を考察。共通のビデオバックボーンの下で、異なるメモリ設計を比較し、容量や圧縮、再帰の4つの軸を分離。メモリ評価のプロトコルを用いて、再生忠実度と実際の記憶の関係性を明らかにし、生のコンテキストが記憶容量の基準であり、コンパクト性は容量の代替にならないことを示した。特に、状態空間再帰はオープンドメインでのリターン機構において重要な役割を果たす。 Comment

元ポスト:

Loading…

[Paper Note] OSCAR: Omni-Embodiment Action-Conditioned World Model for Robotics, Zhuoyuan Wu+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#Author Thread-Post Issue Date: 2026-06-11 GPT Summary- OSCARは、正確なアクション条件付き動画世界モデルを通じてロボットポリシー評価を可能にする。従来の動画モデルが直面していたデータの多様性不足、アクション追従の不正確さ、一般化の不足の問題に対処。大規模なデータパイプラインを用いて、クリーンな訓練データセットを生成し、2D運動学スケルトンを条件付け表現として採用。Cosmos-Predict2.5-2Bモデルは、少ないリソースで既存のベースラインを上回る性能を達成。OSCARはRoboArenaでロボットポリシー評価に展開され、仮想評価と現実評価の高い相関を示し、未来のポリシー評価の可能性を拓く。 Comment

元ポスト:

Loading…

[Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Zero/Few/ManyShotPrompting #TransferLearning #OpenWeight #read-later #Selected Papers/Blogs #Generalization #Robotics #WorldModels #Backbone #3D (Video) Issue Date: 2026-02-05 GPT Summary- 最先端のVLAモデルは新環境での物理的動作の一般化に困難を抱えている。DreamZeroは、動画と行動を共同でモデル化するWorld Action Model（WAM）を導入し、物理的ダイナミクスを学習。これにより、繰り返しデモなしで多様なスキルを学び、タスクや環境への一般化を2倍以上向上。14Bの自己回帰型ビデオ拡散モデルがリアルタイム制御を実現。また、動画デモによって未見タスクの性能が42%以上改善され、少数ショットでの適応も可能に。 Comment

pj page: https://dreamzero0.github.io/

元ポスト:

Loading…

FLUX 3 - Real World Models: Towards Multimodal Flow Models as the Backbone of Visual Intelligence, Black Forest Labs, 2026.07

Paper/Blog Link My Issue
#Article #ComputerVision #TextToAudio #MultiModal #TextToImageGeneration #Blog #Proprietary #VideoGeneration/Understandings #Editing #UMM #One-Line Notes #ImageSynthesis #TextToVideoGeneration #Author Thread-Post Issue Date: 2026-07-24 Comment

元ポスト:

Loading…

モデルは将来的にオープンになるようである

A Functional Taxonomy of World Models, Fei-Fei Li, 2026.06

Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #NLP #Post #Selected Papers/Blogs #VideoGeneration/Understandings #Robotics #WorldModels #VisionLanguageActionModel #KeyPoint Notes #TextToVideoGeneration #Reading Reflections #Author Thread-Post Issue Date: 2026-06-04 Comment

元ポスト:

Loading…

以下ポストの内容の要約（と意訳、間違ってたらごめんなさい）

- 世界モデルは現在最も重要だが、最も多義的な概念の一つになっている。
- 様々な分野がWorld Modelを構築していると主張するが、意味するところが実際には大きく異なる
- （実際 [Paper Note] Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond, Meng Chu+, arXiv'26, 2026.04 のような研究も存在し似たような問題意識のもと様々な分野での統一的な分類体系が提案されている）
- 世界モデルという用語のもともとの枠組みは「部分観測マルコフ決定過程 (POMDP)」であり、
- エージェントは行動を実行し、行動は世界の状態に影響を与え、エージェントは観測データを受け取り（≠状態を認識する）、新たな観測データに基づいてアクションが実行される、といったループが繰り返される枠組みである
- ここで、「状態」とは、ある時点における世界で何が起きているかに関する完全なdescriptionであり、エージェントは状態自体を認識することはできず、行動と状態から生じた部分的な観測データのみである。
- 現在様々な世界モデルと呼ばれるものが存在するが、構造としては上記のループを持っており、それらの切り口が異なっているにすぎない。
- 世界モデルのカテゴリ1: Renderer
- Rendererは人間の目に見えるピクセルで「観測」を出力する。
- たとえば、テキストのプロンプトを映像に変換するText-To-Videoモデル、ユーザの入力に応じてリアルタイムにフレームを生成するシステムはレンダラーに相当する。
- これらモデルは観測者にとって「見えるもの」を生成しているにすぎず、実際の3次元構造を明示的に理解しているわけではない（i.e., 見えるもの≠実在するもの）。
- ビジネスとして最も成長（してきており、学習データもインターネット上の動画が活用できるため他の2カテゴリと比べて多い）
- 世界モデルのカテゴリ2: Simulator
- Simulatorは「状態」を出力する。これは実際に人間やコンピュータが相互作用可能な世界の表現である。
- Rendererは単に視覚的なものであるが、Simulatorは実世界の幾何学的・物理的・動的なダイナミクスを理解することが求められる。
- Simulatorは建築家やゲーム開発者などの視覚を超えた（たとえば構造・物理的な）正確性を必要とする職種や、RLの学習の環境として利用できる。
- Simulator は Rendererと次のPlannerの土台となる技術（Simulatorは RendererとPlannnerの双方をバイパスできる）であるが、学習データが最も不足
- 世界モデルのカテゴリ3: Planner
- Plannerは「行動」を出力する。観測と目標が与えられた時に「次に何をすべきか」を出力する。
- Vision Language Action Model / World Action Model は Planner に該当し、これらはロボットが次に何をすべきかを決定できる。
- 現在研究初期段階で、研究所内での閉じられた環境でのデモ中心で、実世界で活用するためにはまだまだ多くの課題が残る。
- これら3つのカテゴリは現在世に出ているWorld Modelの多くを説明しており、区別をする際に役に立つ。
- が、これらカテゴリは独立したものではなく、これらは世界の機能に関する基本的な知識（幾何学、物理学、ダイナミクス）の上に成り立つ。
- これら3つのカテゴリは最近は互いが融合してくる流れにあり、たとえば事前学習された Renderer は、次に何が起こるか・何をすべきか（=Planner）を予測するためのバックボーンとして利用できることが示されてきており、これは Renderer と Plannerが融合した例と言える。
- （この辺の話はBackboneとしてVision Encoderを持つVLA系全般の研究と、事前学習済みのVision Encoderを用いずに事前学習の方法をそもそも改善するような方向などだろうか）

上記の話に基づくと、たとえばターミナルでのWorld Modelに相当すると考えられる
- [Paper Note] ECHO: Terminal Agents Learn World Models for Free, Vaishnavi Shrivastava+, arXiv'26, 2026.05

は3つのカテゴリのうちにどれに該当するだろうか。

次のアクションを予測できるので、まずPlannerには該当すると思われる。また、ある時点においてターミナル上で何が起きているかの記述（ターミナルの出力）を予測しているので、Simulatorの役割を果たしていると思われる（ただ、ターミナルの出力だけがターミナルの状態を完全に記述した情報なの？定義としてそれでいいの？という疑問はあるのが）。このため、Planner と Simulator が融合した研究と言えるのではなかろうか。

Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3, nvidia, 2026.05

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #Selected Papers/Blogs #VideoGeneration/Understandings #Robotics #WorldModels #UMM #reading #Omni #One-Line Notes #Author Thread-Post Issue Date: 2026-06-02 Comment

元ポスト:

Loading…

公式:

Loading…

encoder-freeなOmniモダリティモデルで、かつ将来の世界の状態、およびactionを予測可能なWorldActionModel