Robotics
[Paper Note] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization, Hao Luo+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #Reasoning #OpenWeight #CrossDomain #VisionLanguageActionModel #UMM #Physics Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment
pj page:
https://research.beingbeyond.com/being-h05
HF:
https://huggingface.co/collections/BeingBeyond/being-h05
元ポスト:
[Paper Note] RoboReward: General-Purpose Vision-Language Reward Models for Robotics, Tony Lee+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #Dataset #ReinforcementLearning #Evaluation #read-later #Selected Papers/Blogs #VisionLanguageModel #RewardModel #EmbodiedAI Issue Date: 2026-01-09 GPT Summary- 強化学習における報酬設計の重要性を踏まえ、実ロボティクスでの自動報酬モデルとしてのビジョン・ランゲージモデル(VLM)の効果を探求。新たに「RoboReward」データセットを導入し、成功例の反事実的ラベリングやネガティブ例データ拡張を通じて多様なタスクを網羅した訓練データを構築。評価の結果、既存のVLMには改善の余地があり、4Bおよび8Bパラメータモデルが短期タスクで優れた報酬を提供。最終的に、8Bモデルを実ロボット強化学習に適用し、人間提供の報酬とのギャップを縮小する成果を得た。データセットやモデルは公開されている。 Comment
元ポスト:
[Paper Note] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models, Mingjie Pan+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #PostTraining #VisionLanguageActionModel Issue Date: 2026-01-09 GPT Summary- スケーラブルオンラインポストトレーニング(SOP)システムを導入し、VLAモデルのオンライン、分散型、マルチタスクポストトレーニングを実現。ロボット群が経験を中央のクラウド学習者にストリーミングし、非同期にポリシーを更新。SOPは、さまざまな実世界の操作タスクでVLAモデルの性能を向上させ、タスク間で単一の共有ポリシーを維持。実世界の相互作用から数時間以内に効果的なポストトレーニングが可能で、ロボットの群れの数に対して性能がほぼ線形にスケール。 Comment
pj page: https://agibot.com/research/sop_en
pj pageを見るとロボットが少し不慣れながらも洗濯物をたたんでいる様子がある。
[Paper Note] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation, Jing Lin+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #SyntheticData #Evaluation #DiffusionModel #Generalization #3D (Scene) #FlowMatching #4D (Video) #HumanMotionGeneration Issue Date: 2026-01-11 GPT Summary- 3D人間動作生成(MoGen)は一般化能力に課題があるが、動画生成(ViGen)は優れた一般化を示す。これを受けて、ViGenからMoGenへの知識移転のためのフレームワークを提案。228,000の高品質な動作サンプルを含むデータセットViMoGen-228Kを作成し、MoCapデータとViGenモデルからの情報を統合したフローマッチングベースの拡散トランスフォーマーViMoGenを開発。さらに、動作の質や一般化能力を評価するための階層的ベンチマークMBenchを提示。実験結果は、提案手法が既存のアプローチを大幅に上回ることを示した。 Comment
dataset:
https://huggingface.co/datasets/wruisi/ViMoGen-228K
leaderboard:
https://huggingface.co/spaces/wruisi/MBench_leaderboard
元ポスト:
ポイント解説:
[Paper Note] Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations, Chancharik Mitra+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #VisionLanguageActionModel #EmbodiedAI #One-Line Notes Issue Date: 2025-12-28 GPT Summary- VLAモデルはロボティクスにおける視覚と言語の統合を目指すが、物理的要因へのファインチューニングが必要。既存手法は特異性に欠けるため、タスク特異的な注意ヘッドを選択的にファインチューニングする「Robotic Steering」を提案。Franka Emikaロボットアームでの評価により、Robotic SteeringがLoRAを上回り、堅牢性、計算コスト削減、解釈可能性の向上を実現することを示した。 Comment
pj page: https://chancharikmitra.github.io/robosteering/
元ポスト:
VLAにおいて学習したいタスクと関連する(sparseな) attention headsだけをfinetuningすることで、効率的に、忘却を防ぎつつ、overfitを防ぐような手法を提案。
[Paper Note] MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning, Yuanchen Ju+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #GraphBased #Pocket #Dataset #ReinforcementLearning #Evaluation #SpatialUnderstanding #EmbodiedAI Issue Date: 2025-12-25 GPT Summary- 家庭内のモバイルマニピュレーター向けに、空間的・機能的関係を統合したMomaGraphを提案。これを支えるために、初の大規模データセットMomaGraph-Scenesと評価スイートMomaGraph-Benchを提供。さらに、7Bのビジョン・ランゲージモデルMomaGraph-R1を開発し、タスク指向のシーングラフを予測。実験により、71.6%の精度を達成し、オープンソースモデルの中で最先端の結果を示した。 Comment
pj page: https://hybridrobotics.github.io/MomaGraph/
元ポスト:
[Paper Note] X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale, Pei Yang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Transformer #SyntheticData #DiffusionModel #WorldModels #VisionLanguageActionModel #4D (Video) #EmbodiedAI #One-Line Notes #Third-Person View Issue Date: 2025-12-12 GPT Summary- X-Humanoidは、動画から動画への生成的な編集アプローチを用いて、人間からヒューマノイドへの翻訳を実現するモデルです。Unreal Engineを活用し、17時間以上のペア合成動画を生成するデータ作成パイプラインを設計し、60時間のEgo-Exo4D動画を用いて360万以上の「ロボティクス化」されたヒューマノイド動画フレームを生成しました。定量的分析とユーザー調査により、69%のユーザーが動きの一貫性で最も優れていると評価し、62.1%が具現化の正確さで最も優れていると評価しました。 Comment
pj page: https://showlab.github.io/X-Humanoid/
元ポスト:
既存研究は主観視点の動画における人の腕をロボットアームにルールベースで置き換えるなどの方法で動画をオーバレイすることでdata scarcityの問題に対処してきており、これは有望なアプローチだが、第三者視点の動画はしばしばより複雑(全身が写り、背景が動的に変化し遮蔽に隠れたりもする)で課題がある。このため、第三者視点での動画を人間からヒューマノイドに置換するモデルを学習[^1]し(強力なvideo editingモデルでもこの点はまだ苦戦するタスクとのこと)、私生活における人間の動画をヒューマノイドに置き換えてデータを合成することでロボットのポリシーや世界モデルの学習データ不足を補います、という話に見える。
[^1]: この部分の学習データはUnreal Engineを用いて17+時間に及ぶ人間-ヒューマノイドペアの動画を合成
(以下Chatgptとの問答により得た情報なのでハルシネーションの恐れがあります)
主観視点での人間の腕をロボットアームに置き換えて学習データを合成するというのは気持ちが分かりやすかったのだが(=人間の腕と実際にロボット自身がカメラを通じて見る自分の腕は形状が違うため学習時と運用時にgapが生じる)、なぜ第三者視点でのこのようなHuman-Humanoid gapを埋めた学習データが必要なのか、という話はざーっと論文を見た限り書いておらず門外漢の私ではわからなかったので、ChatgptやGeminiにきいてみた。LLMの応答によると
- 主観視点での動画には限りがあり、第三者視点での動画の方が単純にデータ量が多い
- 主観視点動画では見える範囲が限定的であり、たとえばロボットに特定の動作を学習させたいときに、全身動作や背景の動き、物体との位置関係などはわからない。
- ロボットが実際に得る視界もロボットから見た時の主観視点であるが、それとは別の話としてこのような第三者視点がロボットが多様なタスクを学ぶときに全身が写っている動画は有用であるか(タスク、意図、行動の選択パターンなどの動作の意味情報を学ぶ)。また、第三者視点動画をロボットの視点に変換するようなモデルを作るためにもこのようなデータは必要で、これによりロボットは第三者視点の人間動画から学び、最終的にそれらを自分の主観視点に対応する表現として学習(retargetと呼ぶらしい)できる。
といった背景があるらしい。
(LLMから得た情報ここまで)
↑のLLMからの情報は妥当なように感じる。
まああとは、そもそも、ロボットが溢れかえる世界になったときに、ロボットが写っている学習データがないとまずいよね、というのも将来的にはあるのかなという感想。
[Paper Note] Agentic Large Language Models, a survey, Aske Plaat+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#Survey #ComputerVision #Pocket #NLP #LanguageModel #AIAgents #VisionLanguageModel #WorldModels Issue Date: 2025-12-08 GPT Summary- エージェント的LLMに関する研究をレビューし、推論、行動、相互作用の三つのカテゴリーに整理。各カテゴリーは相互に利益をもたらし、医療診断や物流などの応用が期待される。エージェント的LLMは新たなトレーニング状態を生成し、データセットの必要性を軽減する可能性があるが、安全性や責任といったリスクも存在する。 Comment
元ポスト:
pj page: https://askeplaat.github.io/agentic-llm-survey-site/
Robotics, World Modelなどの話も含まれているように見える。
[Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #ReinforcementLearning #Self-SupervisedLearning #NeurIPS #read-later #Selected Papers/Blogs #Locomotion #ContrastiveReinforcementLearning #Manipulation #EmergentAbilities #Depth Issue Date: 2025-12-01 GPT Summary- 自己教師ありRLのスケーラビリティを改善するため、ネットワークの深さを1024層に増加させることで性能向上を実証。無監督の目標条件設定でエージェントが探索し、目標達成を学ぶ実験を行い、自己教師ありコントラストRLアルゴリズムの性能を向上させた。深さの増加は成功率を高め、行動の質的変化ももたらす。 Comment
元ポスト:
[Paper Note] PHUMA: Physically-Grounded Humanoid Locomotion Dataset, Kyungmin Lee+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #Dataset #PhysicalConstraints #Locomotion Issue Date: 2025-11-30 GPT Summary- PHUMAは、物理的に基づいた人型ロコモーションデータセットであり、大規模な人間の動画を活用しつつ物理的アーティファクトに対処。関節制限や地面接触を確保し、足のスケーティングを排除することで、安定したモーション模倣を実現。自己記録したテスト動画や骨盤ガイダンスによるパスフォローで評価し、Humanoid-XおよびAMASSを上回る性能を示した。 Comment
pj page: https://davian-robotics.github.io/PHUMA/
HF: https://huggingface.co/datasets/DAVIAN-Robotics/PHUMA
元ポスト:
[Paper Note] VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation, Tairan He+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Pocket #Selected Papers/Blogs #Scalability #Sim-to-Real #Loco-Manipulation Issue Date: 2025-11-21 GPT Summary- VIRALというフレームワークを用いて、ヒューマノイドロボットのロコマニピュレーションをシミュレーションから実世界に展開。教師-生徒の強化学習を通じて、視覚ベースのポリシーを訓練し、計算規模が成功に重要であることを示す。シミュレーションと実世界の整合性を確保し、Unitree G1ヒューマノイドでの実験により、専門家レベルの性能に近づくことを確認。 Comment
pj page: https://viral-humanoid.github.io/
元ポスト:
関連:
- ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11
解説:
discussionの部分が興味深い
[Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #SpatialUnderstanding #Omni #Geometric #Robustness Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment
元ポスト:
depth mapやcameraの情報などの様々な幾何学的情報を入力した場合(depth mapがないなど情報が欠落していても良い)にロバストに対応できるような基盤モデルを構築する手法らしい
評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12
[Paper Note] Robot Learning from a Physical World Model, Jiageng Mao+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pocket #Zero/Few/ManyShotPrompting #VideoGeneration/Understandings #WorldModels #EmbodiedAI #One-Line Notes Issue Date: 2025-11-12 GPT Summary- PhysWorldは、物理世界のモデル化を通じてビデオ生成とロボット学習を結びつけるフレームワークです。従来のビデオ生成モデルは物理を無視しがちで、ロボットの操作に不正確さをもたらしますが、PhysWorldはタスク条件付きのビデオを生成し、物理世界を再構築します。これにより、生成されたビデオの動きを物理的に正確なアクションに変換し、実際のロボットデータ収集なしでゼロショットのロボット操作を実現します。実験により、PhysWorldは操作精度を大幅に向上させることが示されました。 Comment
pj page: https://pointscoder.github.io/PhysWorld_Web/
画像とタスクプロンプトを与えて動画を生成し、生成された動画に対してworld modelを用いて物理世界の情報を再構築し、そこからロボットのアクションとして何が必要かを推定することでRLをする、結果的にzeroshotでのロボット操作が実現できる、みたいな話に見える(Figure2)
元ポスト:
[Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #EmbodiedAI Issue Date: 2025-11-10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment
元ポスト:
興味深い
[Paper Note] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors, Zhengshen Zhang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #3D (Scene) #VisionLanguageActionModel #SpatialUnderstanding Issue Date: 2025-11-03 GPT Summary- FALCON(From Spatial to Action)は、視覚-言語-行動(VLA)モデルの空間的推論のギャップを解消する新しいパラダイムで、3D空間トークンを行動ヘッドに注入します。RGBから幾何学的情報を提供し、深度やポーズを融合させることで高い忠実度を実現し、再訓練やアーキテクチャの変更は不要です。FALCONは、空間表現やモダリティの転送可能性を向上させ、11の現実世界のタスクで最先端のパフォーマンスを達成しました。 Comment
pj page: https://falcon-vla.github.io/
元ポスト:
[Paper Note] MemER: Scaling Up Memory for Robot Control via Experience Retrieval, Ajay Sridhar+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #VisionLanguageModel #memory #VisionLanguageActionModel #One-Line Notes #LongHorizon Issue Date: 2025-10-27 GPT Summary- 本研究では、ロボットポリシーに人間のような記憶能力を与えるための階層的ポリシーフレームワークを提案。高レベルポリシーが関連するキーフレームを選択し、低レベルポリシーに指示を生成することで、長期的な依存関係を効率的に推論。実験により、提案手法MemERが従来の方法を上回る性能を示した。 Comment
元ポスト:
pj page: https://jen-pan.github.io/memer/
動画ストリーム全てを常にinputするのではなくキーフレームは限られているので、VLMにキーフレームをメモリ上で管理するような役割を与え、instructionと実現するためのサブタスクに応じて動的に必要な情報のみをVLAに与えることでlong horizonでのスケーラビリティを改善する、みたいな話らしい
[Paper Note] RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning, Kun Lei+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #ReinforcementLearning Issue Date: 2025-10-26 GPT Summary- RL-100は、実世界のロボット操作のための強化学習トレーニングフレームワークで、模倣学習、オフライン強化学習、オンライン強化学習の三段階のパイプラインを採用。多段階サンプリングを単一段階ポリシーに圧縮し、高頻度制御を実現。7つの実ロボットタスクで100%の成功率を達成し、人間の操作に匹敵する効率と堅牢性を示した。 Comment
pj page:
https://lei-kun.github.io/RL-100/
blog:
https://lei-kun.github.io/blogs/RL100.html
元ポスト:
[Paper Note] GigaBrain-0: A World Model-Powered Vision-Language-Action Model, GigaBrain Team+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#VisionLanguageActionModel Issue Date: 2025-10-26 GPT Summary- GigaBrain-0は、実世界のロボットデータの収集コストを削減し、VLAモデルの一般化能力を向上させる新しい基盤モデル。世界モデル生成データを活用し、タスク間の一般化を促進。RGBD入力モデリングとChain-of-Thought監視により、空間幾何学や物体の状態を推論し、実世界のパフォーマンスを向上。GigaBrain-0は外観や配置の変化に対して優れた一般化を示し、軽量バリアントGigaBrain-0-Smallも紹介。 Comment
pj page: https://gigabrain0.github.io
元ポスト:
[Paper Note] Multi-Modal Manipulation via Multi-Modal Policy Consensus, Haonan Chen+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #MultiModal #DiffusionModel #Routing Issue Date: 2025-10-22 GPT Summary- 多様な感覚モダリティを統合することはロボット操作において重要であり、従来の特徴連結アプローチは最適ではない。提案手法では、ポリシーを拡散モデルに因数分解し、各モデルが特定の表現に特化。ルーターネットワークを用いて適応的に重みを学習し、新しい表現の統合を可能にする。シミュレーションや実世界のタスクで、マルチモーダル推論において特徴連結のベースラインを上回る性能を示し、物理的な摂動に対しても堅牢性を持つことが確認された。 Comment
元ポスト:
pj page: https://policyconsensus.github.io
[Paper Note] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI, Suwhan Choi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pretraining #Pocket #VisionLanguageActionModel #PseudoLabeling Issue Date: 2025-10-20 GPT Summary- D2E(Desktop to Embodied AI)フレームワークを提案し、デスクトップ環境での相互作用がロボティクスの具現化AIタスクの事前学習に有効であることを示す。OWAツールキット、Generalist-IDM、VAPTの3つのコンポーネントを用いて、1,300時間以上のデータで高い成功率を達成。デジタル相互作用の要素が物理的タスクに転送可能であることを検証し、デスクトップ事前学習の実用性を確立。関連データとモデルは公開予定。 Comment
元ポスト:
[Paper Note] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model, Fuhao Li+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #3D (Scene) #VisionLanguageActionModel #SpatialUnderstanding Issue Date: 2025-10-20 GPT Summary- Spatial Forcing (SF)という新しい整合戦略を提案し、VLAモデルが3D空間理解能力を向上させることを促進。SFは3D入力や深度推定器に依存せず、VLAの中間視覚埋め込みを3D基盤モデルの幾何学的表現と整合させる。実験により、SFは最先端の結果を達成し、トレーニングを最大3.8倍加速、データ効率を改善。 Comment
元ポスト:
[Paper Note] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning, Hanyang Chen+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #ReinforcementLearning #SmallModel #VisionLanguageModel #VisionLanguageActionModel Issue Date: 2025-10-18 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment
pj page: https://embodied-reasoning-agent.github.io
元ポスト:
[Paper Note] RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models, Jacky Kwok+, arXiv'25, 2025.06
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Test-Time Scaling #Verification #VisionLanguageActionModel Issue Date: 2025-10-17 GPT Summary- VLAモデルの堅牢性を向上させるため、テスト時スケーリングを調査し、RoboMonkeyフレームワークを導入。小さなアクションセットをサンプリングし、VLMを用いて最適なアクションを選択。合成データ生成により検証精度が向上し、分布外タスクで25%、分布内タスクで9%の改善を達成。新しいロボットセットアップへの適応時には、VLAとアクション検証器の両方をファインチューニングすることで7%の性能向上を示した。 Comment
元ポスト:
[Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Survey #Pocket #LanguageModel #WorldModels #EmbodiedAI Issue Date: 2025-09-25 GPT Summary- 具現化されたAIはAGI達成のための知的システムであり、LLMsとWMsの進展が注目されている。本論文では、具現化されたAIの歴史や技術、コンポーネントを紹介し、LLMsとWMsの役割を詳細に検討。MLLM-WM駆動のアーキテクチャの必要性を論じ、物理世界での複雑なタスクの実現における意義を明らかにする。具現化されたAIのアプリケーションと今後の研究方向についても触れる。 Comment
元ポスト:
ポイント解説:
[Paper Note] Embodied Navigation Foundation Model, Jiazhao Zhang+, arXiv'25
Paper/Blog Link My Issue
#Pocket #LanguageModel #FoundationModel #Navigation #VisionLanguageModel #EmbodiedAI Issue Date: 2025-09-16 GPT Summary- NavFoMは、800万のナビゲーションサンプルで訓練されたクロス具現化・クロスタスクのナビゲーション基盤モデルであり、ビジョンと言語のナビゲーションや自律運転など多様なタスクに対応。異なるカメラ構成や時間的視野を考慮し、動的に調整されたサンプリング戦略を用いて、ファインチューニングなしで最先端の性能を達成。実世界での実験でも強力な一般化能力を示す。 Comment
pj page: https://pku-epic.github.io/NavFoM-Web/
元ポスト:
[Paper Note] LLaDA-VLA: Vision Language Diffusion Action Models, Yuqing Wen+, arXiv'25
Paper/Blog Link My Issue
#Pocket #DiffusionModel #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-15 GPT Summary- 視覚-言語-拡散-アクションモデルLLaDA-VLAを提案し、事前学習されたd-VLMをロボット操作に適応。特殊トークン分類と階層的アクションデコーディングを導入し、実験で最先端のVLAを大幅に上回る性能を示した。 Comment
pj page: https://wenyuqing.github.io/llada-vla/
元ポスト:
[Paper Note] MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation, Hao Shi+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #memory #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-14 GPT Summary- MemoryVLAは、ロボット操作における時間的文脈を考慮したCognition-Memory-Actionフレームワークである。作業記憶を利用して短命の表現を制御し、知覚-認知メモリーバンクに統合された情報を保存する。これにより、時間的に意識したアクションシーケンスを生成し、150以上のシミュレーションおよび実世界のタスクで高い成功率を達成。特に、長期的なタスクにおいて顕著な性能向上を示した。 Comment
pj page: https://shihao1895.github.io/MemoryVLA/
元ポスト:
長期記憶としてメモリバンクが導入され、過去に認識した冗長性が排除された画像情報(low level)と画像とテキストによる指示の意味情報(high level semantics)を格納しておき
、retrievalした上で活用する。次のアクションを決めるためのデコーダように見えるtransformerのattentionに専用のCognition/Perceptionのattentionが両方用意されている👀
[Paper Note] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning, Haozhan Li+, arXiv'25
Paper/Blog Link My Issue
#Pocket #LanguageModel #ReinforcementLearning #GRPO #On-Policy #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-12 GPT Summary- VLAモデルの強化学習フレームワークSimpleVLA-RLを提案し、ロボット操作の効率を向上。大規模データへの依存を減らし、一般化能力を強化。OpenVLA-OFTで最先端のパフォーマンスを達成し、RoboTwin 1.0&2.0で優れた結果を示す。新たな現象「pushcut」を特定。 Comment
元ポスト:
HF: https://huggingface.co/collections/Haozhan72/simplevla-rl-6833311430cd9df52aeb1f86
ポイント解説:
VLAにおいて初めてR1-styleのルールベースのverifiable reward(シミュレーション環境から得られる結果)のみに基づくシンプルなon policy RLを実施することで、SFTを実施する場合よりも高い性能、かつ高い汎化性能を獲得できることをVLAにおいて示した研究な模様。
ただし新たなBehaviorに対するExplorationをより高めるために、Refモデルに対するKL Divergenceペナルティを除外したり、3.3節に記述されているような、
- Dynamic Sampling: 全てのロールアウトのRewardが同じ値になるとGRPOのadvantageが0となり勾配が消失する問題があるので、全てのロールアウトが成功/失敗したグループは除外(言い換えると、mixed outcomeのグループのみを利用)して学習
- Clip Higher: DAPOと同様に、直前のポリシーと現在のポリシーの比率のクリッピングの上限値を広げ(つまり、低い確率だったものをより大きな値となることを以前よりも許容する)て探索を促す
- Higher Rollout Temperature:ロールアウト時のtemperatureを1.6と高めにし、より多様なtrajectoryが生成されるようにすることで探索を促す
といった全体的に探索を強めるような調整を行なっている模様。
[Paper Note] TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models, Zongzheng Zhang+, arXiv'25
Paper/Blog Link My Issue
#Pocket #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-11 GPT Summary- トルク信号を統合した視覚-言語-アクション(VLA)モデルを提案し、デコーダにトルクアダプタを導入することで性能向上を実現。さらに、トルクを補助出力として予測することで、モデルの内部表現を強化。接触が豊富な操作ベンチマークでの実験により、提案手法の有効性を検証。 Comment
pj page: https://zzongzheng0918.github.io/Torque-Aware-VLA.github.io/
元ポスト:
[Paper Note] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control, Delin Qu+, arXiv'25
Paper/Blog Link My Issue
#Pocket #EmbodiedAI Issue Date: 2025-09-03 GPT Summary- EO-Roboticsは、視覚-テキスト-行動の交互の事前学習を通じてマルチモーダル推論とロボット制御を実現する統一モデルEO-1と、150万以上のサンプルを含むデータセットEO-Data1.5Mから構成される。EO-1は、無差別に処理するアーキテクチャと高品質なデータセットを活用し、シームレスなロボットアクション生成を可能にする。実験により、オープンワールドでの理解と一般化における効果が確認された。 Comment
pj page: http://eo-robotics.ai/eo-1
元ポスト:
[Paper Note] Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution, Zhanyi Sun+, arXiv'25
Paper/Blog Link My Issue
#Pocket #ReinforcementLearning #read-later #EmbodiedAI Issue Date: 2025-08-15 GPT Summary- Latent Policy Barrier(LPB)を提案し、視覚運動ポリシーの堅牢性を向上させる。LPBは専門家のデモの潜在埋め込みを安全な状態と危険な状態に分け、専門家の模倣とOODの回復を別々のモジュールで処理。ダイナミクスモデルが将来の潜在状態を予測し、専門家の分布内に留まるよう最適化。シミュレーションと実世界の実験で、LPBはデータ効率を高め、信頼性のある操作を実現。 Comment
元ポスト:
[Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25
Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #Dataset #ICLR #EmbodiedAI Issue Date: 2025-07-19 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment
元ポスト:
元ポストに著者による詳細な解説スレッドがあるので参照のこと。
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #Transformer #InstructionTuning #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #UMM #EmbodiedAI Issue Date: 2023-12-29 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment
画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI
モデルのアーキテクチャ図
マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:
- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21
を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施
目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
)に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)
の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
)を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する
訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。
また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう(生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう)。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
[Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Evaluation #RA-L Issue Date: 2025-11-20 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment
pj page: http://calvin.cs.uni-freiburg.de
[Paper Note] See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation, Hao Li+, CoRL'22, 2022.12
Paper/Blog Link My Issue
#Pocket #CoRL Issue Date: 2025-10-24 GPT Summary- 本研究では、視覚、聴覚、触覚の3つの感覚モダリティを融合させたロボットシステムを構築し、複雑な操作タスクの解決における多感覚知覚の重要性を示します。密なパッキングと注ぎのタスクにおいて、視覚は全体状態を示す一方で遮蔽の影響を受け、音声は重要な瞬間のフィードバックを提供し、触覚は局所的なジオメトリを提供します。これにより、提案したロボットシステムは従来の手法を大幅に上回る性能を発揮します。
[Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Evaluation #IROS Issue Date: 2025-11-20 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。
action100m-preview, Meta, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #VisionLanguageActionModel #4D (Video) Issue Date: 2026-01-16 Comment
元ポスト:
NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #LongSequence #SmallModel #OpenWeight #ObjectLocalization #VisionLanguageModel #SpatialUnderstanding #EmbodiedAI #Physics Issue Date: 2026-01-06 Comment
HF: https://huggingface.co/nvidia/Cosmos-Reason2-8B?linkId=100000401175768
元ポスト:
Emergence of Human to Robot Transfer in VLAs, Physical Intelligence (π), 2025.12
Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Selected Papers/Blogs #DataMixture #VisionLanguageActionModel #4D (Video) #EmbodiedAI #KeyPoint Notes #EmergentAbilities #EgocentricView #DomainGap Issue Date: 2025-12-18 Comment
元ポスト:
pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。
人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ(事前学習時点では人間の動画は含まれないことに注意)をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。
これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12
Interactive Intelligence from Human Xperience, Ropedia, 2025.12
Paper/Blog Link My Issue
#Article #Dataset #Blog #WorldModels #VisionLanguageActionModel #EmbodiedAI #One-Line Notes #EgocentricView #Real-to-Sim Issue Date: 2025-12-17 Comment
pj page: https://ropedia.com/
元ポスト:
頭に装着するデバイスでegocentric viewのデータセットを収集し、実際の人間の様々な状況での経験を収集されたegocentric viewデータに基づいて活用し、より強力なworld model, Real-to-Sim, Vision Action Langauge Modelsを作ることをミッションとする新たなプロジェクト(?)な模様。
[Paper Note] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail, Pavone+, Nvidia, 2025.10
Paper/Blog Link My Issue
#Article #Pocket #Dataset #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #VisionLanguageActionModel #Realtime #AutonomousVehicle Issue Date: 2025-12-06 GPT Summary- AR1は因果連鎖推論と軌道計画を統合した視覚–言語–行動モデルであり、自律運転の意思決定を強化します。主な革新は、因果連鎖データセットの構築、モジュラーVLAアーキテクチャの導入、強化学習を用いた多段階トレーニング戦略です。評価結果では、AR1は計画精度を最大12%向上させ、推論の質を45%改善しました。リアルタイムパフォーマンスも確認され、レベル4の自律運転に向けた実用的な道筋を示しています。 Comment
HF: https://huggingface.co/nvidia/Alpamayo-R1-10B
元ポスト:
TAURO Project, note, 2024.10
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #NLP #Blog #ScientificDiscovery #Japanese Issue Date: 2025-11-20 Comment
元ポスト:
👀👀👀
ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11
Paper/Blog Link My Issue
#Article #Blog #Zero/FewShotLearning #read-later #Generalization #One-Line Notes #LongHorizon Issue Date: 2025-11-20 Comment
元ポスト:
テレオペレーション(遠隔操作; 模倣学習に使われるのだと思われる)ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。(ゆるふわ理解)
Egocentric-10K, Build AI, 2025.11
Paper/Blog Link My Issue
#Article #Dataset #4D (Video) #EmbodiedAI #One-Line Notes Issue Date: 2025-11-13 Comment
元ポスト:
工場での主観視点での作業動画の大規模データセット。Apache 2.0!?
State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #VisionLanguageActionModel Issue Date: 2025-10-16 Comment
元ポスト:
CoRL2025速報, robotpaper.challenge, 2025.10
Paper/Blog Link My Issue
#Article #Survey #Slide #CoRL Issue Date: 2025-10-05 Comment
元ポスト:
RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies, Atreya+, 2025.09
Paper/Blog Link My Issue
#Article #Evaluation #VisionLanguageActionModel Issue Date: 2025-09-29 Comment
元ポスト:
RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by Scaling Up UMI Data, RDT Team, 2025.09
Paper/Blog Link My Issue
#Article #FoundationModel #Blog #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-27 Comment
元ポスト:
ロボットアームのさまざまなアクションをzeroshotで実現できる基盤モデルらしい
A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning, Zhai+, 2025.09
Paper/Blog Link My Issue
#Article #Pocket #ReinforcementLearning #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-18 Comment
pj page: https://vlac.intern-ai.org.cn
元ポスト:
AIロボティクス検討会 第1回事務局資料, 経済産業省, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Slide #Chip #VisionLanguageModel #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-01 Comment
元ポスト:
Nvidiaの投資額が文字通り桁違いの5000億ドル
Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications, Kawaharazuka+, 2025.08
Paper/Blog Link My Issue
#Article #Survey #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-13 Comment
元ポスト:
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08
Paper/Blog Link My Issue
#Article #NLP #Transformer #Blog #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 Comment
TL;DRは下記。
> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.
まず、11.93Mの一人称視点での人間が操作(特に手の操作)をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks(複数のアクションの少量のかたまり)を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction(visual tokenを予測; cross entropy loss)とnext action prediction(action edbeddingを予測する)を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する(L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。
元ポスト:
HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base