VisionLanguageActionModelに関する論文・技術記事メモの一覧

VisionLanguageActionModel

[Paper Note] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization, Hao Luo+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #Reasoning #OpenWeight #CrossDomain #Robotics #UMM #Physics Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment

pj page: https://research.beingbeyond.com/being-h05
HF: https://huggingface.co/collections/BeingBeyond/being-h05

元ポスト:

Loading…

[Paper Note] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models, Mingjie Pan+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Pocket #PostTraining #Robotics Issue Date: 2026-01-09 GPT Summary- スケーラブルオンラインポストトレーニング（SOP）システムを導入し、VLAモデルのオンライン、分散型、マルチタスクポストトレーニングを実現。ロボット群が経験を中央のクラウド学習者にストリーミングし、非同期にポリシーを更新。SOPは、さまざまな実世界の操作タスクでVLAモデルの性能を向上させ、タスク間で単一の共有ポリシーを維持。実世界の相互作用から数時間以内に効果的なポストトレーニングが可能で、ロボットの群れの数に対して性能がほぼ線形にスケール。 Comment

pj page: https://agibot.com/research/sop_en

pj pageを見るとロボットが少し不慣れながらも洗濯物をたたんでいる様子がある。

[Paper Note] Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations, Chancharik Mitra+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Robotics #EmbodiedAI #One-Line Notes Issue Date: 2025-12-28 GPT Summary- VLAモデルはロボティクスにおける視覚と言語の統合を目指すが、物理的要因へのファインチューニングが必要。既存手法は特異性に欠けるため、タスク特異的な注意ヘッドを選択的にファインチューニングする「Robotic Steering」を提案。Franka Emikaロボットアームでの評価により、Robotic SteeringがLoRAを上回り、堅牢性、計算コスト削減、解釈可能性の向上を実現することを示した。 Comment

pj page: https://chancharikmitra.github.io/robosteering/

元ポスト:

Loading…

VLAにおいて学習したいタスクと関連する(sparseな） attention headsだけをfinetuningすることで、効率的に、忘却を防ぎつつ、overfitを防ぐような手法を提案。

[Paper Note] X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale, Pei Yang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Transformer #SyntheticData #DiffusionModel #Robotics #WorldModels #4D (Video) #EmbodiedAI #One-Line Notes #Third-Person View Issue Date: 2025-12-12 GPT Summary- X-Humanoidは、動画から動画への生成的な編集アプローチを用いて、人間からヒューマノイドへの翻訳を実現するモデルです。Unreal Engineを活用し、17時間以上のペア合成動画を生成するデータ作成パイプラインを設計し、60時間のEgo-Exo4D動画を用いて360万以上の「ロボティクス化」されたヒューマノイド動画フレームを生成しました。定量的分析とユーザー調査により、69%のユーザーが動きの一貫性で最も優れていると評価し、62.1%が具現化の正確さで最も優れていると評価しました。 Comment

pj page: https://showlab.github.io/X-Humanoid/

元ポスト:

Loading…

既存研究は主観視点の動画における人の腕をロボットアームにルールベースで置き換えるなどの方法で動画をオーバレイすることでdata scarcityの問題に対処してきており、これは有望なアプローチだが、第三者視点の動画はしばしばより複雑（全身が写り、背景が動的に変化し遮蔽に隠れたりもする）で課題がある。このため、第三者視点での動画を人間からヒューマノイドに置換するモデルを学習[^1]し（強力なvideo editingモデルでもこの点はまだ苦戦するタスクとのこと）、私生活における人間の動画をヒューマノイドに置き換えてデータを合成することでロボットのポリシーや世界モデルの学習データ不足を補います、という話に見える。

[^1]: この部分の学習データはUnreal Engineを用いて17+時間に及ぶ人間-ヒューマノイドペアの動画を合成

（以下Chatgptとの問答により得た情報なのでハルシネーションの恐れがあります）

主観視点での人間の腕をロボットアームに置き換えて学習データを合成するというのは気持ちが分かりやすかったのだが（＝人間の腕と実際にロボット自身がカメラを通じて見る自分の腕は形状が違うため学習時と運用時にgapが生じる）、なぜ第三者視点でのこのようなHuman-Humanoid gapを埋めた学習データが必要なのか、という話はざーっと論文を見た限り書いておらず門外漢の私ではわからなかったので、ChatgptやGeminiにきいてみた。LLMの応答によると
- 主観視点での動画には限りがあり、第三者視点での動画の方が単純にデータ量が多い
- 主観視点動画では見える範囲が限定的であり、たとえばロボットに特定の動作を学習させたいときに、全身動作や背景の動き、物体との位置関係などはわからない。
- ロボットが実際に得る視界もロボットから見た時の主観視点であるが、それとは別の話としてこのような第三者視点がロボットが多様なタスクを学ぶときに全身が写っている動画は有用であるか（タスク、意図、行動の選択パターンなどの動作の意味情報を学ぶ）。また、第三者視点動画をロボットの視点に変換するようなモデルを作るためにもこのようなデータは必要で、これによりロボットは第三者視点の人間動画から学び、最終的にそれらを自分の主観視点に対応する表現として学習（retargetと呼ぶらしい）できる。

といった背景があるらしい。

（LLMから得た情報ここまで）

↑のLLMからの情報は妥当なように感じる。
まああとは、そもそも、ロボットが溢れかえる世界になったときに、ロボットが写っている学習データがないとまずいよね、というのも将来的にはあるのかなという感想。

[Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #WorldModels #UMM #One-Line Notes Issue Date: 2025-11-25 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション（VLA）モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002

元ポスト:

Loading…

VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。

[Paper Note] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors, Zhengshen Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #3D (Scene) #Robotics #SpatialUnderstanding Issue Date: 2025-11-03 GPT Summary- FALCON（From Spatial to Action）は、視覚-言語-行動（VLA）モデルの空間的推論のギャップを解消する新しいパラダイムで、3D空間トークンを行動ヘッドに注入します。RGBから幾何学的情報を提供し、深度やポーズを融合させることで高い忠実度を実現し、再訓練やアーキテクチャの変更は不要です。FALCONは、空間表現やモダリティの転送可能性を向上させ、11の現実世界のタスクで最先端のパフォーマンスを達成しました。 Comment

pj page: https://falcon-vla.github.io/

元ポスト:

Loading…

[Paper Note] MemER: Scaling Up Memory for Robot Control via Experience Retrieval, Ajay Sridhar+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #VisionLanguageModel #Robotics #memory #One-Line Notes #LongHorizon Issue Date: 2025-10-27 GPT Summary- 本研究では、ロボットポリシーに人間のような記憶能力を与えるための階層的ポリシーフレームワークを提案。高レベルポリシーが関連するキーフレームを選択し、低レベルポリシーに指示を生成することで、長期的な依存関係を効率的に推論。実験により、提案手法MemERが従来の方法を上回る性能を示した。 Comment

元ポスト:

Loading…

pj page: https://jen-pan.github.io/memer/

動画ストリーム全てを常にinputするのではなくキーフレームは限られているので、VLMにキーフレームをメモリ上で管理するような役割を与え、instructionと実現するためのサブタスクに応じて動的に必要な情報のみをVLAに与えることでlong horizonでのスケーラビリティを改善する、みたいな話らしい

[Paper Note] GigaBrain-0: A World Model-Powered Vision-Language-Action Model, GigaBrain Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Robotics Issue Date: 2025-10-26 GPT Summary- GigaBrain-0は、実世界のロボットデータの収集コストを削減し、VLAモデルの一般化能力を向上させる新しい基盤モデル。世界モデル生成データを活用し、タスク間の一般化を促進。RGBD入力モデリングとChain-of-Thought監視により、空間幾何学や物体の状態を推論し、実世界のパフォーマンスを向上。GigaBrain-0は外観や配置の変化に対して優れた一般化を示し、軽量バリアントGigaBrain-0-Smallも紹介。 Comment

pj page: https://gigabrain0.github.io

元ポスト:

Loading…

[Paper Note] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI, Suwhan Choi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pretraining #Pocket #Robotics #PseudoLabeling Issue Date: 2025-10-20 GPT Summary- D2E（Desktop to Embodied AI）フレームワークを提案し、デスクトップ環境での相互作用がロボティクスの具現化AIタスクの事前学習に有効であることを示す。OWAツールキット、Generalist-IDM、VAPTの3つのコンポーネントを用いて、1,300時間以上のデータで高い成功率を達成。デジタル相互作用の要素が物理的タスクに転送可能であることを検証し、デスクトップ事前学習の実用性を確立。関連データとモデルは公開予定。 Comment

元ポスト:

Loading…

[Paper Note] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model, Fuhao Li+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #3D (Scene) #Robotics #SpatialUnderstanding Issue Date: 2025-10-20 GPT Summary- Spatial Forcing (SF)という新しい整合戦略を提案し、VLAモデルが3D空間理解能力を向上させることを促進。SFは3D入力や深度推定器に依存せず、VLAの中間視覚埋め込みを3D基盤モデルの幾何学的表現と整合させる。実験により、SFは最先端の結果を達成し、トレーニングを最大3.8倍加速、データ効率を改善。 Comment

元ポスト:

Loading…

[Paper Note] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning, Hanyang Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #ReinforcementLearning #SmallModel #VisionLanguageModel #Robotics Issue Date: 2025-10-18 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment

pj page: https://embodied-reasoning-agent.github.io

元ポスト:

Loading…

[Paper Note] RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models, Jacky Kwok+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Test-Time Scaling #Verification #Robotics Issue Date: 2025-10-17 GPT Summary- VLAモデルの堅牢性を向上させるため、テスト時スケーリングを調査し、RoboMonkeyフレームワークを導入。小さなアクションセットをサンプリングし、VLMを用いて最適なアクションを選択。合成データ生成により検証精度が向上し、分布外タスクで25%、分布内タスクで9%の改善を達成。新しいロボットセットアップへの適応時には、VLAとアクション検証器の両方をファインチューニングすることで7%の性能向上を示した。 Comment

元ポスト:

Loading…

[Paper Note] LLaDA-VLA: Vision Language Diffusion Action Models, Yuqing Wen+, arXiv'25

Paper/Blog Link My Issue
#Pocket #DiffusionModel #Robotics #EmbodiedAI Issue Date: 2025-09-15 GPT Summary- 視覚-言語-拡散-アクションモデルLLaDA-VLAを提案し、事前学習されたd-VLMをロボット操作に適応。特殊トークン分類と階層的アクションデコーディングを導入し、実験で最先端のVLAを大幅に上回る性能を示した。 Comment

pj page: https://wenyuqing.github.io/llada-vla/

元ポスト:

Loading…

[Paper Note] MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation, Hao Shi+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Robotics #memory #EmbodiedAI Issue Date: 2025-09-14 GPT Summary- MemoryVLAは、ロボット操作における時間的文脈を考慮したCognition-Memory-Actionフレームワークである。作業記憶を利用して短命の表現を制御し、知覚-認知メモリーバンクに統合された情報を保存する。これにより、時間的に意識したアクションシーケンスを生成し、150以上のシミュレーションおよび実世界のタスクで高い成功率を達成。特に、長期的なタスクにおいて顕著な性能向上を示した。 Comment

pj page: https://shihao1895.github.io/MemoryVLA/

元ポスト:

Loading…

長期記憶としてメモリバンクが導入され、過去に認識した冗長性が排除された画像情報(low level)と画像とテキストによる指示の意味情報（high level semantics)を格納しておき
、retrievalした上で活用する。次のアクションを決めるためのデコーダように見えるtransformerのattentionに専用のCognition/Perceptionのattentionが両方用意されている👀

[Paper Note] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning, Haozhan Li+, arXiv'25

Paper/Blog Link My Issue
#Pocket #LanguageModel #ReinforcementLearning #GRPO #On-Policy #Robotics #EmbodiedAI Issue Date: 2025-09-12 GPT Summary- VLAモデルの強化学習フレームワークSimpleVLA-RLを提案し、ロボット操作の効率を向上。大規模データへの依存を減らし、一般化能力を強化。OpenVLA-OFTで最先端のパフォーマンスを達成し、RoboTwin 1.0&2.0で優れた結果を示す。新たな現象「pushcut」を特定。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/Haozhan72/simplevla-rl-6833311430cd9df52aeb1f86

ポイント解説:

Loading…

VLAにおいて初めてR1-styleのルールベースのverifiable reward（シミュレーション環境から得られる結果）のみに基づくシンプルなon policy RLを実施することで、SFTを実施する場合よりも高い性能、かつ高い汎化性能を獲得できることをVLAにおいて示した研究な模様。

ただし新たなBehaviorに対するExplorationをより高めるために、Refモデルに対するKL Divergenceペナルティを除外したり、3.3節に記述されているような、
- Dynamic Sampling: 全てのロールアウトのRewardが同じ値になるとGRPOのadvantageが0となり勾配が消失する問題があるので、全てのロールアウトが成功/失敗したグループは除外（言い換えると、mixed outcomeのグループのみを利用）して学習
- Clip Higher: DAPOと同様に、直前のポリシーと現在のポリシーの比率のクリッピングの上限値を広げ（つまり、低い確率だったものをより大きな値となることを以前よりも許容する）て探索を促す
- Higher Rollout Temperature:ロールアウト時のtemperatureを1.6と高めにし、より多様なtrajectoryが生成されるようにすることで探索を促す

といった全体的に探索を強めるような調整を行なっている模様。

[Paper Note] TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models, Zongzheng Zhang+, arXiv'25

Paper/Blog Link My Issue
#Pocket #Robotics #EmbodiedAI Issue Date: 2025-09-11 GPT Summary- トルク信号を統合した視覚-言語-アクション（VLA）モデルを提案し、デコーダにトルクアダプタを導入することで性能向上を実現。さらに、トルクを補助出力として予測することで、モデルの内部表現を強化。接触が豊富な操作ベンチマークでの実験により、提案手法の有効性を検証。 Comment

pj page: https://zzongzheng0918.github.io/Torque-Aware-VLA.github.io/

元ポスト:

Loading…

[Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #SpeechProcessing #Reasoning #OpenWeight Issue Date: 2025-08-12 GPT Summary- アクション推論モデル（ARMs）であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment

`Action Reasoning Models (ARMs)`

元ポスト:

Loading…

blog: https://allenai.org/blog/molmoact

models:
- https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
- https://huggingface.co/allenai/MolmoAct-7B-D-0812

datasets:
- https://huggingface.co/datasets/allenai/MolmoAct-Dataset
- https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
- https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture

データは公開されているが、コードが見当たらない？

チェックポイントとコードも公開された模様:
-

Loading…

- https://github.com/allenai/MolmoAct

action100m-preview, Meta, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #Robotics #4D (Video) Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

Emergence of Human to Robot Transfer in VLAs, Physical Intelligence （π）, 2025.12

Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Selected Papers/Blogs #DataMixture #Robotics #4D (Video) #EmbodiedAI #KeyPoint Notes #EmergentAbilities #EgocentricView #DomainGap Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。

人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ（事前学習時点では人間の動画は含まれないことに注意）をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。

これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12

Interactive Intelligence from Human Xperience, Ropedia, 2025.12

Paper/Blog Link My Issue
#Article #Dataset #Blog #Robotics #WorldModels #EmbodiedAI #One-Line Notes #EgocentricView #Real-to-Sim Issue Date: 2025-12-17 Comment

pj page: https://ropedia.com/

元ポスト:

Loading…

頭に装着するデバイスでegocentric viewのデータセットを収集し、実際の人間の様々な状況での経験を収集されたegocentric viewデータに基づいて活用し、より強力なworld model, Real-to-Sim, Vision Action Langauge Modelsを作ることをミッションとする新たなプロジェクト（？）な模様。

[Paper Note] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail, Pavone+, Nvidia, 2025.10

Paper/Blog Link My Issue
#Article #Pocket #Dataset #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #Robotics #Realtime #AutonomousVehicle Issue Date: 2025-12-06 GPT Summary- AR1は因果連鎖推論と軌道計画を統合した視覚–言語–行動モデルであり、自律運転の意思決定を強化します。主な革新は、因果連鎖データセットの構築、モジュラーVLAアーキテクチャの導入、強化学習を用いた多段階トレーニング戦略です。評価結果では、AR1は計画精度を最大12%向上させ、推論の質を45%改善しました。リアルタイムパフォーマンスも確認され、レベル4の自律運転に向けた実用的な道筋を示しています。 Comment

HF: https://huggingface.co/nvidia/Alpamayo-R1-10B

元ポスト:

Loading…

State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Robotics Issue Date: 2025-10-16 Comment

元ポスト:

Loading…

RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies, Atreya+, 2025.09

Paper/Blog Link My Issue
#Article #Evaluation #Robotics Issue Date: 2025-09-29 Comment

元ポスト:

Loading…

RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by Scaling Up UMI Data, RDT Team, 2025.09

Paper/Blog Link My Issue
#Article #FoundationModel #Blog #Robotics #EmbodiedAI Issue Date: 2025-09-27 Comment

元ポスト:

Loading…

ロボットアームのさまざまなアクションをzeroshotで実現できる基盤モデルらしい

code: https://github.com/thu-ml/RDT2

A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning, Zhai+, 2025.09

Paper/Blog Link My Issue
#Article #Pocket #ReinforcementLearning #Robotics #EmbodiedAI Issue Date: 2025-09-18 Comment

pj page: https://vlac.intern-ai.org.cn

元ポスト:

Loading…

AIロボティクス検討会第1回事務局資料, 経済産業省, 2025.08

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Slide #Chip #VisionLanguageModel #Robotics #EmbodiedAI Issue Date: 2025-09-01 Comment

元ポスト:

Loading…

Nvidiaの投資額が文字通り桁違いの5000億ドル

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications, Kawaharazuka+, 2025.08

Paper/Blog Link My Issue
#Article #Survey #Robotics #EmbodiedAI Issue Date: 2025-08-13 Comment

元ポスト:

Loading…

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08

Paper/Blog Link My Issue
#Article #NLP #Transformer #Blog #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #Robotics #EmbodiedAI Issue Date: 2025-08-12 Comment

TL;DRは下記。

> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.

まず、11.93Mの一人称視点での人間が操作（特に手の操作）をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks（複数のアクションの少量のかたまり）を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction（visual tokenを予測; cross entropy loss）とnext action prediction（action edbeddingを予測する）を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する（L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。

元ポスト:

Loading…

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base