Roboticsに関する論文・技術記事メモの一覧

Robotics

#Pocket #Selected Papers/Blogs #Scalability #Sim-to-Real #Loco-Manipulation
Issue Date: 2025-11-21 [Paper Note] VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation, Tairan He+, arXiv'25, 2025.11 GPT Summary- VIRALというフレームワークを用いて、ヒューマノイドロボットのロコマニピュレーションをシミュレーションから実世界に展開。教師-生徒の強化学習を通じて、視覚ベースのポリシーを訓練し、計算規模が成功に重要であることを示す。シミュレーションと実世界の整合性を確保し、Unitree G1ヒューマノイドでの実験により、専門家レベルの性能に近づくことを確認。 Comment

pj page: https://viral-humanoid.github.io/

元ポスト:

Loading…

解説:

Loading…

discussionの部分が興味深い

#ComputerVision #Pocket #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #SpatialUnderstanding #Omni #Geometric #Robustness
Issue Date: 2025-11-16 [Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, arXiv'25, 2025.11 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合（depth mapがないなど情報が欠落していても良い）にロバストに対応できるような基盤モデルを構築する手法らしい

https://github.com/user-attachments/assets/b09c10b6-628a-418f-9faf-ea43a4d3f692" />

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12

#ComputerVision #Pocket #Zero/Few/ManyShotPrompting #VideoGeneration/Understandings #WorldModels #EmbodiedAI #One-Line Notes
Issue Date: 2025-11-12 [Paper Note] Robot Learning from a Physical World Model, Jiageng Mao+, arXiv'25, 2025.11 GPT Summary- PhysWorldは、物理世界のモデル化を通じてビデオ生成とロボット学習を結びつけるフレームワークです。従来のビデオ生成モデルは物理を無視しがちで、ロボットの操作に不正確さをもたらしますが、PhysWorldはタスク条件付きのビデオを生成し、物理世界を再構築します。これにより、生成されたビデオの動きを物理的に正確なアクションに変換し、実際のロボットデータ収集なしでゼロショットのロボット操作を実現します。実験により、PhysWorldは操作精度を大幅に向上させることが示されました。 Comment

pj page: https://pointscoder.github.io/PhysWorld_Web/

画像とタスクプロンプトを与えて動画を生成し、生成された動画に対してworld modelを用いて物理世界の情報を再構築し、そこからロボットのアクションとして何が必要かを推定することでRLをする、結果的にzeroshotでのロボット操作が実現できる、みたいな話に見える(Figure2)

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#ComputerVision #Pocket #3D (Scene) #VisionLanguageActionModel #SpatialUnderstanding Issue Date: 2025-11-03 [Paper Note] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors, Zhengshen Zhang+, arXiv'25, 2025.10 GPT Summary- FALCON（From Spatial to Action）は、視覚-言語-行動（VLA）モデルの空間的推論のギャップを解消する新しいパラダイムで、3D空間トークンを行動ヘッドに注入します。RGBから幾何学的情報を提供し、深度やポーズを融合させることで高い忠実度を実現し、再訓練やアーキテクチャの変更は不要です。FALCONは、空間表現やモダリティの転送可能性を向上させ、11の現実世界のタスクで最先端のパフォーマンスを達成しました。 Comment

pj page: https://falcon-vla.github.io/

元ポスト:

Loading…

#ComputerVision #Pocket #VisionLanguageModel #memory #VisionLanguageActionModel #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] MemER: Scaling Up Memory for Robot Control via Experience Retrieval, Ajay Sridhar+, arXiv'25, 2025.10 GPT Summary- 本研究では、ロボットポリシーに人間のような記憶能力を与えるための階層的ポリシーフレームワークを提案。高レベルポリシーが関連するキーフレームを選択し、低レベルポリシーに指示を生成することで、長期的な依存関係を効率的に推論。実験により、提案手法MemERが従来の方法を上回る性能を示した。 Comment

元ポスト:

Loading…

pj page: https://jen-pan.github.io/memer/

動画ストリーム全てを常にinputするのではなくキーフレームは限られているので、VLMにキーフレームをメモリ上で管理するような役割を与え、instructionと実現するためのサブタスクに応じて動的に必要な情報のみをVLAに与えることでlong horizonでのスケーラビリティを改善する、みたいな話らしい

#Pocket #ReinforcementLearning Issue Date: 2025-10-26 [Paper Note] RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning, Kun Lei+, arXiv'25, 2025.10 GPT Summary- RL-100は、実世界のロボット操作のための強化学習トレーニングフレームワークで、模倣学習、オフライン強化学習、オンライン強化学習の三段階のパイプラインを採用。多段階サンプリングを単一段階ポリシーに圧縮し、高頻度制御を実現。7つの実ロボットタスクで100%の成功率を達成し、人間の操作に匹敵する効率と堅牢性を示した。 Comment

pj page: https://lei-kun.github.io/RL-100/
blog: https://lei-kun.github.io/blogs/RL100.html

元ポスト:

Loading…

#VisionLanguageActionModel Issue Date: 2025-10-26 [Paper Note] GigaBrain-0: A World Model-Powered Vision-Language-Action Model, GigaBrain Team+, arXiv'25, 2025.10 GPT Summary- GigaBrain-0は、実世界のロボットデータの収集コストを削減し、VLAモデルの一般化能力を向上させる新しい基盤モデル。世界モデル生成データを活用し、タスク間の一般化を促進。RGBD入力モデリングとChain-of-Thought監視により、空間幾何学や物体の状態を推論し、実世界のパフォーマンスを向上。GigaBrain-0は外観や配置の変化に対して優れた一般化を示し、軽量バリアントGigaBrain-0-Smallも紹介。 Comment

pj page: https://gigabrain0.github.io

元ポスト:

Loading…

#Pocket #MultiModal #DiffusionModel #Routing Issue Date: 2025-10-22 [Paper Note] Multi-Modal Manipulation via Multi-Modal Policy Consensus, Haonan Chen+, arXiv'25, 2025.09 GPT Summary- 多様な感覚モダリティを統合することはロボット操作において重要であり、従来の特徴連結アプローチは最適ではない。提案手法では、ポリシーを拡散モデルに因数分解し、各モデルが特定の表現に特化。ルーターネットワークを用いて適応的に重みを学習し、新しい表現の統合を可能にする。シミュレーションや実世界のタスクで、マルチモーダル推論において特徴連結のベースラインを上回る性能を示し、物理的な摂動に対しても堅牢性を持つことが確認された。 Comment

元ポスト:

Loading…

pj page: https://policyconsensus.github.io

先行研究の一つ:
- [Paper Note] See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation, Hao Li+, CoRL'22, 2022.12

#Pretraining #Pocket #VisionLanguageActionModel #PseudoLabeling Issue Date: 2025-10-20 [Paper Note] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI, Suwhan Choi+, arXiv'25, 2025.10 GPT Summary- D2E（Desktop to Embodied AI）フレームワークを提案し、デスクトップ環境での相互作用がロボティクスの具現化AIタスクの事前学習に有効であることを示す。OWAツールキット、Generalist-IDM、VAPTの3つのコンポーネントを用いて、1,300時間以上のデータで高い成功率を達成。デジタル相互作用の要素が物理的タスクに転送可能であることを検証し、デスクトップ事前学習の実用性を確立。関連データとモデルは公開予定。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #3D (Scene) #VisionLanguageActionModel #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model, Fuhao Li+, arXiv'25, 2025.10 GPT Summary- Spatial Forcing (SF)という新しい整合戦略を提案し、VLAモデルが3D空間理解能力を向上させることを促進。SFは3D入力や深度推定器に依存せず、VLAの中間視覚埋め込みを3D基盤モデルの幾何学的表現と整合させる。実験により、SFは最先端の結果を達成し、トレーニングを最大3.8倍加速、データ効率を改善。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #ReinforcementLearning #SmallModel #VisionLanguageModel #VisionLanguageActionModel Issue Date: 2025-10-18 [Paper Note] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning, Hanyang Chen+, arXiv'25, 2025.10 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment

pj page: https://embodied-reasoning-agent.github.io

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Test-Time Scaling #Verification #VisionLanguageActionModel Issue Date: 2025-10-17 [Paper Note] RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models, Jacky Kwok+, arXiv'25, 2025.06 GPT Summary- VLAモデルの堅牢性を向上させるため、テスト時スケーリングを調査し、RoboMonkeyフレームワークを導入。小さなアクションセットをサンプリングし、VLMを用いて最適なアクションを選択。合成データ生成により検証精度が向上し、分布外タスクで25%、分布内タスクで9%の改善を達成。新しいロボットセットアップへの適応時には、VLAとアクション検証器の両方をファインチューニングすることで7%の性能向上を示した。 Comment

元ポスト:

Loading…

#Survey #Pocket #LanguageModel #WorldModels #EmbodiedAI Issue Date: 2025-09-25 [Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09 GPT Summary- 具現化されたAIはAGI達成のための知的システムであり、LLMsとWMsの進展が注目されている。本論文では、具現化されたAIの歴史や技術、コンポーネントを紹介し、LLMsとWMsの役割を詳細に検討。MLLM-WM駆動のアーキテクチャの必要性を論じ、物理世界での複雑なタスクの実現における意義を明らかにする。具現化されたAIのアプリケーションと今後の研究方向についても触れる。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #LanguageModel #FoundationModel #Navigation #VisionLanguageModel #EmbodiedAI Issue Date: 2025-09-16 [Paper Note] Embodied Navigation Foundation Model, Jiazhao Zhang+, arXiv'25 GPT Summary- NavFoMは、800万のナビゲーションサンプルで訓練されたクロス具現化・クロスタスクのナビゲーション基盤モデルであり、ビジョンと言語のナビゲーションや自律運転など多様なタスクに対応。異なるカメラ構成や時間的視野を考慮し、動的に調整されたサンプリング戦略を用いて、ファインチューニングなしで最先端の性能を達成。実世界での実験でも強力な一般化能力を示す。 Comment

pj page: https://pku-epic.github.io/NavFoM-Web/

元ポスト:

Loading…

#Pocket #DiffusionModel #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-15 [Paper Note] LLaDA-VLA: Vision Language Diffusion Action Models, Yuqing Wen+, arXiv'25 GPT Summary- 視覚-言語-拡散-アクションモデルLLaDA-VLAを提案し、事前学習されたd-VLMをロボット操作に適応。特殊トークン分類と階層的アクションデコーディングを導入し、実験で最先端のVLAを大幅に上回る性能を示した。 Comment

pj page: https://wenyuqing.github.io/llada-vla/

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #memory #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-14 [Paper Note] MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation, Hao Shi+, arXiv'25 GPT Summary- MemoryVLAは、ロボット操作における時間的文脈を考慮したCognition-Memory-Actionフレームワークである。作業記憶を利用して短命の表現を制御し、知覚-認知メモリーバンクに統合された情報を保存する。これにより、時間的に意識したアクションシーケンスを生成し、150以上のシミュレーションおよび実世界のタスクで高い成功率を達成。特に、長期的なタスクにおいて顕著な性能向上を示した。 Comment

pj page: https://shihao1895.github.io/MemoryVLA/

元ポスト:

Loading…

長期記憶としてメモリバンクが導入され、過去に認識した冗長性が排除された画像情報(low level)と画像とテキストによる指示の意味情報（high level semantics)を格納しておき
、retrievalした上で活用する。次のアクションを決めるためのデコーダように見えるtransformerのattentionに専用のCognition/Perceptionのattentionが両方用意されている👀

#Pocket #LanguageModel #ReinforcementLearning #GRPO #On-Policy #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-12 [Paper Note] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning, Haozhan Li+, arXiv'25 GPT Summary- VLAモデルの強化学習フレームワークSimpleVLA-RLを提案し、ロボット操作の効率を向上。大規模データへの依存を減らし、一般化能力を強化。OpenVLA-OFTで最先端のパフォーマンスを達成し、RoboTwin 1.0&2.0で優れた結果を示す。新たな現象「pushcut」を特定。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/Haozhan72/simplevla-rl-6833311430cd9df52aeb1f86

ポイント解説:

Loading…

VLAにおいて初めてR1-styleのルールベースのverifiable reward（シミュレーション環境から得られる結果）のみに基づくシンプルなon policy RLを実施することで、SFTを実施する場合よりも高い性能、かつ高い汎化性能を獲得できることをVLAにおいて示した研究な模様。

ただし新たなBehaviorに対するExplorationをより高めるために、Refモデルに対するKL Divergenceペナルティを除外したり、3.3節に記述されているような、
- Dynamic Sampling: 全てのロールアウトのRewardが同じ値になるとGRPOのadvantageが0となり勾配が消失する問題があるので、全てのロールアウトが成功/失敗したグループは除外（言い換えると、mixed outcomeのグループのみを利用）して学習
- Clip Higher: DAPOと同様に、直前のポリシーと現在のポリシーの比率のクリッピングの上限値を広げ（つまり、低い確率だったものをより大きな値となることを以前よりも許容する）て探索を促す
- Higher Rollout Temperature:ロールアウト時のtemperatureを1.6と高めにし、より多様なtrajectoryが生成されるようにすることで探索を促す

といった全体的に探索を強めるような調整を行なっている模様。

#Pocket #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-11 [Paper Note] TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models, Zongzheng Zhang+, arXiv'25 GPT Summary- トルク信号を統合した視覚-言語-アクション（VLA）モデルを提案し、デコーダにトルクアダプタを導入することで性能向上を実現。さらに、トルクを補助出力として予測することで、モデルの内部表現を強化。接触が豊富な操作ベンチマークでの実験により、提案手法の有効性を検証。 Comment

pj page: https://zzongzheng0918.github.io/Torque-Aware-VLA.github.io/

元ポスト:

Loading…

#Pocket #EmbodiedAI Issue Date: 2025-09-03 [Paper Note] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control, Delin Qu+, arXiv'25 GPT Summary- EO-Roboticsは、視覚-テキスト-行動の交互の事前学習を通じてマルチモーダル推論とロボット制御を実現する統一モデルEO-1と、150万以上のサンプルを含むデータセットEO-Data1.5Mから構成される。EO-1は、無差別に処理するアーキテクチャと高品質なデータセットを活用し、シームレスなロボットアクション生成を可能にする。実験により、オープンワールドでの理解と一般化における効果が確認された。 Comment

pj page: http://eo-robotics.ai/eo-1

元ポスト:

Loading…

#Pocket #ReinforcementLearning #read-later #EmbodiedAI Issue Date: 2025-08-15 [Paper Note] Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution, Zhanyi Sun+, arXiv'25 GPT Summary- Latent Policy Barrier（LPB）を提案し、視覚運動ポリシーの堅牢性を向上させる。LPBは専門家のデモの潜在埋め込みを安全な状態と危険な状態に分け、専門家の模倣とOODの回復を別々のモジュールで処理。ダイナミクスモデルが将来の潜在状態を予測し、専門家の分布内に留まるよう最適化。シミュレーションと実世界の実験で、LPBはデータ効率を高め、信頼性のある操作を実現。 Comment

元ポスト:

Loading…

pj page: https://project-latentpolicybarrier.github.io/

#Analysis #MachineLearning #Pocket #Dataset #ICLR #EmbodiedAI Issue Date: 2025-07-19 [Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment

元ポスト:

Loading…

元ポストに著者による詳細な解説スレッドがあるので参照のこと。

#ComputerVision #Pretraining #Pocket #NLP #Transformer #InstructionTuning #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #UMM #EmbodiedAI Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

モデルのアーキテクチャ図

マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:

- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21 を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施

目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)

の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する

訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。

また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう（生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう）。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
https://github.com/user-attachments/assets/0dba8d5d-0c93-4c56-852b-fce9869428e7" />

#ComputerVision #Pocket #Dataset #Evaluation #RA-L Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#Pocket #CoRL Issue Date: 2025-10-24 [Paper Note] See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation, Hao Li+, CoRL'22, 2022.12 GPT Summary- 本研究では、視覚、聴覚、触覚の3つの感覚モダリティを融合させたロボットシステムを構築し、複雑な操作タスクの解決における多感覚知覚の重要性を示します。密なパッキングと注ぎのタスクにおいて、視覚は全体状態を示す一方で遮蔽の影響を受け、音声は重要な瞬間のフィードバックを提供し、触覚は局所的なジオメトリを提供します。これにより、提案したロボットシステムは従来の手法を大幅に上回る性能を発揮します。 #ComputerVision #Pocket #Dataset #Evaluation #IROS Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。 #Article #Tutorial #ComputerVision #NLP #Blog #ScientificDiscovery #Japanese Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #Blog #Zero/FewShotLearning #read-later #Generalization #LongHorizon Issue Date: 2025-11-20 ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11 Comment

元ポスト:

Loading…

テレオペレーション（遠隔操作; 模倣学習に使われるのだと思われる）ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。（ゆるふわ理解）

#Article #Dataset #4D (Video) #EmbodiedAI #One-Line Notes Issue Date: 2025-11-13 Egocentric-10K, Build AI, 2025.11 Comment

元ポスト:

Loading…

工場での主観視点での作業動画の大規模データセット。Apache 2.0!?

#Article #Tutorial #NLP #LanguageModel #VisionLanguageActionModel Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

#Article #Survey #Slide #CoRL Issue Date: 2025-10-05 CoRL2025速報, robotpaper.challenge, 2025.10 Comment

元ポスト:

Loading…

#Article #Evaluation #VisionLanguageActionModel Issue Date: 2025-09-29 RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies, Atreya+, 2025.09 Comment

元ポスト:

Loading…

#Article #FoundationModel #Blog #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-27 RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by Scaling Up UMI Data, RDT Team, 2025.09 Comment

元ポスト:

Loading…

ロボットアームのさまざまなアクションをzeroshotで実現できる基盤モデルらしい

code: https://github.com/thu-ml/RDT2

#Article #Pocket #ReinforcementLearning #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-18 A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning, Zhai+, 2025.09 Comment

pj page: https://vlac.intern-ai.org.cn

元ポスト:

Loading…

#Article #ComputerVision #NLP #Slide #Chip #VisionLanguageModel #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-01 AIロボティクス検討会第1回事務局資料, 経済産業省, 2025.08 Comment

元ポスト:

Loading…

Nvidiaの投資額が文字通り桁違いの5000億ドル

#Article #Survey #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-13 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications, Kawaharazuka+, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #Transformer #Blog #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08 Comment

TL;DRは下記。

> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.

まず、11.93Mの一人称視点での人間が操作（特に手の操作）をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks（複数のアクションの少量のかたまり）を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction（visual tokenを予測; cross entropy loss）とnext action prediction（action edbeddingを予測する）を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する（L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。

元ポスト:

Loading…

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base