VisionLanguageActionModel

#ComputerVision #Pocket #NLP #MulltiModal #SpeechProcessing #Reasoning #OpenWeight
Issue Date: 2025-08-12 [Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25 Summaryアクション推論モデル(ARMs)であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment`Action Reasoning Models (ARMs)`

元ポスト:https://x.com/gm8xx8/status/1955168414294589844?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
blog: https://allenai.org/blog/molmoact関連:
・1426models:
・https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
・https://huggingface.co/allenai/MolmoAct-7B-D-0812

datasets:
・https://huggingface.co/datasets/allenai/MolmoAct-Dataset
・https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
・https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixtureデータは公開されているが、コードが見当たらない?
#Article #Survey #Robotics
Issue Date: 2025-08-13 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications, Kawaharazuka+, 2025.08 Comment元ポスト:https://x.com/kkawaharazuka/status/1955424422472642603?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #Transformer #Blog #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #Robotics
Issue Date: 2025-08-12 RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08 CommentTL;DRは下記。

> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> ・RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> ・We unify next-frame prediction and next-action prediction into a single transformer.
> ・We train a lightweight VAE to accurately compress action chunks into action embeddings.
> ・Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.

まず、11.93Mの一人称視点での人間が操作(特に手の操作)をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks(複数のアクションの少量のかたまり)を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction(visual tokenを予測; cross entropy loss)とnext action prediction(action edbeddingを予測する)を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する(L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。

image元ポスト:https://x.com/gm8xx8/status/1955043541299728607?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QHF:https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base