EgocentricView
[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel #OpenWeight #Robotics #WorldModels #4D (Video) #Realtime #Physics #Author Thread-Post Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment
pj page: https://dreamdojo-world.github.io/
元ポスト:
著者ポスト:
著者ポスト:
解説:
[Paper Note] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing, Runjia Li+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Editing #4D (Video) #Initial Impression Notes Issue Date: 2026-03-17 GPT Summary- 自己視点動画編集のためのエコシステムを提案。EgoEditDataを構築し、手と物体の相互作用に特化したデータセットを提供。リアルタイム推論を可能にするEgoEditを開発し、指示に従いながら高品質の編集を実現。評価スイートEgoEditBenchを導入し、自己視点編集での進歩を示しつつ、一般編集タスクでも強力な性能を維持。EgoEditDataとEgoEditBenchは研究コミュニティに公開予定。 Comment
pj page: https://snap-research.github.io/EgoEdit/
元ポスト:
完全にARの上位互換
Emergence of Human to Robot Transfer in VLAs, Physical Intelligence (π), 2025.12
Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Selected Papers/Blogs #DataMixture #Robotics #VisionLanguageActionModel #4D (Video) #EmbodiedAI #KeyPoint Notes #EmergentAbilities #DomainGap #Author Thread-Post Issue Date: 2025-12-18 Comment
元ポスト:
pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。
人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ(事前学習時点では人間の動画は含まれないことに注意)をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。
これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12
Interactive Intelligence from Human Xperience, Ropedia, 2025.12
Paper/Blog Link My Issue
#Article #Dataset #Blog #Robotics #WorldModels #VisionLanguageActionModel #EmbodiedAI #One-Line Notes #Real-to-Sim Issue Date: 2025-12-17 Comment
pj page: https://ropedia.com/
元ポスト:
頭に装着するデバイスでegocentric viewのデータセットを収集し、実際の人間の様々な状況での経験を収集されたegocentric viewデータに基づいて活用し、より強力なworld model, Real-to-Sim, Vision Action Langauge Modelsを作ることをミッションとする新たなプロジェクト(?)な模様。
