VideoActionModel


Paper/Blog Link My Issue
#ComputerVision #Pretraining #FoundationModel #4D (Video) #One-Line Notes Issue Date: 2026-02-27 GPT Summary- オンラインのラベルなし動画を用いた半教師付き模倣学習により、逐次決定領域へインターネット規模の事前学習を拡張。逆ダイナミクスモデルを利用して、少量のラベル付きデータから一般的な行動知識を獲得。これにより、模倣学習と強化学習でのファインチューニングが可能となり、困難な探索課題に対するゼロショット能力を示す。初めて、ダイヤモンドの道具を作成できるコンピュータエージェントが報告され、人間レベルの性能を実現。 Comment

Inverse Dynamics Model (IDM)

observationによる状態の変化が、どのアクションによって引き起こされたかを推定するモデル(Inverse Dynamics Model)を学習し(すべてのobservationのtrajectoryから時刻tでのアクションを予測するモデル)アクション-状態遷移のダイナミクスの知識を理解したモデルを学習。その後大量のunlabeled dataに対してIDM Modelによって、アクションをラベル付けし、当該アクションラベルを教師として、Forward Dynamics Model (時刻tまでの状態遷移が与えられた時に次にどのようなアクションが実施されるかを予測するモデル)を学習することで事前学習をする手法な模様。




Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #FoundationModel #DiffusionModel #ComputerUse #4D (Video) #One-Line Notes Issue Date: 2026-02-27 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

関連:
- [Paper Note] Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos, Bowen Baker+, arXiv'22, 2022.06

Training Recipeの部分を読むと、上記研究で提案されているVideo PreTrainingと同じ手法を用いているように見える。
つまり、Inverse Dynamics Modelを学習し、大量のvideoデータに対してアクションラベルを付与し、付与されたアクションラベルを用いて半教師あり学習によるnext action predictionを実施することによって基盤モデルを学習する、というアプローチ。

この基盤モデルによってたとえば1時間のサンフランシスコをdrivingしている動画によってfinetuningすることで、自動運転をするようなモデルが学習できる、といったことが実現可能な模様。