EmergentAbilitiesに関する論文・技術記事メモの一覧

EmergentAbilities

[Paper Note] $π_{0.7}$: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities, Physical Intelligence+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Generalization #Robotics #VisionLanguageActionModel #EmbodiedAI #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-19 GPT Summary- ロボット基盤モデルπ_{0.7}は、未知の環境で多様な言語指示に従う能力を持ち、幅広い台所家電の多段階タスクに対応。ゼロショット一般化を実現し、初期設定のままで高い性能を発揮。多様な文脈条件付けを用いて、タスクの実行方法を示すマルチモーダル情報を活用。実験では、複数のロボットプラットフォームで速度や言語追従、タスク一般化を評価し、強化学習モデルに匹敵する性能を示した。 Comment

元ポスト:

Loading…

以下はブログを斜め読みして感じた所感

新たなロボットが服を畳めたり（当該ロボットの服をたたむ学習データなしで）、新たなキッチン家電を（口頭でのcoachingに基づいて）使いこなす、といった汎化性能をVLAが獲得したという話に見える

関係者によるポスト:

Loading…

新たなキッチン家電はノンフライヤーであり、実際に学習データの異なるロボットがフライヤーを開け閉めするエピソードからスキルを学習したことを突き止め、習得したスキルと知識の組み合わせによって、VLAの分野でも汎化が実現され、かつworld modelでロボットが到達すべきサブゴールを生成し条件付けすることが機能することを学んだといった話が書かれている。

日本語解説: https://www.docswell.com/s/DeepLearning2023/Z27ME6-2026-04-24-135712

上記解説を見るとpreprintもあったようなので、最初のissueに追記した

[Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #ReinforcementLearning #Self-SupervisedLearning #NeurIPS #read-later #Selected Papers/Blogs #Robotics #Locomotion #ContrastiveReinforcementLearning #Manipulation #Depth Issue Date: 2025-12-01 GPT Summary- 自己教師ありRLのスケーラビリティを改善するため、ネットワークの深さを1024層に増加させることで性能向上を実証。無監督の目標条件設定でエージェントが探索し、目標達成を学ぶ実験を行い、自己教師ありコントラストRLアルゴリズムの性能を向上させた。深さの増加は成功率を高め、行動の質的変化ももたらす。 Comment

元ポスト:

Loading…

Are Emergent Abilities in Large Language Models just In-Context Learning?, Sheng Lu+, ACL'24

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #In-ContextLearning #ACL #Memorization Issue Date: 2025-01-06 GPT Summary- 大規模言語モデルの「出現能力」は、インコンテキスト学習やモデルの記憶、言語知識の組み合わせから生じるものであり、真の出現ではないと提案。1000以上の実験を通じてこの理論を裏付け、言語モデルの性能を理解するための基礎を提供し、能力の過大評価を警告。

[Paper Note] Emergent Abilities of Large Language Models, Jason Wei+, TMLR'22

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-19 GPT Summary- 大規模言語モデルのスケーリングアップは性能を向上させるが、「出現能力」と呼ばれる予測不可能な現象が存在する。これは小型モデルにはない能力であり、さらなるスケーリングがモデルの能力を拡大する可能性を示唆している。 Comment

openreview: https://openreview.net/forum?id=yzkSU5zdwD

創発能力（最近この用語を目にする機会が減ったような気がする）

GEN1: Scaling Embodied Foundation Models to Mastery, Generalist AI Team, 2026.04

Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Blog #Generalization #Robotics #VisionLanguageActionModel #EmbodiedAI #Scalability #Initial Impression Notes Issue Date: 2026-04-05 Comment

元ポスト:

Loading…

シンプルなタスクにおいて99%の成功率を測り、従来」りも3倍高速で、臨機応変に（1時間未満の当該ロボットのデータによるチューニングを経て）対応可能なモデルを開発し、それはスケーリング則の恩恵に預かれるような効率的な事前学習モデルに基づいています、といった話らしい？

ざーっと読んでみたが、事前学習に関する細かな話は記述されていないように見え、どちらかというとmasteryに関する定義や関連するmetiicについての言及や、それがGEN-0と比較して今回どの程度改善したのか、といったマーケティングメッセージが多いように感じた。

Emergence of Human to Robot Transfer in VLAs, Physical Intelligence （π）, 2025.12

Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Selected Papers/Blogs #DataMixture #Robotics #VisionLanguageActionModel #4D (Video) #EmbodiedAI #KeyPoint Notes #EgocentricView #DomainGap #Author Thread-Post Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。

人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ（事前学習時点では人間の動画は含まれないことに注意）をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。

これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12