ContinualLearning
[Paper Note] SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization, Zhengxi Lu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #In-ContextLearning #CurriculumLearning #KeyPoint Notes #AgentSkills Issue Date: 2026-04-05 GPT Summary- エージェントのスキルをモデルのパラメータに内部化し、ゼロショットの自律的挙動を実現するために「SKILL0」というインコンテキスト強化学習フレームワークを提案。訓練ではスキル文脈を段階的に撤回し、オフラインでグループ化したスキルを用いて効率的なツール呼び出しを実現。実験結果では、SKILL0が標準のRLベースラインに対して顕著な改善を示し、文脈量も効率的に管理されることを確認。 Comment
元ポスト:
流し読みなので誤りがあるかもしれないが、
- [Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02
によって構築されたSKILLBANKによるスキルを、ポリシーの内部パラメータに学習させることができるか?を調査した研究で、内部パラメータに学習することで、検索とskillの読み込みによるcontextをモデルのパラメータに内在化させることでcontextを削減できる。外部スキルに完全に依存していたSkillRLとの対比として、内部パラメータにスキルを内在させるコンセプトからSKILL0と命名されていると思われる。
提案手法の概要としては下記Figure.2であるが、個人的には式(2), (3), (4), (5), (6)をみた方が、直感的に分かりやすいように感じた。最適化手法としてはGRPOだが、圧縮率を考慮した報酬設計と、カリキュラムの段階的な構築が肝であり、
- 圧縮率c_t \in (0, 1] の圧縮率の元、これまでのcontext h_t, retrieveされたスキルSをVision Encoderでエンコードし潜在表現V_tを得て[^1]; 式(2)
- V_tに基づいて次のaction a_tがポリシーによって生成される; 式(3)
- GRPO 式(5) が通常のRLVRに加えて、式(4)で表される圧縮率に基づいた報酬によって定義され実行される。要は、より高い圧縮率でcontext、およびretrieved skillを圧縮してタスクが成功したら報酬がより高くなる
という構造になっている。学習させる際は、カリキュラム学習を実施する(3.3節)。どのようにカリキュラム学習を成立させるかというと、学習をいくつかのstageに分けて、ポリシーに与えるSkillのContextを線形にdecayさせていく。これにより、徐々に与えられるContext量が減っていき、難易度が高くなるようなカリキュラムとなる。
3.3節、式4あたりが本提案手法のIn-Context Reinforcement Learning (ICRL)と命名される気持ちな気がしており、モデルはもともとIn-Context Leainingの元、スキルを実施できるが、それを与えるコンテキストを徐々に減らしてパラメータの内部に学習させていく、これをRLによって実現する(=ICRL)という気持ちなのかなと思われる。
[^1]: pixel-basedな潜在表現でレンダリングされたテキストに関する情報を扱えることが先行研究で示されており、画像としてエンコードした方がcontextを節約可能なのでこのような方法が採用されている。
ベースラインとなるSkillRLと比較して、個別のタスクレベルで見ると優劣は分かれるものの、ALFWorld [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10
, 様々なQAベンチマーク(Search-QAと呼称) [Paper Note] Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning, Bowen Jin+, COLM'25, 2025.03
での全体としてのパフォーマンスは向上し、コンテキストが節約されることでコストを大幅に削減できているような結果となっている。
3.3節の(a), (b)の部分は読めていないがこちらも時間があるときに読みたい。Skill Budgetの調整に絡んでいそうではある。
[Paper Note] Memento-Skills: Let Agents Design Agents, Huichi Zhou+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#AIAgents Issue Date: 2026-03-30 GPT Summary- Memento-Skillsは、継続的に学習可能なLLMエージェントシステムで、タスク特化型エージェントを自律的に構築・改善する。メモリベースの強化学習フレームワークを用い、再利用可能なスキルを永続的な記憶として保存。基本的なスキルから始まり、読み書き反省学習によって継続的に改善。エージェントは関連スキルを選択・更新し、自らの能力を向上させる。実験では、General AI Assistantsベンチマークで26.2%、Humanity's Last Examで116.2%の改善を示した。コードは公開中。 Comment
元ポスト:
[Paper Note] Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning, Huihan Liu+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Catastrophic Forgetting #Selected Papers/Blogs #Robotics #VisionLanguageActionModel #One-Line Notes Issue Date: 2026-03-06 GPT Summary- 継続学習はロボットの方策学習における課題で、VLAモデルは従来の小規模モデルに比べて忘却に対して頑健であることを発見。単純な経験再生が効果的で、小さなデータサイズでも忘却ゼロを達成可能。また、VLAは新タスク学習時に以前の知識を保持し、スキルの迅速な回復を可能にする。これにより、大規模事前訓練が継続学習のダイナミクスを変え、新しいスキルを獲得できるモデルを実現することが示唆される。 Comment
元ポスト:
解説:
モデルを大規模にすることで表現が安定し、継続学習による破壊的忘却が軽減される可能性が示された一方で、評価タスクが比較的単純でありVLAモデルでは既に解けている可能性があり、継続学習の評価ではなくzero-shotの能力の汎化を見ている可能性がある点には注意という話のようである。
[Paper Note] Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation, Tianci Xue+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#AIAgents #ComputerUse Issue Date: 2026-02-21 GPT Summary- ACuRLは、ゼロ人間データでエージェントを特定環境に適応させる自律カリキュラム強化学習フレームワーク。エージェントは初期体験を基にタスクを生成し、反復的な訓練を行う。CUAJudgeによる自動評価器が人間の判断と93%一致し、効果的な環境内外での学習を実現し、4-22%の性能向上を達成。少ない更新で堅牢な適応が可能であることが示された。 Comment
元ポスト:
[Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #memory #KeyPoint Notes #AgentSkills Issue Date: 2026-02-12 GPT Summary- SkillRLは、自動スキル発見と再帰的進化を通じて、LLMエージェントが過去の経験を活用し、高レベルの再利用可能な行動パターンを抽出できるようにする新たなフレームワークです。経験に基づく蒸留を用いて階層的なスキルライブラリを構築し、強化学習中にスキルがエージェントのポリシーと共進化します。このアプローチにより、推論の有用性が向上しつつ、トークンのフットプリントが削減されます。実験はSkillRLが最先端の性能を達成し、堅牢性を保つことを示しました。 Comment
alphaxiv blog: https://www.alphaxiv.org/abs/2602.08234
元ポスト:
AnthropicのAgent Skillsにinspireされた手法で、ポリシー側のパラメータをfreezeしてスキル群を更新していくような枠組みではなく、スキルが定義されたライブラリと、ポリシーそのものを同時に進化(スキル定義追加・更新+ポリシーの重みの更新)させていくことで、生のtrajectoryをmemoryから活用する方向性ではなく、動的にtrajectoryからスキルを構築し、構築されたスキルの使い方やretrieve方法をポリシーの内部パラメータとして組み込むことで、スキルとポリシーが共に進化していくようにしたい、それにより、生の経験(trajectory)を読み込んでadhocに利用するよりも、より一般化された形で経験を活用できるようにしたい、という話に見える。
提案手法はベースモデルを環境に対して適用しタスクに対する成功したtrajectoryと失敗したtrajectoryをまず収集する。収集したtrajectoryに対して、teacher modelで「タスクを完了するための戦略的なパターン」と「簡潔な失敗した要因」を生成させ、<スキル名, スキルの具体的なdescription, いつそのスキルを適用するか>によって定義されるスキルを定義する(従来手法は失敗したtrajectoryに関する情報は破棄していた)。スキルは2種類定義されており、汎用的に全てのタスクに適用可能なgenericなスキルと、特定のtask-specificなスキルの2種類によって構成される(この二つのスキルの集合がSKILLBANKと呼ばれる)。genericなスキルは常にポリシーのinstructionに含められ、task-specificなスキルはタスクを実行するたびに意味的な関連性に基づいてtop-kがretrieveされ利用される。これにより初期のSKILLBANKを構築する。
続いて、ベースモデルを学習して賢くしていきたい。この時初期のポリシー(=ベースモデル)はスキルのretrieve + 使い方を知らないため、teacher modelによってスキルを含めたtrajectoryを生成しSFTをすることでコールドスタート時に適用する。その後、オンポリシーRL(GRPO)を用いて、スキルをretrieveし、retrieveしたスキルを活用してタスクを完了し、完了したタスクからrewardが計算されポリシーを更新していく。この時、GRPOのエポックにおいてvalidationフェーズを用意し、特定の閾値以下のsuccess rateを持つタスクに関しては、teacher modelが失敗したtrajectoryに基づいてSKILLBANKを更新することでSKILLBANKを進化させることで性能を改善する、といった話に見える。
genericなスキルは常にinstructionに含まれるためretrieveする必要がないが、task specificなスキルはtask descriptionとskill定義のembeddieg空間上で類似度を測りtop-kが抽出される。embeddingを取得する具体的なモデルについては言及がないように見える?
[Paper Note] SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization, Jiarui Yuan+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #ReinforcementLearning #Evaluation #SelfImprovement #PostTraining #read-later #Selected Papers/Blogs #FactualKnowledge #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-10 GPT Summary- 自己進化には、エージェントが生涯学習者として新しい経験を内面化し、将来の問題解決に活かすことが必要。しかし、以前の知識の混在と推論の複雑さが測定を妨げる。SE-Benchという診断環境を導入し、エージェントが新しいAPIドキュメントを使用することで評価を行い、知識の保持と内面化の新たな洞察を得た。特に「クローズドブック訓練」が知識保持に必要であり、標準的な強化学習が新しい知識を内面化できないことを示す。SE-Benchは知識内面化のための厳密なプラットフォームを提供する。 Comment
元ポスト:
関数をリネームし関連するAPIドキュメント(今回はnumpy)を更新し、Claudeを用いてテストケースを生成し、複数のLLMのVotingで検証可能かどうかを判定した後人手による検証を行いフィルタリングする。テスト時にクローズドブックの設定で評価することで、インタフェースに関するモデルのFactual Knowledgeを更新しないとモデルはテストケースに正解できず、モデルが内部パラメータに保持するFactual Knowledgeをどれだけ適切に保持、更新しているかを評価するようなコントロールされた環境下でのベンチマークに見える。
APIに関するドキュメントの文脈をしっかり変更しないと元のモデルが文脈から過去の関数名との対応関係を類推できてしまいそうだが、その辺はどうなっているのだろうか。
[Paper Note] Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories, Sidi Lu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Catastrophic Forgetting #memory #Test-time Learning Issue Date: 2026-02-06 GPT Summary- 本研究では、モデルパラメータから柔軟にオフロードまたは統合できる新しいパラメトリックメモリ「Locas」を提案し、効率的な継続学習を実現します。Locasは二層MLP設計とGLU-FFN構造の2つのバリエーションを持ち、既存モデルに簡単に統合可能です。低ランクのFFNスタイルのメモリの適切な初期化が速い収束と破滅的な忘却防止に重要であることを示します。PG-19言語モデリングやLoCoMoタスクでの実験結果は、Locasが過去の情報をパラメトリックに保存し、モデルの性能を維持する能力を示しています。 Comment
元ポスト:
[Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #Catastrophic Forgetting #read-later #Selected Papers/Blogs #One-Line Notes #SelfDistillation #Author Thread-Post Issue Date: 2026-01-29 GPT Summary- 自己蒸留ファインチューニング(SDFT)は、デモンストレーションからオンポリシー学習を可能にし、従来の手法を上回って新しいスキルを獲得しつつ既存の能力を維持。文脈内学習を活かし、壊滅的忘却を削減しながら複数のスキルを時間と共に蓄積するモデルを実現。 Comment
元ポスト:
著者ポスト:
現在のポリシーにおいてクエリ q とexpertによるdemonstraction c によってポリシーを条件づけたモデルを教師モデルとみなし、現在のポリシーにおいてクエリだけで条件付けたモデル生徒モデルとした時に、教師モデルの分布と生徒モデルの分布のreverse KL Divergenceが最小化されるように生徒モデルを学習する((式1))。すなわち、次のポリシーの更新に対する学習シグナルを得るためにモデルのIn-Context Learningを活用している。
上記の見方はstudent-teacherにおける蒸留という観点で見た場合だが、TRPOに基づく定式化からスタートして、expertが作成したdemonstrationによって導出されるimplicitなreward functionを最大化するInverse Reinforcement Learningとして解釈し、式変形を繰り返していくと、前述のICLによる勾配と、オンポリシーRLでのポリシー最適化による勾配が一致する(式2, 式6)。
ポイント解説:
[Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs #Initial Impression Notes #Test Time Training (TTT) Issue Date: 2026-01-23 GPT Summary- LLMを用いたテスト時トレーニングによる発見(TTT-Discover)を提案し、特定の科学的問題に対し優れた解を生成。強化学習を通じて、独自の経験を持つLLMが問題解決に集中。数学から生物学までの様々な課題で新たな最先端を達成し、成果はオープンソースのモデルを用いて再現可能。 Comment
test timeにモデルが解空間を探索するようにweightをupdateすることを(RLで)学習し、平均的に良いsolutionではなくbestなsolutionを見つけるような目的関数を用いることで、scientic discoveryの能力を向上
[Paper Note] End-to-End Test-Time Training for Long Context, Arnuv Tandon+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #memory #Test Time Training (TTT) #Author Thread-Post Issue Date: 2025-12-30 GPT Summary- 長い文脈の言語モデリングを継続学習として定式化し、スライディングウィンドウ型の注意機構を用いたトランスフォーマーで次トークン予測を通じて文脈を圧縮。メタ学習によって初期化を改善し、テスト時訓練(TTT)の一形態を実現。3Bパラメータのモデルで1640億トークン学習し、文脈長のスケーリング特性が向上。推論レイテンシが一定で、128Kの文脈では全注意より2.7倍速い性能を示す。 Comment
元ポスト:
著者ポスト:
TTT-E2E
[Paper Note] Continual Learning via Sparse Memory Finetuning, Jessy Lin+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Catastrophic Forgetting #memory Issue Date: 2025-10-22 GPT Summary- スパースメモリファインチューニングを用いて、破滅的忘却を軽減しながら継続的学習を可能にするモデルを提案。新しい知識を学習する際、メモリスロットの更新を制限することで、既存の能力との干渉を減少。実験では、スパースメモリファインチューニングが他の手法に比べて著しく少ない忘却を示し、継続的学習における有望なアプローチであることを示した。 Comment
元ポスト:
関連:
- [Paper Note] Memory Layers at Scale, Vincent-Pierre Berges+, ICLR'25, 2024.12
ポイント解説:
Train separately, merge together: Modular post-training with mixture-of-experts, Ai2, 2026.04
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-04-21 Comment
元ポスト:
関連:
- [Paper Note] FlexOlmo: Open Language Models for Flexible Data Use, Weijia Shi+, NeurIPS'25
Defining Continual Learning, Ilija Lichkovski, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #Post #read-later Issue Date: 2026-04-17 Comment
元ポスト:
The Continual Learning Problem, Jessy Lin, 2025.10
Paper/Blog Link My Issue
#Article #Blog #read-later Issue Date: 2025-10-23 Comment
元ポスト:
Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Comment
元ポスト:
関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and
In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10
(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)
とても勉強になる!AIに代替されない20%, 1%になるには果たして
所見:
