ContinualLearning
[Paper Note] Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning, Huihan Liu+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Catastrophic Forgetting #Selected Papers/Blogs #Robotics #VisionLanguageActionModel #One-Line Notes Issue Date: 2026-03-06 GPT Summary- 継続学習はロボットの方策学習における課題で、VLAモデルは従来の小規模モデルに比べて忘却に対して頑健であることを発見。単純な経験再生が効果的で、小さなデータサイズでも忘却ゼロを達成可能。また、VLAは新タスク学習時に以前の知識を保持し、スキルの迅速な回復を可能にする。これにより、大規模事前訓練が継続学習のダイナミクスを変え、新しいスキルを獲得できるモデルを実現することが示唆される。 Comment
元ポスト:
解説:
モデルを大規模にすることで表現が安定し、継続学習による破壊的忘却が軽減される可能性が示された一方で、評価タスクが比較的単純でありVLAモデルでは既に解けている可能性があり、継続学習の評価ではなくzero-shotの能力の汎化を見ている可能性がある点には注意という話のようである。
[Paper Note] Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation, Tianci Xue+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#AIAgents #ComputerUse Issue Date: 2026-02-21 GPT Summary- ACuRLは、ゼロ人間データでエージェントを特定環境に適応させる自律カリキュラム強化学習フレームワーク。エージェントは初期体験を基にタスクを生成し、反復的な訓練を行う。CUAJudgeによる自動評価器が人間の判断と93%一致し、効果的な環境内外での学習を実現し、4-22%の性能向上を達成。少ない更新で堅牢な適応が可能であることが示された。 Comment
元ポスト:
[Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #memory #KeyPoint Notes #AgentSkills Issue Date: 2026-02-12 GPT Summary- SkillRLは、自動スキル発見と再帰的進化を通じて、LLMエージェントが過去の経験を活用し、高レベルの再利用可能な行動パターンを抽出できるようにする新たなフレームワークです。経験に基づく蒸留を用いて階層的なスキルライブラリを構築し、強化学習中にスキルがエージェントのポリシーと共進化します。このアプローチにより、推論の有用性が向上しつつ、トークンのフットプリントが削減されます。実験はSkillRLが最先端の性能を達成し、堅牢性を保つことを示しました。 Comment
alphaxiv blog: https://www.alphaxiv.org/abs/2602.08234
元ポスト:
AnthropicのAgent Skillsにinspireされた手法で、ベースモデルを環境に対して適用しタスクに対する成功したtrajectoryと失敗したtrajectoryをまず収集する。収集したtrajectoryに対して、teacher modelで「タスクを完了するための戦略的なパターン」と「簡潔な失敗した要因」を生成させ、<スキル名, スキルの具体的なdescription, いつそのスキルを適用するか>によって定義されるスキルを定義する(従来手法は失敗したtrajectoryに関する情報は破棄していた)。スキルは2種類定義されており、汎用的に全てのタスクに適用可能なgenericなスキルと、特定のtask-specificなスキルの2種類によって構成される(この二つのスキルの集合がSKILLBANKと呼ばれる)。genericなスキルは常にポリシーのinstructionに含められ、task-specificなスキルはタスクを実行するたびに意味的な関連性に基づいてtop-kがretrieveされ利用される。これにより初期のSKILLBANKを構築する。
続いて、ベースモデルを学習して賢くしていきたい。この時初期のポリシー(=ベースモデル)はスキルのretrieve + 使い方を知らないため、teacher modelによってスキルを含めたtrajectoryを生成しSFTをすることでコールドスタート時に適用する。その後、オンポリシーRL(GRPO)を用いて、スキルをretrieveし、retrieveしたスキルを活用してタスクを完了し、完了したタスクからrewardが計算されポリシーを更新していく。この時、GRPOのエポックにおいてvalidationフェーズを用意し、特定の閾値以下のsuccess rateを持つタスクに関しては、teacher modelが失敗したtrajectoryに基づいてSKILLBANKを更新することでSKILLBANKを進化させることで性能を改善する、といった話に見える。
[Paper Note] SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization, Jiarui Yuan+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #ReinforcementLearning #Evaluation #SelfImprovement #PostTraining #read-later #Selected Papers/Blogs #FactualKnowledge #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-10 GPT Summary- 自己進化には、エージェントが生涯学習者として新しい経験を内面化し、将来の問題解決に活かすことが必要。しかし、以前の知識の混在と推論の複雑さが測定を妨げる。SE-Benchという診断環境を導入し、エージェントが新しいAPIドキュメントを使用することで評価を行い、知識の保持と内面化の新たな洞察を得た。特に「クローズドブック訓練」が知識保持に必要であり、標準的な強化学習が新しい知識を内面化できないことを示す。SE-Benchは知識内面化のための厳密なプラットフォームを提供する。 Comment
元ポスト:
関数をリネームし関連するAPIドキュメント(今回はnumpy)を更新し、Claudeを用いてテストケースを生成し、複数のLLMのVotingで検証可能かどうかを判定した後人手による検証を行いフィルタリングする。テスト時にクローズドブックの設定で評価することで、インタフェースに関するモデルのFactual Knowledgeを更新しないとモデルはテストケースに正解できず、モデルが内部パラメータに保持するFactual Knowledgeをどれだけ適切に保持、更新しているかを評価するようなコントロールされた環境下でのベンチマークに見える。
APIに関するドキュメントの文脈をしっかり変更しないと元のモデルが文脈から過去の関数名との対応関係を類推できてしまいそうだが、その辺はどうなっているのだろうか。
[Paper Note] Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories, Sidi Lu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Catastrophic Forgetting #memory #Test-time Learning Issue Date: 2026-02-06 GPT Summary- 本研究では、モデルパラメータから柔軟にオフロードまたは統合できる新しいパラメトリックメモリ「Locas」を提案し、効率的な継続学習を実現します。Locasは二層MLP設計とGLU-FFN構造の2つのバリエーションを持ち、既存モデルに簡単に統合可能です。低ランクのFFNスタイルのメモリの適切な初期化が速い収束と破滅的な忘却防止に重要であることを示します。PG-19言語モデリングやLoCoMoタスクでの実験結果は、Locasが過去の情報をパラメトリックに保存し、モデルの性能を維持する能力を示しています。 Comment
元ポスト:
[Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #Catastrophic Forgetting #read-later #Selected Papers/Blogs #One-Line Notes #SelfDistillation Issue Date: 2026-01-29 GPT Summary- 自己蒸留ファインチューニング(SDFT)は、デモンストレーションからオンポリシー学習を可能にし、従来の手法を上回って新しいスキルを獲得しつつ既存の能力を維持。文脈内学習を活かし、壊滅的忘却を削減しながら複数のスキルを時間と共に蓄積するモデルを実現。 Comment
元ポスト:
著者ポスト:
現在のポリシーにおいてクエリ q とexpertによるdemonstraction c によってポリシーを条件づけたモデルを教師モデルとみなし、現在のポリシーにおいてクエリだけで条件付けたモデル生徒モデルとした時に、教師モデルの分布と生徒モデルの分布のreverse KL Divergenceが最小化されるように生徒モデルを学習する((式1))。すなわち、次のポリシーの更新に対する学習シグナルを得るためにモデルのIn-Context Learningを活用している。
上記の見方はstudent-teacherにおける蒸留という観点で見た場合だが、TRPOに基づく定式化からスタートして、expertが作成したdemonstrationによって導出されるimplicitなreward functionを最大化するInverse Reinforcement Learningとして解釈し、式変形を繰り返していくと、前述のICLによる勾配と、オンポリシーRLでのポリシー最適化による勾配が一致する(式2, 式6)。
ポイント解説:
[Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs #Initial Impression Notes #Test Time Training (TTT) Issue Date: 2026-01-23 GPT Summary- LLMを用いたテスト時トレーニングによる発見(TTT-Discover)を提案し、特定の科学的問題に対し優れた解を生成。強化学習を通じて、独自の経験を持つLLMが問題解決に集中。数学から生物学までの様々な課題で新たな最先端を達成し、成果はオープンソースのモデルを用いて再現可能。 Comment
test timeにモデルが解空間を探索するようにweightをupdateすることを(RLで)学習し、平均的に良いsolutionではなくbestなsolutionを見つけるような目的関数を用いることで、scientic discoveryの能力を向上
[Paper Note] End-to-End Test-Time Training for Long Context, Arnuv Tandon+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #memory #Test Time Training (TTT) Issue Date: 2025-12-30 GPT Summary- 長コンテキスト言語モデリングを継続的学習の問題として定式化し、トランスフォーマーのスライディングウィンドウアテンションを用いて次トークン予測を行う。メタ学習を用いてモデルの初期化を改善し、テスト時にエンドツーエンドで学習を実施。164Bトークンで訓練された3Bモデルは、フルアテンションに匹敵するスケーリング特性を持ちながら、128Kコンテキスト時に2.7倍の推論速度を実現。コードは公開済み。 Comment
元ポスト:
著者ポスト:
TTT-E2E
[Paper Note] Continual Learning via Sparse Memory Finetuning, Jessy Lin+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Catastrophic Forgetting #memory Issue Date: 2025-10-22 GPT Summary- スパースメモリファインチューニングを用いて、破滅的忘却を軽減しながら継続的学習を可能にするモデルを提案。新しい知識を学習する際、メモリスロットの更新を制限することで、既存の能力との干渉を減少。実験では、スパースメモリファインチューニングが他の手法に比べて著しく少ない忘却を示し、継続的学習における有望なアプローチであることを示した。 Comment
元ポスト:
関連:
- [Paper Note] Memory Layers at Scale, Vincent-Pierre Berges+, ICLR'25, 2024.12
ポイント解説:
The Continual Learning Problem, Jessy Lin, 2025.10
Paper/Blog Link My Issue
#Article #Blog #read-later Issue Date: 2025-10-23 Comment
元ポスト:
