Test-time Learning
[Paper Note] Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories, Sidi Lu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Catastrophic Forgetting #memory #ContinualLearning Issue Date: 2026-02-06 GPT Summary- 本研究では、モデルパラメータから柔軟にオフロードまたは統合できる新しいパラメトリックメモリ「Locas」を提案し、効率的な継続学習を実現します。Locasは二層MLP設計とGLU-FFN構造の2つのバリエーションを持ち、既存モデルに簡単に統合可能です。低ランクのFFNスタイルのメモリの適切な初期化が速い収束と破滅的な忘却防止に重要であることを示します。PG-19言語モデリングやLoCoMoタスクでの実験結果は、Locasが過去の情報をパラメトリックに保存し、モデルの性能を維持する能力を示しています。 Comment
元ポスト:
[Paper Note] Agentic Reasoning for Large Language Models, Tianxin Wei+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #Planning #Reasoning #SelfImprovement #memory #One-Line Notes Issue Date: 2026-01-23 GPT Summary- エージェンティック推論は、LLMを自律的エージェントとして再構築し、計画や行動を行う新たなアプローチを提供します。本調査では、推論を基盤、自己進化、集合的の三つの次元に整理し、それぞれの特性と相互作用を探ります。また、文脈内推論とポストトレーニング推論の違いを示し、さまざまな現実世界でのアプリケーションをレビューします。この研究は、思考と行動を結びつける統一的なロードマップを提示し、今後の課題と方向性を概説します。 Comment
元ポスト:
agentのreasoning周りに特化したsurveyで基本的なsingle agentとしてのplanning, tool use, searchだけでなく、self evolving, memory, multi agent reasoningなど広範なトピックが網羅されているとのこと。
[Paper Note] Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory, Tianxin Wei+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Evaluation #memory Issue Date: 2026-02-05 GPT Summary- 状態性はLLMエージェントの長期的計画に不可欠であり、メモリ管理の進化が未探索である点に焦点を当てる。本研究では、Evo-Memoryという自己進化メモリの評価フレームワークを提案し、LLMが累積した経験を動的に処理する能力を向上させる。具体的には、タスクストリームを構造化し、メモリの検索・適応を要求。10のメモリモジュールと多様なデータセットで評価し、経験再利用のためのExpRAGおよび推論を統合するReMemパイプラインを提案、継続的な改善を実現する。 Comment
元ポスト:
[Paper Note] Titans: Learning to Memorize at Test Time, Ali Behrouz+, NeurIPS'25, 2024.12
Paper/Blog Link My Issue
#NeuralNetwork #NLP #LongSequence #Architecture #NeurIPS #read-later #Selected Papers/Blogs #memory Issue Date: 2025-11-05 GPT Summary- 再帰モデルと注意機構を組み合わせた新しいニューラル長期メモリモジュールを提案。これにより、短期的な依存関係を正確にモデル化しつつ、長期的な記憶を保持。新アーキテクチャ「Titans」は、言語モデリングや常識推論などのタスクで従来のモデルよりも優れた性能を示し、2Mを超えるコンテキストウィンドウサイズにも対応可能。 Comment
元ポスト:
解説:
[Paper Note] ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory, Matthew Ho+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#MachineLearning #NLP #Abstractive #LanguageModel #Reasoning #Generalization #memory #One-Line Notes Issue Date: 2025-10-13 GPT Summary- LLMは推論時に外部メモリを活用し、概念レベルのメモリを導入することで、再利用可能でスケーラブルな知識の保存を実現。これにより、関連する概念を選択的に取得し、テスト時の継続的学習を可能にする。評価はARC-AGIベンチマークで行い、メモリなしのベースラインに対して7.5%の性能向上を達成。動的なメモリ更新が自己改善を促進することを示唆。 Comment
元ポスト:
ARC-AGIでしか評価されていないように見える。
[Paper Note] ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory, Siru Ouyang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #memory #One-Line Notes Issue Date: 2025-09-30 GPT Summary- ReasoningBankという新しいメモリフレームワークを提案し、エージェントが成功体験と失敗体験から推論戦略を抽出できるようにする。テスト時には関連メモリを活用し、学びを統合することで能力を向上させる。さらに、メモリを意識したテスト時スケーリング(MaTTS)を導入し、エージェントの体験を多様化・拡大する。これにより、ウェブブラウジングやソフトウェアエンジニアリングのベンチマークで既存のメモリメカニズムを上回る効果と効率を実現。メモリ駆動の経験スケーリングを新たな次元として確立し、エージェントの自己進化を促進する。 Comment
元ポスト:
メモリを良質なものに更新、蓄積し続けることで性能がスケールするのであれば、新たなtest-time scalingのパラダイムになりそう。
ざっくり読んでみると本研究ではこのパラダイムのことをTest-Time Learningと呼称している(先行研究が2つ引用されているがざっと見た限りでは両者はそう言った呼称はしていないように見えた)。
すなわち、クエリのストリームが到達した時に将来のクエリを見ることはできずに、過去のクエリに対するtrajectoryや、self-verificationなどによってのみラベル無しで自己進化していくパラダイムのこと。
関連:
- [Paper Note] M+: Extending MemoryLLM with Scalable Long-Term Memory, Yu Wang+, ICML'25, 2025.02
openreview: https://openreview.net/forum?id=jL7fwchScm
[Paper Note] Memento: Fine-tuning LLM Agents without Fine-tuning LLMs, Huichi Zhou+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #memory Issue Date: 2025-09-02 GPT Summary- 本論文では、ファインチューニングを必要としない新しい学習パラダイムを提案し、メモリベースのオンライン強化学習を通じて低コストでの継続的な適応を実現します。これをメモリ拡張マルコフ決定過程(M-MDP)として形式化し、行動決定のためのニューラルケース選択ポリシーを導入。エージェントモデル「Memento」は、GAIA検証で87.88%の成功率を達成し、DeepResearcherデータセットでも最先端の手法を上回る性能を示しました。このアプローチは、勾配更新なしでのリアルタイム学習を可能にし、機械学習の進展に寄与します。 Comment
元ポスト:
元ポスト:
Knowledge Flow: Scaling Reasoning Beyond the Context Limit, Zhuang+, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Test-Time Scaling #read-later #One-Line Notes Issue Date: 2025-10-21 Comment
元ポスト:
モデルのロールアウトの結果からattemptから知識リストをiterativeに更新(新たな知識を追加, 古い知識を削除 or 両方)していくことによって、過去のattemptからのinsightを蓄積し性能を改善するような新たなテストタイムスケーリングの枠組みな模様。sequential test-time scalingなどとは異なり、複数のattemptによって知識リストを更新することでスケールさせるので、context windowの制約を受けない、といった話な模様。LLM AgentにおけるTest-time learningとかなり類似したコンセプトに見える。
