memory
[Paper Note] CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning, Zhiyuan Lu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #RAG(RetrievalAugmentedGeneration) #LongSequence #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- CorpusQAは、最大1,000万トークンに対応する新しいベンチマークで、広範な非構造的テキストに対する全体的な推論を求める。これは、プログラムによって保証された真実の回答を持つ複雑なクエリを生成する革新的なデータ合成フレームワークを用いており、LLMの長期コンテキスト推論能力を向上させることが実証された。一方で、長い入力に対しては現行のリトリーバーシステムが限界を迎え、メモリ拡張型エージェントアーキテクチャがより効果的な解決策となる可能性が示唆された。 Comment
元ポスト:
10Mコンテキストまで性能を測定可能なベンチマークらしく、結果を見ると以下のようになっている。128KコンテキストではGPT5に軍配が上がり、1M級のコンテキストになるとGeminiがやはり強い(これは昔からそうでFiction.liveベンチなどでも示されていた)。
10Mコンテキスト級ではLLMのコンテキストウィンドウのみでは対応不可なので、RAGやMemory Agextでベンチマーキングされているが、明確にAgentの方が性能が良い。ベンチマークの細かな作り方や、harnessなど、具体的にどのような設定で実験されているのか気になる。
[Paper Note] Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents, Yi Yu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #One-Line Notes Issue Date: 2026-01-14 GPT Summary- AgeMemは、LTMとSTMをエージェントのポリシーに統合し、メモリ操作を自律的に管理できるフレームワークを提案。3段階の強化学習で訓練し、5つのベンチマークでメモリ拡張性能が向上。タスクパフォーマンスと効率的なコンテキスト使用を実現。 Comment
元ポスト:
従来のAI Agentsにおけるメモリ管理は、short / long term memory [^1] の観点で見ると、双方を別々のコンポーネントとして扱われてきたが(short term memoryはRAGコンポーネント, long term memoryはagentic memoryの文脈で別々に研究され、trigger-based(決められたタイミングで決められた操作を実行する)、agent-based(何を・どのように格納するかを管理するエージェントを構築する))これらはヒューリスティックなルール (Figure1 left) や異なるexpertなモデルを必要とする(Figure1 (middle))ことからシステムのアーキテクチャを複雑にしているし(Figure1 left and middle)、それぞれが独立に構築され疎結合であるため、sub-optimalな性能しか出せておらず、long-horizonな実行を考えたときに双方を統合的に扱う枠組みが必要不可欠であると考えられるためそれが可能な枠組みを提案した、という話に見える。
[^1]: short memoryは現在のinput context全体を指し、long term memoryは永続的に保持されるユーザやtask specificなメモリのこと
[Paper Note] EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning, Chuanrui Hu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #Reasoning #ContextEngineering #LongHorizon Issue Date: 2026-01-13 GPT Summary- EverMemOSは、長期的なインタラクティブエージェントのための自己組織化メモリオペレーティングシステムで、エピソディックトレースをMemCellに変換し、ユーザープロファイルを更新することで一貫した行動を維持します。実験により、メモリ拡張推論タスクで最先端のパフォーマンスを達成し、ユーザープロファイリングやチャット指向の能力を示すケーススタディも報告しています。 Comment
元ポスト:
[Paper Note] SimpleMem: Efficient Lifelong Memory for LLM Agents, Jiaqi Liu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-09 GPT Summary- LLMエージェントのために、効率的なメモリシステムSimpleMemを提案。三段階のパイプラインで、意味的構造圧縮、再帰的メモリ統合、適応的クエリ認識型検索を実施し、情報密度とトークン利用を最大化。実験により、精度が26.4%向上し、トークン消費が最大30倍削減されることを確認。 Comment
pj page: https://aiming-lab.github.io/SimpleMem-Page/
ポイント解説:
追加の学習などが不要で、かつ高性能・低コストで動作するRetrieval basedなmemory(特定のLLMに依存しない点も良い)であり、実務的に導入が容易であり、実用性が高いため重要研究に見える。
[Paper Note] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents, Dongming Jiang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #AIAgents Issue Date: 2026-01-09 GPT Summary- MAGMAは、意味的、時間的、因果的、エンティティ情報を直交するグラフで表現するマルチグラフエージェントメモリアーキテクチャを提案。これにより、クエリに適応した選択と構造化されたコンテキストの構築が可能になり、透明な推論経路を提供。実験結果から、MAGMAは長期的な推論タスクで最先端のエージェントメモリシステムを上回る性能を示した。 Comment
元ポスト:
[Paper Note] End-to-End Test-Time Training for Long Context, Arnuv Tandon+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #Test-time Learning #ContinualLearning Issue Date: 2025-12-30 GPT Summary- 長コンテキスト言語モデリングを継続的学習の問題として定式化し、トランスフォーマーのスライディングウィンドウアテンションを用いて次トークン予測を行う。メタ学習を用いてモデルの初期化を改善し、テスト時にエンドツーエンドで学習を実施。164Bトークンで訓練された3Bモデルは、フルアテンションに匹敵するスケーリング特性を持ちながら、128Kコンテキスト時に2.7倍の推論速度を実現。コードは公開済み。 Comment
元ポスト:
著者ポスト:
TTT-E2E
[Paper Note] QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management, Weizhou Shen+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #LongSequence #Selected Papers/Blogs #Entropy Issue Date: 2025-12-24 GPT Summary- QwenLong-L1.5は、長文コンテキスト推論能力を向上させるためのポストトレーニング手法を導入したモデルです。主な技術革新には、長文コンテキストデータ合成パイプライン、安定化強化学習、メモリ拡張アーキテクチャが含まれます。これにより、高品質なトレーニングデータを生成し、長距離推論能力を実現。QwenLong-L1.5は、GPT-5やGemini-2.5-Proと同等の性能を達成し、超長文タスクでのパフォーマンスも向上させました。 Comment
元ポスト:
long contextの能力を大幅に向上させたQwen。主要OpenWeightモデルでmemoryアーキテクチャを備えたものを見るのは初めてかも・・・?
[Paper Note] Memory in the Age of AI Agents, Yuyang Hu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Survey #Pocket #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #ContextEngineering Issue Date: 2025-12-17 GPT Summary- エージェントメモリの研究が急速に進展する中、既存の研究は動機や実装、評価プロトコルにおいて多様であり、メモリ用語の曖昧さが問題となっている。本研究は、エージェントメモリの範囲を明確にし、LLMメモリや情報検索強化生成(RAG)などの関連概念を区別する。形式、機能、ダイナミクスの観点からエージェントメモリを検討し、実現形態や分類法を提案。さらに、メモリベンチマークやオープンソースフレームワークの要約を提供し、今後の研究の方向性を示す。これにより、エージェントインテリジェンスの設計におけるメモリの再考を促すことを目指す。 Comment
元ポスト:
[Paper Note] It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization, Ali Behrouz+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Attention Issue Date: 2025-12-07 GPT Summary- 効率的なアーキテクチャ設計は基盤モデルの能力向上に重要であり、注意バイアスを活用した連想記憶モジュールを提案。既存のシーケンスモデルの目的を超えた新しい注意バイアス構成と忘却ゲートを導入し、深層学習アーキテクチャを設計するフレームワークMirasを提示。Mirasを用いて新しいシーケンスモデルMoneta、Yaad、Memoraを開発し、特定のタスクでトランスフォーマーを上回る性能を示した。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=gZyEJ2kMow
解説:
[Paper Note] Accumulating Context Changes the Beliefs of Language Models, Jiayi Geng+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Beliefs Issue Date: 2025-11-06 GPT Summary- 言語モデル(LM)アシスタントは、ブレインストーミングや研究での使用が増加しているが、コンテキストの蓄積に伴い信念プロファイルが変化するリスクがある。本研究では、対話やテキスト処理を通じて信念がどのように変化するかを調査し、GPT-5が道徳的ジレンマに関する議論後に54.7%、Grok 4が政治的問題に関して27.2%の信念変化を示すことを発見した。また、ツール使用による行動変化も分析し、信念の変化が行動に反映されることを示唆している。これにより、長時間の対話や読書が信頼性に影響を与える可能性があることが明らかになった。 Comment
pj page: https://lm-belief-change.github.io/
元ポスト:
エコーチャンバーが増強されそう
[Paper Note] Titans: Learning to Memorize at Test Time, Ali Behrouz+, NeurIPS'25, 2024.12
Paper/Blog Link My Issue
#NeuralNetwork #Pocket #NLP #LongSequence #Architecture #NeurIPS #read-later #Selected Papers/Blogs #Test-time Learning Issue Date: 2025-11-05 GPT Summary- 再帰モデルと注意機構を組み合わせた新しいニューラル長期メモリモジュールを提案。これにより、短期的な依存関係を正確にモデル化しつつ、長期的な記憶を保持。新アーキテクチャ「Titans」は、言語モデリングや常識推論などのタスクで従来のモデルよりも優れた性能を示し、2Mを超えるコンテキストウィンドウサイズにも対応可能。 Comment
元ポスト:
解説:
[Paper Note] MemER: Scaling Up Memory for Robot Control via Experience Retrieval, Ajay Sridhar+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #VisionLanguageModel #Robotics #VisionLanguageActionModel #One-Line Notes #LongHorizon Issue Date: 2025-10-27 GPT Summary- 本研究では、ロボットポリシーに人間のような記憶能力を与えるための階層的ポリシーフレームワークを提案。高レベルポリシーが関連するキーフレームを選択し、低レベルポリシーに指示を生成することで、長期的な依存関係を効率的に推論。実験により、提案手法MemERが従来の方法を上回る性能を示した。 Comment
元ポスト:
pj page: https://jen-pan.github.io/memer/
動画ストリーム全てを常にinputするのではなくキーフレームは限られているので、VLMにキーフレームをメモリ上で管理するような役割を与え、instructionと実現するためのサブタスクに応じて動的に必要な情報のみをVLAに与えることでlong horizonでのスケーラビリティを改善する、みたいな話らしい
[Paper Note] Memory Layers at Scale, Vincent-Pierre Berges+, ICLR'25, 2024.12
Paper/Blog Link My Issue
#Pocket #LanguageModel #Transformer #Architecture #ICLR #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-23 GPT Summary- メモリ層は、計算負荷を増やさずにモデルに追加のパラメータを加えるための学習可能な検索メカニズムを使用し、スパースに活性化されたメモリ層が密なフィードフォワード層を補完します。本研究では、改良されたメモリ層を用いた言語モデルが、計算予算が2倍の密なモデルや同等の計算とパラメータを持つエキスパート混合モデルを上回ることを示し、特に事実に基づくタスクでの性能向上が顕著であることを明らかにしました。完全に並列化可能なメモリ層の実装とスケーリング法則を示し、1兆トークンまでの事前学習を行った結果、最大8Bのパラメータを持つベースモデルと比較しました。 Comment
openreview: https://openreview.net/forum?id=ATqGm1WyDj
transformerにおけるFFNをメモリレイヤーに置き換えることで、パラメータ数を増やしながら計算コストを抑えるようなアーキテクチャを提案しているようである。メモリレイヤーは、クエリqを得た時にtop kのkvをlookupし(=ここで計算対象となるパラメータがスパースになる)、kqから求めたattention scoreでvを加重平均することで出力を得る。Memory+というさらなる改良を加えたアーキテクチャでは、入力に対してsiluによるgatingとlinearな変換を追加で実施することで出力を得る。
denseなモデルと比較して性能が高く、メモリパラメータを増やすと性能がスケールする。
[Paper Note] Continual Learning via Sparse Memory Finetuning, Jessy Lin+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Catastrophic Forgetting #ContinualLearning Issue Date: 2025-10-22 GPT Summary- スパースメモリファインチューニングを用いて、破滅的忘却を軽減しながら継続的学習を可能にするモデルを提案。新しい知識を学習する際、メモリスロットの更新を制限することで、既存の能力との干渉を減少。実験では、スパースメモリファインチューニングが他の手法に比べて著しく少ない忘却を示し、継続的学習における有望なアプローチであることを示した。 Comment
元ポスト:
関連:
- [Paper Note] Memory Layers at Scale, Vincent-Pierre Berges+, ICLR'25, 2024.12
ポイント解説:
[Paper Note] To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models, Eran Malach+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #LongSequence #SSM (StateSpaceModel) #Selected Papers/Blogs #Generalization Issue Date: 2025-10-18 GPT Summary- 状態空間モデル(SSM)は、長文生成において効率的な代替手段であるが、真の長文生成問題を解決できないことが明らかにされた。外部ツールへのインタラクティブなアクセスを許可することで、この制限を克服できることが示され、SSMは問題依存のトレーニングデータを用いて任意の問題に一般化できる。ツールを強化したSSMは、算術や推論、コーディングタスクにおいて優れた長さの一般化を達成し、トランスフォーマーに対する効率的な代替手段となる可能性がある。 Comment
元ポスト:
著者ポスト:
所見:
解説:
[Paper Note] ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory, Matthew Ho+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #Abstractive #LanguageModel #Reasoning #Generalization #One-Line Notes #Test-time Learning Issue Date: 2025-10-13 GPT Summary- LLMは推論時に外部メモリを活用し、概念レベルのメモリを導入することで、再利用可能でスケーラブルな知識の保存を実現。これにより、関連する概念を選択的に取得し、テスト時の継続的学習を可能にする。評価はARC-AGIベンチマークで行い、メモリなしのベースラインに対して7.5%の性能向上を達成。動的なメモリ更新が自己改善を促進することを示唆。 Comment
元ポスト:
ARC-AGIでしか評価されていないように見える。
[Paper Note] MemMamba: Rethinking Memory Patterns in State Space Model, Youjin Wang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #LongSequence #SSM (StateSpaceModel) Issue Date: 2025-10-11 GPT Summary- データの増加に伴い、長シーケンスモデリングが重要になる中、既存手法は効率とメモリのトレードオフに直面している。Mambaの選択的状態空間モデルは高効率だが、長期メモリが減衰する。本研究では、Mambaのメモリ減衰メカニズムを分析し、情報損失を定量化する指標を導入。新たに提案するMemMambaは、状態要約メカニズムと注意を統合し、長期的な忘却を軽減しつつ計算量を維持。MemMambaは、長シーケンスベンチマークで大幅な改善を達成し、推論効率を48%向上させることを示した。 Comment
元ポスト:
[Paper Note] Artificial Hippocampus Networks for Efficient Long-Context Modeling, Yunhao Fang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #LongSequence #RecurrentModels Issue Date: 2025-10-10 GPT Summary- 長大なシーケンスモデリングにおけるメモリのトレードオフを解決するため、人工海馬ネットワーク(AHN)を提案。AHNは短期メモリを維持しつつ、長期メモリを圧縮。実験により、AHNを用いたモデルが従来のベースラインを上回り、計算とメモリ要件を大幅に削減しつつ、パフォーマンスを向上させることを示した。 Comment
元ポスト:
所見:
[Paper Note] Pretraining with hierarchical memories: separating long-tail and common knowledge, Hadi Pouransari+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Transformer #SmallModel Issue Date: 2025-10-07 GPT Summary- 現代の言語モデルはパラメータのスケーリングに依存しているが、すべての世界知識を圧縮するのは非現実的である。これに対処するため、メモリ拡張アーキテクチャを提案し、小型言語モデルが階層的なメモリバンクにアクセスする仕組みを導入。実験により、160Mパラメータのモデルに18Mパラメータのメモリを追加することで、通常のモデルと同等の性能を達成。トランスフォーマーにおけるメモリの最適なタイプとサイズを研究し、提案したメモリが堅牢に機能することを確認。 Comment
元ポスト:
[Paper Note] Short window attention enables long-term memorization, Loïc Cabannes+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #NLP #ContextWindow #Attention Issue Date: 2025-09-30 GPT Summary- SWAXというハイブリッドアーキテクチャは、スライディングウィンドウアテンションとxLSTM線形RNN層を組み合わせており、短いウィンドウが長期的な記憶をより良く訓練することを示す。SWAXはウィンドウサイズを確率的に変更し、短い・長いコンテキストの両方で優れた性能を発揮する。 Comment
元ポスト:
[Paper Note] ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory, Siru Ouyang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #read-later #One-Line Notes #Test-time Learning Issue Date: 2025-09-30 GPT Summary- ReasoningBankという新しいメモリフレームワークを提案し、エージェントが成功体験と失敗体験から推論戦略を抽出できるようにする。テスト時には関連メモリを活用し、学びを統合することで能力を向上させる。さらに、メモリを意識したテスト時スケーリング(MaTTS)を導入し、エージェントの体験を多様化・拡大する。これにより、ウェブブラウジングやソフトウェアエンジニアリングのベンチマークで既存のメモリメカニズムを上回る効果と効率を実現。メモリ駆動の経験スケーリングを新たな次元として確立し、エージェントの自己進化を促進する。 Comment
元ポスト:
メモリを良質なものに更新、蓄積し続けることで性能がスケールするのであれば、新たなtest-time scalingのパラダイムになりそう。
ざっくり読んでみると本研究ではこのパラダイムのことをTest-Time Learningと呼称している(先行研究が2つ引用されているがざっと見た限りでは両者はそう言った呼称はしていないように見えた)。
すなわち、クエリのストリームが到達した時に将来のクエリを見ることはできずに、過去のクエリに対するtrajectoryや、self-verificationなどによってのみラベル無しで自己進化していくパラダイムのこと。
関連:
- [Paper Note] M+: Extending MemoryLLM with Scalable Long-Term Memory, Yu Wang+, ICML'25, 2025.02
[Paper Note] Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences, Andrew Kyle Lampinen+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #AIAgents #In-ContextLearning #RAG(RetrievalAugmentedGeneration) #Generalization #ReversalCurse Issue Date: 2025-09-22 GPT Summary- 機械学習システムの一般化失敗の原因として、潜在学習の欠如を指摘。認知科学の視点から、エピソード記憶やオラクルリトリーバルメカニズムが一般化を改善する手段であることを示す。文脈内学習が情報活用の鍵であり、リトリーバル手法がパラメトリック学習を補完することで、データ効率を向上させる可能性を提案。 Comment
元ポスト:
[Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25
Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #AIAgents #Planning #LongSequence #read-later #DeepResearch Issue Date: 2025-09-17 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究(OEDR)に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment
元ポスト:
[Paper Note] MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation, Hao Shi+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-14 GPT Summary- MemoryVLAは、ロボット操作における時間的文脈を考慮したCognition-Memory-Actionフレームワークである。作業記憶を利用して短命の表現を制御し、知覚-認知メモリーバンクに統合された情報を保存する。これにより、時間的に意識したアクションシーケンスを生成し、150以上のシミュレーションおよび実世界のタスクで高い成功率を達成。特に、長期的なタスクにおいて顕著な性能向上を示した。 Comment
pj page: https://shihao1895.github.io/MemoryVLA/
元ポスト:
長期記憶としてメモリバンクが導入され、過去に認識した冗長性が排除された画像情報(low level)と画像とテキストによる指示の意味情報(high level semantics)を格納しておき
、retrievalした上で活用する。次のアクションを決めるためのデコーダように見えるtransformerのattentionに専用のCognition/Perceptionのattentionが両方用意されている👀
[Paper Note] Memento: Fine-tuning LLM Agents without Fine-tuning LLMs, Huichi Zhou+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #Test-time Learning Issue Date: 2025-09-02 GPT Summary- 本論文では、ファインチューニングを必要としない新しい学習パラダイムを提案し、メモリベースのオンライン強化学習を通じて低コストでの継続的な適応を実現します。これをメモリ拡張マルコフ決定過程(M-MDP)として形式化し、行動決定のためのニューラルケース選択ポリシーを導入。エージェントモデル「Memento」は、GAIA検証で87.88%の成功率を達成し、DeepResearcherデータセットでも最先端の手法を上回る性能を示しました。このアプローチは、勾配更新なしでのリアルタイム学習を可能にし、機械学習の進展に寄与します。 Comment
元ポスト:
元ポスト:
[Paper Note] Ultra-Sparse Memory Network, Zihao Huang+, ICLR'25
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #ICLR #read-later Issue Date: 2025-08-29 GPT Summary- UltraMemは、大規模で超スパースなメモリ層を組み込むことで、Transformerモデルの推論レイテンシを削減しつつ性能を維持する新しいアーキテクチャを提案。実験により、UltraMemはMoEを上回るスケーリング特性を示し、最大2000万のメモリスロットを持つモデルが最先端の推論速度と性能を達成することを実証。
[Paper Note] Memp: Exploring Agent Procedural Memory, Runnan Fang+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-08-12 GPT Summary- 本研究では、LLMに基づくエージェントに学習可能で更新可能な手続き的記憶を持たせるための戦略を提案。Mempを用いて過去のエージェントの軌跡を指示や抽象に蒸留し、記憶の構築と更新を行う。TravelPlannerとALFWorldでの実証評価により、記憶リポジトリが進化することでエージェントの成功率と効率が向上することを示した。また、強力なモデルからの手続き的記憶の移行により、弱いモデルでも性能向上が得られることが確認された。 Comment
元ポスト:
アドホックに探索と実行を繰り返すのではなく、過去の試行のtrajectoryをメモリに記憶しておき、活用するような枠組みな模様。trajectoryは新たなタスクが来た際にretrieverでrelevantなtrajectoryを検索して利用され、良質なtrajectoryがキープされれば成功率や効率が向上すると考えられる。trajectoryはprocedure memoryとして保存され、成功率が低いtrajectoryは破棄されることで更新される。
メモリはT個のタスクに対するs_t, a_t, o_t, i.e., state, action, observation,の系列τと、reward rが与えられた時に、Builderを通して構築されてストアされる。agentは新たなタスクt_newに直面した時に、t_newと類似したメモリをretrieyeする。これはτの中のある時刻tのタスクに対応する。メモリは肥大化していくため、実験では複数のアルゴリズムに基づくメモリの更新方法について実験している。
procedural memoryの有無による挙動の違いに関するサンプル。
memoryに対してretrieverを適用することになるので、retrieverの性能がボトルネックになると思われる。追加の学習をしなくて済むのは利点だが、その代わりモデル側がメモリ管理をする機能を有さない(学習すればそういった機能を持たせられるはず)ので、その点は欠点となる、という印象。
ポイント解説:
[Paper Note] Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation, Sangmin Bae+, NeurIPS'25
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #NLP #Transformer #Architecture #NeurIPS #RecurrentModels #RecursiveModels Issue Date: 2025-07-17 GPT Summary- Mixture-of-Recursions(MoR)というフレームワークを提案し、再帰型トランスフォーマー内でパラメータ共有と適応計算を同時に実現。MoRは、レイヤーの再利用とトークンごとの再帰深さの動的割り当てにより、メモリアクセス効率を向上させる。135Mから1.7Bパラメータのモデルで、トレーニングFLOPsを維持しつつ、困惑度を低下させ、少数ショット精度を向上。MoRは大規模モデルのコストを抑えつつ、品質向上に寄与することを示す。 Comment
元ポスト:
解説:
関連:
- [Paper Note] Universal Transformers, Mostafa Dehghani+, ICLR'19
- [Paper Note] Looped Transformers for Length Generalization, Ying Fan+, ICLR'25
- [Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24
著者ポスト:
[Paper Note] A Survey on the Memory Mechanism of Large Language Model based Agents, Zeyu Zhang+, arXiv'24
Paper/Blog Link My Issue
#Survey #Pocket #NLP #LanguageModel Issue Date: 2025-08-11 GPT Summary- LLMベースのエージェントのメモリメカニズムに関する包括的な調査を提案。メモリの重要性を論じ、過去の研究を体系的にレビューし、エージェントアプリケーションでの役割を紹介。既存研究の限界を分析し、将来の研究方向性を示す。リポジトリも作成。 Comment
元ポスト:
[Paper Note] Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models, Cheng+, 2026.01
Paper/Blog Link My Issue
#Article #Embeddings #EfficiencyImprovement #Pocket #NLP #LanguageModel #Architecture #read-later Issue Date: 2026-01-14 Comment
元ポスト:
所見:
解説:
解説:
🍫 Local Cocoa: Your Personal AI Assistant, Fully Local 💻, synvo-ai, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #LanguageModel #AIAgents #MultiModal #Selected Papers/Blogs #ContextEngineering Issue Date: 2026-01-09 Comment
元ポスト:
Titans + MIRAS: Helping AI have long-term memory, Google Research, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Test-Time Scaling Issue Date: 2025-12-07 Comment
元ポスト:
関連:
- [Paper Note] It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization, Ali Behrouz+, arXiv'25, 2025.04
- [Paper Note] Titans: Learning to Memorize at Test Time, Ali Behrouz+, NeurIPS'25, 2024.12
解説:
ポイント解説:
supermemory, supermemoryai, 2025.10
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Personalization #Repository #API #SoftwareEngineering Issue Date: 2025-10-13
Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01
Paper/Blog Link My Issue
#Article #Tutorial #NLP #AIAgents #Video Issue Date: 2025-10-13 Comment
元ポスト: