ContextRotに関する論文・技術記事メモの一覧

ContextRot

[Paper Note] The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context, Xiaoyuan Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ContextEngineering #memory #One-Line Notes Issue Date: 2026-02-13 GPT Summary- 新しい基盤モデル「StateLM」を導入し、AIが自己管理できる状態を持つエージェントに進化。コンテキストのプルーニングや文書のインデクシングなどのメモリツールを管理することで、モデルは固定ウィンドウの制約から解放されます。StateLMは長文QAやチャットメモリタスクで従来のLLMを一貫して上回り、特にBrowseComp-Plusタスクでは最大52%の精度を達成。私たちのアプローチにより、推論が管理可能なプロセスに変革されます。 Comment

元ポスト:

Loading…

言語モデルにStateを明示的に持たせて、ツールを用いて動的に過去のcontextから必要なcontextを編集、削除、読み込みなどのコンテキストエンジニアリングが可能なようにRLによって学習するようなアーキテクチャが提案されているように見える。

[Paper Note] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth, Weihao Zeng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #LongSequence #LongHorizon Issue Date: 2026-02-10 GPT Summary- LLMは長期タスクの実行が向上する一方で、コンテキストが増えると信頼性が低下する「コンテキストロット」が問題に。これに対処するため、LOCA-benchを導入し、環境状態に応じてエージェントのコンテキスト長を調整。固定されたタスク意義の下でコンテキストを制御し、様々な管理戦略を評価。複雑な状態では相対的に性能が低下するが、高度な管理技術で成功率が向上。LOCA-benchはオープンソースで公開され、長コンテキストエージェントの評価プラットフォームを提供。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #DeepResearch #KeyPoint Notes #LongHorizon #ContextFolding Issue Date: 2025-10-18 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment

pj page: https://context-folding.github.io

元ポスト:

Loading…

エージェントはロールアウト時にサブタスクを別ブランチで分岐させ、分岐させたブランチは独立したコンテキストを持ち、サブタスクを実行し結果を返す。メインブランチは受け取った結果に対してcontext managerを適用してfoldingしてメインブランチのcontextに加えて処理を続行することで、サブタスクを高い性能で実行しつつ、contextの肥大化を抑える。

これらfoldingを実施するはcontext manager（learnable）やポリシーはFoldGRPOと呼ばれるRLで学習され、
- メインブランチのcontextが肥大しない
- サブタスクがout of scopeとならない
- agenticタスクが失敗しない

となるように設計された報酬によって学習される。

ブランチを分岐し、結果を圧縮してメインブランチのcontextに加えて処理を継続するという一連の操作を、context manager, ポリシーの双方で学習している（どちらもfreezeはしない)。

一方、Kimi-K2.5では、同様な枠組みとしてAgentSwarmが提案されているが、こちらはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられる点が異なるように見える。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

所見:

Loading…

Context Rot: How Increasing Input Tokens Impacts LLM Performance, CHROMA TECHNICAL REPORT, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #LongSequence #read-later #ContextEngineering Issue Date: 2026-01-17

Recursive Language Models: the paradigm of 2026, PRIME Intellect, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #LongSequence #read-later #Selected Papers/Blogs #reading #RecursiveModels Issue Date: 2026-01-02 Comment