ContextFolding
[Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Blog #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Reference Collection #Initial Impression Notes Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment
HF: https://huggingface.co/moonshotai/Kimi-K2.5
元ポスト:
テクニカルレポートを受けての所見:
Agenticなタスク(HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか(GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている)。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。
Agent Swarmタスクをサブタスクに分解して、複数のエージェントに並列に投げて実行(最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
公式ポスト:
OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:
日本語でのポスト:
[Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #DeepResearch #KeyPoint Notes #LongHorizon #ContextRot Issue Date: 2025-10-18 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment
pj page: https://context-folding.github.io
元ポスト:
エージェントはロールアウト時にサブタスクを別ブランチで分岐させ、分岐させたブランチは独立したコンテキストを持ち、サブタスクを実行し結果を返す。メインブランチは受け取った結果に対してcontext managerを適用してfoldingしてメインブランチのcontextに加えて処理を続行することで、サブタスクを高い性能で実行しつつ、contextの肥大化を抑える。
これらfoldingを実施するはcontext manager(learnable)やポリシーはFoldGRPOと呼ばれるRLで学習され、
- メインブランチのcontextが肥大しない
- サブタスクがout of scopeとならない
- agenticタスクが失敗しない
となるように設計された報酬によって学習される。
所見:
