KV Cache
[Paper Note] Fast KV Compaction via Attention Matching, Adam Zweiger+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #read-later #Selected Papers/Blogs #Compression Issue Date: 2026-02-28 GPT Summary- 長い文脈の処理において、KVキャッシュのサイズがボトルネックとなるが、要約による圧縮は情報損失を招く。最近のCartridges研究はコンパクトなKVキャッシュが全文脈に近い性能を持つことを示したが、最適化が遅い。本研究では、Attention Matchingを用い、アテンション出力を再現しながらコンパクトなキーと値を構築する高速な文脈圧縮手法を提案。これにより、効率的な部分問題への分解が可能となり、圧縮時間と品質で大幅な改善を達成し、数秒で最大50倍の圧縮を実現した。 Comment
元ポスト:
[Paper Note] Fast KV Compaction via Attention Matching, Adam Zweiger+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Attention Issue Date: 2026-02-21 GPT Summary- Attention Matchingを用いて、長い文脈のKVキャッシュを高速かつ効果的に圧縮する手法を提案。アテンション出力を再現するコンパクトなキーと値を構築し、圧縮時間と品質のパレート前線を大幅に改善。数秒で最大50倍の圧縮を達成し、品質損失をほとんど生じさせない。 Comment
元ポスト:
[Paper Note] Causal Autoregressive Diffusion Language Model, Junhao Ruan+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Decoding #Parallel Issue Date: 2026-02-05 GPT Summary- 因果オート回帰拡散(CARD)という新フレームワークを提案。トレーニング効率と高スループット推論を統合し、因果注意マスク内で拡散プロセスを再定義。局所的文脈保持のためのソフトテイルマスキングと文脈認識重み付けメカニズムを導入。これにより動的な並列デコーディングが可能に。実証結果では、CARDが既存の離散拡散ベースラインを上回り、トレーニングレイテンシを3倍削減。次世代の効率的なLLMに向けた堅牢なパラダイムを示唆。 Comment
元ポスト:
[Paper Note] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing, Yizhao Gao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #Architecture #Hybrid #SparseAttention #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 新しいアーキテクチャ「ハイブリッド疎注意」(HySparse)を提案。全注意層と疎注意層を交互に配置し、疎層のトークン選択を全注意層から導出。これにより、トークンの重要性予測が簡素化され、KVキャッシュの再利用が可能に。評価では、7B密集モデルと80B MoEモデルの両方で全注意およびハイブリッドSWAのベースラインを超え、特に49層の80B MoEモデルで顕著な性能向上とKVキャッシュの10倍削減を実現。 Comment
元ポスト:
ポイント解説:
Full attentionとsparse attentionを組み合わせたアーキテクチャの提案で、Full attentionと同等以上の性能を効率的に達成し、sparse attentionではfull attentionのKV Cacheを再利用するように設計されていることから、KV Cacheのスペースを大幅に削減できて嬉しい、という話に見える。
[Paper Note] Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning, Zeyu Xing+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #read-later #Selected Papers/Blogs #DownstreamTasks #Adaptive #Initial Impression Notes #SelfVerification Issue Date: 2026-01-30 GPT Summary- KVキャッシュを文脈情報の軽量な表現として再利用し、再計算や保存の必要を排除。KV由来の表現は、(i)チェーン・オブ・エンベディングで競争力のある性能を発揮し、(ii)ファスト/スロー思考切替でトークン生成を最大5.7倍削減する一方、精度損失を最小限に抑える。これにより、KVキャッシュがLLM推論における表現再利用の新たな基盤となることを示す。 Comment
元ポスト:
KV Cacheを軽量なhidden stateを表すembeddingとして扱うことで色々と応用できます、という話に見え、たとえばデコーディングの途中でhallucinationをdetectする際により省メモリで実現できたり、fast/d slowなthinkingの切り替えの制御に利用するなど、単に次トークンを生成する際の高速化の用途を超えて使うという興味深い発想な研究に見える。
[Paper Note] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction, Jang-Hyun Kim+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Compression Issue Date: 2026-02-02 GPT Summary- クエリ非依存型のKVキャッシュ削除手法「KVzip」を提案。LLMを用いてKVペアの重要性を定量化し、重要度の低いペアを削除することでKVキャッシュのサイズを$3$-$4\times$削減。これにより、デコーディングレイテンシを約$2\times$短縮し、さまざまなタスクにおいて性能低下がほとんどないことを実証。また、最大170Kトークンのコンテキストにおいて既存手法を上回る性能を示す。 Comment
元ポスト:
pj page: https://janghyun1230.github.io/kvzip/
openreview: https://openreview.net/forum?id=JFygzwx8SJ
[Paper Note] Cartridges: Lightweight and general-purpose long context representations via self-study, Sabri Eyuboglu+, arXiv'25, 2025.06
Paper/Blog Link My Issue
#Document #NLP #LanguageModel #SyntheticData #LongSequence #read-later #Selected Papers/Blogs #Compression Issue Date: 2026-02-02 GPT Summary- 大型言語モデルは、テキストコーパスに基づくクエリ応答に広く使用されていますが、コンテキストウィンドウのメモリ消費が高くコストがかかります。本研究では、オフラインで小さなKVキャッシュ(カートリッジ)をトレーニングし、推論時にそれを使用する代替策を提案。カートリッジのトレーニングコストは分散可能ですが、単純な次トークン予測ではICLと競争できないことが判明。そこで、文脈蒸留を目的とした自己学習を用いたトレーニングを行いました。これにより、自己学習によるカートリッジはICLの機能を再現し、メモリ使用量を38.6倍削減し、スループットを26.4倍向上させました。また、効果的なコンテキスト長を延長し、再トレーニングなしで合成できるカートリッジを生成することにも成功しました。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=0k5w8O0SNg
[Paper Note] Inference-Time Hyper-Scaling with KV Cache Compression, Adrian Łańcucki+, NeurIPS'25, 2025.06
Paper/Blog Link My Issue
#EfficiencyImprovement #LanguageModel #Distillation #NeurIPS #Test-Time Scaling #PostTraining #Latency Issue Date: 2026-01-25 GPT Summary- 推論時のスケーリングでは、生成効率と精度のトレードオフが求められる。LLMにおいて生成コストはKVキャッシュのサイズに依存するため、KVキャッシュの圧縮が鍵となる。新手法のダイナミックメモリスパーシフィケーション(DMS)を導入し、学習不要のスパースアテンションよりも高い精度を維持しつつ8倍の圧縮を達成。DMSは重要な情報を保持しつつトークンの削除を遅延させる。実験により、DMSを用いることで複数のLLMファミリーにおいて精度向上を実証した。 Comment
[Paper Note] Attention Is All You Need for KV Cache in Diffusion LLMs, Quan Nguyen-Tri+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #One-Line Notes Issue Date: 2025-10-19 GPT Summary- 本研究では、拡散型大規模言語モデル(DLMs)のデコーディング待機時間を最小化しつつ予測精度を最大化するために、適応的なKVキャッシュ再計算手法「Elastic-Cache」を提案。これにより、浅いレイヤーの冗長性を削減し、重要なトークンに基づいてキャッシュのリフレッシュを動的に行う。実験では、GSM8KやHumanEvalでの速度向上を示し、生成品質を維持しながら高いスループットを達成した。 Comment
元ポスト:
DLMにおいて、denoisingの各ステップにおいて全てのKVを再計算するのではなく、attention scoreが大きくドリフトしていない部分についてはKV Cacheを再利用し、大きくドリフトした部分だけ再計算するような仕組みを学習することで、品質を損なうことなく推論速度を高速化した模様
[Paper Note] Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks, Brian J Chan+, WWW'25 Short Paper
Paper/Blog Link My Issue
#NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #WWW #One-Line Notes #Short Issue Date: 2025-01-26 GPT Summary- キャッシュ拡張生成(CAG)は、RAGの課題を克服するために提案された手法で、LLMの拡張コンテキストに事前に関連リソースをロードし、検索なしでクエリに応答する。CAGは検索の遅延を排除し、エラーを最小限に抑えつつ、コンテキストの関連性を維持。性能評価では、CAGが従来のRAGを上回るか補完することが示され、特に制約のある知識ベースにおいて効率的な代替手段となることが示唆されている。 Comment
元ポスト:
外部知識として利用したいドキュメントがそこまで大きく無いなら、事前にLLMで全てのKey Valueを計算しておきKV Cacheとして利用可能にしておけば、生成時に検索をすることもなく、contextとして利用して生成できるじゃん、という研究
[Paper Note] Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, Piotr Nawrot+, arXiv'24, 2024.03
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention #ICML #One-Line Notes #Compression Issue Date: 2024-04-07 GPT Summary- Transformerにおけるメモリキャッシュの非効率性を解決するために、Dynamic Memory Compression(DMC)を提案。DMCは異なるヘッドと層で異なる圧縮比を学習し、Llama 2を組み込むことで推論時に最大7倍のスループット向上を実現。元のパフォーマンスを保ちながら、キャッシュ圧縮を最大4倍可能とし、既存の方法を超える効果を発揮。DMCはKVキャッシュのドロップイン置換として、より長い文脈と大きなバッチを処理できる。 Comment
参考:
論文中のFigure1が非常にわかりやすい。
GQA [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
と比較して、2~4倍キャッシュを圧縮しつつ、より高い性能を実現。70Bモデルの場合は、GQAで8倍キャッシュを圧縮した上で、DMCで追加で2倍圧縮をかけたところ、同等のパフォーマンスを実現している。
nanochat, karpathy, 2025.10
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode Issue Date: 2025-10-22 Comment
元ポスト:
新たなスピードランが...!!
FP8で記録更新とのこと:
nano chatの過去の改善のポイントまとめ:
nanochatにおいてKarpathy氏がAIによる自動改善をするエージェントをセットアップしたところ、12時間で110の変更が加わり、ValLossを0.864215から0.85039まで改善しているとのこと。
現在の最高性能は2時間で0.71854なのでまだまだ及んでいないが、このまま回しておいたらどこまで改善するだろうか?
ポストに本人が返信をしているが、Karpathy氏の関心は、どのハーネスがnanochatに最も大きな改善をもたらすか、という点らしい。
