KV Cache


Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-23 GPT Summary- 連鎖的推論ではKVキャッシュの拡大がボトルネックとなっており、従来の手法は手作業で管理されている。よりスケーラブルな「Neural Garbage Collection(NGC)」を提案し、言語モデルが推論と同時に忘れることを学ぶ。モデルは推論中にキャッシュエントリの追い出しを決定し、これを強化学習で最適化。成果ベースのタスク報酬を用いて学習することで、高い精度を保ちながらキャッシュサイズを圧縮し、エンドツーエンドの最適化がモデルの能力を向上させる可能性を示した。 Comment

元ポスト:

Loading…

LLMにReasoningとKV Cacheのマネジメントを同時に学習させる。

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Infrastructure #Quantization #LLMServing #Compression #Initial Impression Notes Issue Date: 2026-04-22 GPT Summary- KVキャッシュメモリは、レイテンシーに敏感な小規模バッチと高スループットワークロードの同時サポートにおけるボトルネックとなっている。多くの圧縮手法は実用的な制約に違反し、デプロイメント時の有効性を制限している。本研究では、最小限の4ビット量子化手法を特定し、INT4量子化とブロック対角Hadamard回転の組み合わせが最良のトレードオフを実現することを発見した。実装により、エンドツーエンドのオーバーヘッドを抑え、INT4スループットに匹敵する性能を達成。結果として、KVキャッシュ圧縮はシステム共設計の問題であり、軽量な手法が実用的な精度を提供することを示した。 Comment

元ポスト:

Loading…

github: https://github.com/togethercomputer/saw-int4

以下のRequirementsがある
- MHA modelsのみをサポートしており、MLA、あるいはMHA以外のアーキテクチャはサポートされていない
- 実装かれていないだけなのか、理論的に無理なのかは区別がついていない
- Prefill backend: fa3
- Decode backend: triton

解説:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Infrastructure #LLMServing #Selected Papers/Blogs #reading #One-Line Notes #needs-revision #Author Thread-Post Issue Date: 2026-04-18 GPT Summary- Prefill-decode(PD)のデプロイにはKVCache転送が制限要因となっており、従来のアテンションモデルは大容量のKVCacheトラフィックを生成する。ハイブリッドアテンションアーキテクチャはKVCacheサイズを削減するが、データセンター間の運用に問題が残る。そこで、Prefill-as-a-Service(PrfaaS)を提案し、プリフィル処理を専用クラスタにオフロードして効率的なKVCache転送を実現。これにより、リソースの独立したスケーリングを可能にし、実績として、PrfaaSを用いた異種デプロイメントは従来よりも高い提供スループットを達成。 Comment

元ポスト:

Loading…

LLM servingにおいて、prefillはcompute-intensiveで、decodeは(kv cacheが肥大化するため)memory-intensiveであるという特性があるため、(それぞれ得意な処理は得意なノードに任せるため)prefillとdecodeを分離して異なるノードで実施するprefill-decode disaggreagated servingというインフラのアーキテクチャが超巨大モデルでは主流だが、prefill-decode間でKV Cacheを転送しなければならないため、このような分離は同じ計算機クラスター内のRDMA(Remote Direct Memory Access)が可能なノード間に限定されるのが一般的である。

しかし、compute/memory特化型のリソースは通常チップの種類と物理的な場所の両方に制約されてプールされるので、両方のハードウェアがRDMAのような密結合なドメインで利用できないという欠点がある。このため、クラスターを超えてPD分離をしたいのだが、KV Cacheの転送が結局のところボトルネックとなる。現在のモデルはSparse/LinearなアテンションによってKV Cacheに必要なリソースが一桁減っているが、それでもnaiveにクラスタを跨いでPD分離をすると、突発的なリクエストのバーストや、不均一なPrefix Cacheの分布、クラスター間の帯域幅の変動などによって、計算効率が低下してしまう。

そのため、提案手法では、高スループットな長文のprefillに特化した独立クラスタを作り、ローカルにキャッシュされていない(主に長文の)、 prefillのみを同クラスタにオフロードし、短いリクエストはローカルでPDを実施するようなアプローチをとる。こうしてprefill特化クラスタによって生成されたKV Cacheはdecode可能なPDクラスタに対してイーサネットを介して転送される。これは選択的なオフロードであり、帯域幅が制限された経路で非効率な短いリクエストを送信を避けて、prefillの高速化が重要なリクエストのみをクラスタ間転送に集中させるという考え方に基づく。

これを実現するためには、(i)長いリクエストのみをオフロードするルーティングの仕組みと、(ii)ネットワークの輻輳を制御するための、帯域幅を考慮したスケジューラ、(iii)リクエスト長、キャッシュ配置、利用可能なクラスタの帯域幅を総合的に考慮してKV Cache全体を効率的を保ちながら管理するグローバルKV Cacheマネージャが必要。
image

このようなアーキテクチャを1T級のKimi Linearモデルで実験した結果、スループットが1.54倍、TTFTが64%改善した、という感じらしい。




Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #LongSequence #Architecture #read-later #VideoGeneration/Understandings #KeyPoint Notes Issue Date: 2026-04-04 GPT Summary- 自己回帰型ビデオ拡散モデルは、線形KVキャッシュ、時間的反復、長時間動画生成時の誤差累積という課題に直面している。これを解決するために、PackForcingという新しい三分割KVキャッシュ戦略を提案。過去の文脈をシンクトークン(高解像度保持)、ミッドトークン(トークン削減)、最近トークン(局所的整合性維持)の三種類に分類し、メモリフットプリントを抑制しつつ高品質の動画生成を実現。結果として、単一のH200 GPU上で2分間の動画を16FPSで生成し、KVキャッシュを4GBに留め、時系列外挿も効果的に行えることを示した。VBenchにおける結果も最先端を記録。 Comment

元ポスト:

Loading…

動画生成における (1)エラーの蓄積、(2)生成される動画の長さに応じて線形に増加するKV Cache の問題に対処するために、以下に示すアーキテクチャを提案し、重要な情報(Sink Token, Recent Token)は高解像度で保持しつつ、中間トークン (Mid Token)は圧縮をすることで、
- どのような長さの動画生成でもattentionで考慮されるtoken数の上限を27,872 tokenに制限しながらも、
- 3D convolution + low resolution re-encodingによって中間トークンを1/32に効果的に圧縮し(メモリ効率27倍)
- memoryを圧縮することでRoPEの位置エンコーディングにgapが生まれるが、それを埋める方法を提案し
- 24倍のtemporal extrapolation (時間的な外挿)を実現。つまり、5秒のclipで学習したら、120秒の動画を一貫性のある形で生成できた
という話らしく、

Sink Tokenは高解像度な情報を保持し、Mid Tokensは圧縮+動的に選択 (3D / 4-stageのCNN + 低解像度のパッチ化) をすることで容量を削減し、Recent Tokensは高解像度を保持し、古くなってきたらMid tokensとして圧縮して格納される。
image

120sの生成をする場合にKV Cacheをフルで保持した場合(~138G)と比較して、4G程度にKV Cacheが抑えられており

image

そのうえで下記ベンチマークスコアを獲得しているようである。が、他の先行研究の手法はKV Cacheをどの程度消費するのだろうか?比較表のようなものがないと、すごさがちょっとよくわからない。たとえば Self-Forcing, Deep-Forcingは両方ともContext Length Lの範囲でKV Cacheを保持する手法であるため、Table 9 で言うところのwindow-onlyに相当する手法に見える。そうすると、KV Cacheの利用量としてはほとんど変わらず、ベンチマークスコアはSelf Forcingと比較すると大幅に向上しているようだが、Deep Forcingと比べるとどうなるだろうか。おそらく、Over Cons.が最も改善しているように見えるが、Quialitative Comparisonの節ではSelf-Forcingとの比較としての言及は多いが、Deep Forcingとの比較という面での言及はないように見える。

image

- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
- [Paper Note] Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression, Jung Yi+, arXiv'25, 2025.12




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #read-later #Selected Papers/Blogs #Compression Issue Date: 2026-02-28 GPT Summary- 長い文脈の処理において、KVキャッシュのサイズがボトルネックとなるが、要約による圧縮は情報損失を招く。最近のCartridges研究はコンパクトなKVキャッシュが全文脈に近い性能を持つことを示したが、最適化が遅い。本研究では、Attention Matchingを用い、アテンション出力を再現しながらコンパクトなキーと値を構築する高速な文脈圧縮手法を提案。これにより、効率的な部分問題への分解が可能となり、圧縮時間と品質で大幅な改善を達成し、数秒で最大50倍の圧縮を実現した。 Comment

関連:
- [Paper Note] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction, Jang-Hyun Kim+, NeurIPS'25, 2025.05

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Attention Issue Date: 2026-02-21 GPT Summary- Attention Matchingを用いて、長い文脈のKVキャッシュを高速かつ効果的に圧縮する手法を提案。アテンション出力を再現するコンパクトなキーと値を構築し、圧縮時間と品質のパレート前線を大幅に改善。数秒で最大50倍の圧縮を達成し、品質損失をほとんど生じさせない。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Decoding #Parallel Issue Date: 2026-02-05 GPT Summary- 因果オート回帰拡散(CARD)という新フレームワークを提案。トレーニング効率と高スループット推論を統合し、因果注意マスク内で拡散プロセスを再定義。局所的文脈保持のためのソフトテイルマスキングと文脈認識重み付けメカニズムを導入。これにより動的な並列デコーディングが可能に。実証結果では、CARDが既存の離散拡散ベースラインを上回り、トレーニングレイテンシを3倍削減。次世代の効率的なLLMに向けた堅牢なパラダイムを示唆。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #Architecture #Hybrid #SparseAttention #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 新しいアーキテクチャ「ハイブリッド疎注意」(HySparse)を提案。全注意層と疎注意層を交互に配置し、疎層のトークン選択を全注意層から導出。これにより、トークンの重要性予測が簡素化され、KVキャッシュの再利用が可能に。評価では、7B密集モデルと80B MoEモデルの両方で全注意およびハイブリッドSWAのベースラインを超え、特に49層の80B MoEモデルで顕著な性能向上とKVキャッシュの10倍削減を実現。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Full attentionとsparse attentionを組み合わせたアーキテクチャの提案で、Full attentionと同等以上の性能を効率的に達成し、sparse attentionではfull attentionのKV Cacheを再利用するように設計されていることから、KV Cacheのスペースを大幅に削減できて嬉しい、という話に見える。




Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #read-later #Selected Papers/Blogs #DownstreamTasks #Adaptive #Initial Impression Notes #SelfVerification Issue Date: 2026-01-30 GPT Summary- KVキャッシュを文脈情報の軽量な表現として再利用し、再計算や保存の必要を排除。KV由来の表現は、(i)チェーン・オブ・エンベディングで競争力のある性能を発揮し、(ii)ファスト/スロー思考切替でトークン生成を最大5.7倍削減する一方、精度損失を最小限に抑える。これにより、KVキャッシュがLLM推論における表現再利用の新たな基盤となることを示す。 Comment

元ポスト:

Loading…

KV Cacheを軽量なhidden stateを表すembeddingとして扱うことで色々と応用できます、という話に見え、たとえばデコーディングの途中でhallucinationをdetectする際により省メモリで実現できたり、fast/d slowなthinkingの切り替えの制御に利用するなど、単に次トークンを生成する際の高速化の用途を超えて使うという興味深い発想な研究に見える。

関連:
- [Paper Note] Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation, Yiming Wang+, ICLR'25, 2024.10




Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Compression Issue Date: 2026-02-02 GPT Summary- クエリ非依存型のKVキャッシュ削除手法「KVzip」を提案。LLMを用いてKVペアの重要性を定量化し、重要度の低いペアを削除することでKVキャッシュのサイズを$3$-$4\times$削減。これにより、デコーディングレイテンシを約$2\times$短縮し、さまざまなタスクにおいて性能低下がほとんどないことを実証。また、最大170Kトークンのコンテキストにおいて既存手法を上回る性能を示す。 Comment

元ポスト:

Loading…

pj page: https://janghyun1230.github.io/kvzip/

openreview: https://openreview.net/forum?id=JFygzwx8SJ




Paper/Blog Link My Issue
#Document #NLP #LanguageModel #SyntheticData #LongSequence #read-later #Selected Papers/Blogs #Compression Issue Date: 2026-02-02 GPT Summary- 大型言語モデルは、テキストコーパスに基づくクエリ応答に広く使用されていますが、コンテキストウィンドウのメモリ消費が高くコストがかかります。本研究では、オフラインで小さなKVキャッシュ(カートリッジ)をトレーニングし、推論時にそれを使用する代替策を提案。カートリッジのトレーニングコストは分散可能ですが、単純な次トークン予測ではICLと競争できないことが判明。そこで、文脈蒸留を目的とした自己学習を用いたトレーニングを行いました。これにより、自己学習によるカートリッジはICLの機能を再現し、メモリ使用量を38.6倍削減し、スループットを26.4倍向上させました。また、効果的なコンテキスト長を延長し、再トレーニングなしで合成できるカートリッジを生成することにも成功しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=0k5w8O0SNg




Paper/Blog Link My Issue
#EfficiencyImprovement #LanguageModel #Distillation #NeurIPS #Test-Time Scaling #PostTraining #Latency Issue Date: 2026-01-25 GPT Summary- 推論時のスケーリングでは、生成効率と精度のトレードオフが求められる。LLMにおいて生成コストはKVキャッシュのサイズに依存するため、KVキャッシュの圧縮が鍵となる。新手法のダイナミックメモリスパーシフィケーション(DMS)を導入し、学習不要のスパースアテンションよりも高い精度を維持しつつ8倍の圧縮を達成。DMSは重要な情報を保持しつつトークンの削除を遅延させる。実験により、DMSを用いることで複数のLLMファミリーにおいて精度向上を実証した。 Comment

openreview: https://openreview.net/forum?id=8ZiElzQxf1&referrer=%5Bthe%20profile%20of%20Piotr%20Nawrot%5D(%2Fprofile%3Fid%3D~Piotr_Nawrot1)

HF: https://huggingface.co/nvidia/Qwen3-8B-DMS-8x




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #NeurIPS #read-later Issue Date: 2025-10-28 GPT Summary- テンソルプロダクトアテンション(TPA)を提案し、KVキャッシュのサイズを縮小する新しい注意メカニズムを導入。TPAは低ランク成分に因数分解し、RoPEと統合することでメモリ効率とモデル品質を向上。新しいモデルアーキテクチャ「テンソルプロダクトアテンショントランスフォーマー(T6)」は、標準トランスフォーマーベースラインを上回る性能を示し、長いシーケンス処理のスケーラビリティ課題に対応。 Comment

pj page: https://tensorgi.github.io/TPA/

元ポスト:

Loading…

続報:

Loading…


RoPEも含めた様々なpositional encodingと互換性がある旨が追加された模様。




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #One-Line Notes Issue Date: 2025-10-19 GPT Summary- 本研究では、拡散型大規模言語モデル(DLMs)のデコーディング待機時間を最小化しつつ予測精度を最大化するために、適応的なKVキャッシュ再計算手法「Elastic-Cache」を提案。これにより、浅いレイヤーの冗長性を削減し、重要なトークンに基づいてキャッシュのリフレッシュを動的に行う。実験では、GSM8KやHumanEvalでの速度向上を示し、生成品質を維持しながら高いスループットを達成した。 Comment

元ポスト:

Loading…

DLMにおいて、denoisingの各ステップにおいて全てのKVを再計算するのではなく、attention scoreが大きくドリフトしていない部分についてはKV Cacheを再利用し、大きくドリフトした部分だけ再計算するような仕組みを学習することで、品質を損なうことなく推論速度を高速化した模様




Paper/Blog Link My Issue
#NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #WWW #One-Line Notes #Short Issue Date: 2025-01-26 GPT Summary- キャッシュ拡張生成(CAG)は、RAGの課題を克服するために提案された手法で、LLMの拡張コンテキストに事前に関連リソースをロードし、検索なしでクエリに応答する。CAGは検索の遅延を排除し、エラーを最小限に抑えつつ、コンテキストの関連性を維持。性能評価では、CAGが従来のRAGを上回るか補完することが示され、特に制約のある知識ベースにおいて効率的な代替手段となることが示唆されている。 Comment

元ポスト:

Loading…

外部知識として利用したいドキュメントがそこまで大きく無いなら、事前にLLMで全てのKey Valueを計算しておきKV Cacheとして利用可能にしておけば、生成時に検索をすることもなく、contextとして利用して生成できるじゃん、という研究




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention #ICML #One-Line Notes #Compression Issue Date: 2024-04-07 GPT Summary- Transformerにおけるメモリキャッシュの非効率性を解決するために、Dynamic Memory Compression(DMC)を提案。DMCは異なるヘッドと層で異なる圧縮比を学習し、Llama 2を組み込むことで推論時に最大7倍のスループット向上を実現。元のパフォーマンスを保ちながら、キャッシュ圧縮を最大4倍可能とし、既存の方法を超える効果を発揮。DMCはKVキャッシュのドロップイン置換として、より長い文脈と大きなバッチを処理できる。 Comment

参考:

Loading…

論文中のFigure1が非常にわかりやすい。

image

GQA [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05 と比較して、2~4倍キャッシュを圧縮しつつ、より高い性能を実現。70Bモデルの場合は、GQAで8倍キャッシュを圧縮した上で、DMCで追加で2倍圧縮をかけたところ、同等のパフォーマンスを実現している。

image




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #Attention #Blog #KeyPoint Notes #SparseAttention Issue Date: 2026-04-28 Comment

元ポスト:

Loading…

SparseAttentionはattention計算をする際にtop-kのトークンのみを用いて計算する手法であり、token単位でactivateされるKV Cacheを減らすことができるが、top-kで選択されたトークンのKV Cacheに対して迅速にアクセスをしなければならないためHBM上にKV Cacheを全てロードしておかなければならない。このため、memory-boundな処理になりがちである。このような場合、同時アクセス数が増えたときに、HBMが飽和して、一定サイズの同時アクセスを超えるとスループットが向上しなくなる課題がある。
image

これを克服するために、HiSparseと呼ばれる手法を提案している。具体的には、頻繁にアクセスされるKV CacheのみをHBM上に置いておき、使わないものはホストメモリにオフロードしておき必要に応じてswapするというものである。top-kのトークンとしてどれが必要か、それがHBM(バッファ)上に存在するか、存在しない場合はLRUでホストメモリとバッファのエントリをswapするといった操作を高速で実現するカーネルに基づいて、効率的に実施されるようである。

image




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Infrastructure #AIAgents #Attention #LongSequence #PositionalEncoding #Optimizer #OpenWeight #Architecture #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #RewardModel #Reference Collection #Compression #GenerativeVerifier #SparseAttention #ResidualStream #SelfDistillation #Author Thread-Post Issue Date: 2026-04-24 Comment

HF: https://huggingface.co/collections/deepseek-ai/deepseek-v4

元ポスト:

Loading…

とうとうでました

所見:

Loading…

所見:

Loading…

Artificial Analysisによる評価:

Loading…

所見:

Loading…

所見:
-

Loading…

所見:

Loading…


1Mコンテキストにおいて、V3.2と比較してわずか10%のKV Cacheしか必要としないとのこと。

所見:

Loading…

1Mトークンのcontext windowを実用的にするために最新の叡智が詰め込まれまくっているという感じのようである。うーむ読むしかない

所見:

Loading…

RTX 6000で4基でFlashが動いたよ、という報告に見える:

Loading…

解説:

Loading…

所見:

Loading…

関連:
- HiSparse: Turbocharging Sparse Attention with Hierarchical Memory, LMSYS, 2026.04

Self Rewarding LMsのコンセプトが利用されている:

Loading…




Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ContextWindow #Quantization #PositionalEncoding #LLMServing #Slide #mid-training #DPO #PostTraining #GRPO #Compression Issue Date: 2026-04-07 Comment

元ポスト:

Loading…

関連:
- PLaMo 3.0 Prime β版, PFN, 2026.03

関連:
- RoPE / YaRN
- [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, arXiv'21, 2021.04
- [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24
- DPO
- [Paper Note] Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, arXiv'23, 2023.05
- GRPO
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24
- RLはSFTよりも汎化性能に優れ、基本的には事前学習で獲得された能力を引き出す、という話
- [Paper Note] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
- JFBench: 実務レベルの日本語指示追従性能を備えた生成AIを目指して, PFN, 2026.01
- LLM Serving系
- [Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23
- [Paper Note] GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, ICLR'23, 2022.10
- [Paper Note] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin+, MLSys'24
- TurboQuant: Redefining AI efficiency with extreme compression, Google Research, 2026.03

うーーんおもしろかった!後でnote中の関連文献を紐づけてついでに復習したい




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reference Collection #Compression #Initial Impression Notes Issue Date: 2026-03-25 Comment

元ポスト:

Loading…

kv cacheをlong contextで1/6に圧縮して、8倍スピードアップして、accuracyのlossがない圧縮技術とのこと。果たして

たまたまこの動画を見つけたがおそらくこの研究のことを行っているのだろう:
https://youtube.com/shorts/5LMoZjoprQc?si=C43dJuXqpAa-p4BP

不要な逆量子化処理を省くことで高速化可能らしい:

Loading…




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode Issue Date: 2025-10-22 Comment

元ポスト:

Loading…

新たなスピードランが...!!

FP8で記録更新とのこと:

Loading…

nano chatの過去の改善のポイントまとめ:

Loading…

nanochatにおいてKarpathy氏がAIによる自動改善をするエージェントをセットアップしたところ、12時間で110の変更が加わり、ValLossを0.864215から0.85039まで改善しているとのこと。

Loading…


現在の最高性能は2時間で0.71854なのでまだまだ及んでいないが、このまま回しておいたらどこまで改善するだろうか?

ポストに本人が返信をしているが、Karpathy氏の関心は、どのハーネスがnanochatに最も大きな改善をもたらすか、という点らしい。