Compression


Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #read-later #Selected Papers/Blogs #KV Cache Issue Date: 2026-02-28 GPT Summary- 長い文脈の処理において、KVキャッシュのサイズがボトルネックとなるが、要約による圧縮は情報損失を招く。最近のCartridges研究はコンパクトなKVキャッシュが全文脈に近い性能を持つことを示したが、最適化が遅い。本研究では、Attention Matchingを用い、アテンション出力を再現しながらコンパクトなキーと値を構築する高速な文脈圧縮手法を提案。これにより、効率的な部分問題への分解が可能となり、圧縮時間と品質で大幅な改善を達成し、数秒で最大50倍の圧縮を実現した。 Comment

関連:
- [Paper Note] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction, Jang-Hyun Kim+, NeurIPS'25, 2025.05

元ポスト:

Loading…




Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #LongHorizon Issue Date: 2026-02-09 GPT Summary- InftyThink+は、モデルによる制御された反復推論と要約を基にした強化学習フレームワークで、中間的な思考の劣化を軽減し、反復推論の効率を最適化します。教師あり学習の後、二段階の強化学習を行い、戦略的要約と推論の再開を学習。実験では、従来方法に比べて精度を21%向上させ、推論レイテンシを大幅に削減しました。 Comment

pj page: https://zju-real.github.io/InftyThink-Plus/

元ポスト:

Loading…

一言解説:

Loading…

con-currentwork:
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02

reasoningを要約することで圧縮し次のreasoningを繰り返すような枠組みのように見え、
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02

と類似したアプローチに見える。
image




Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #OOD #Generalization #KeyPoint Notes #LongHorizon #Robustness #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)は、テスト時の適応能力により複雑な問題を解決する外挿特性を持つが、標準的な強化学習(RL)はその変化に制約がある。これに対処するために、反復デコーディングアルゴリズム(RC)を導入し、LLMの応答生成能力を活用して推論を継続的に改善。実験では、16kトークンの訓練で4BモデルがHMMT 2025でのパフォーマンスを40%から約70%に引き上げ、既存のモデルを上回る結果を示した。RCを使用したモデルは、学習した要約生成能力によりテスト時のパフォーマンスも向上できることが証明された。 Comment

元ポスト:

Loading…

reasoningの生成と、生成されたreasoningとinputで条件付けでsummaryを生成、さらにinputとsummaryで条件付けてreasoningを生成するという、生成と要約を反復する枠組みを採用(LLMはreasoningを要約することが生成するよりも得意で、かつ過去の要約から将来の推論を生成できるという非対称性を活用)することで、訓練時の予算は決まっているため、訓練時の予算では到達できないhorizonにテスト時に遭遇すると汎化しない課題を克服し、テスト時により長いステップ数の推論もこなせるように外挿する。また、このようなgeneration-summaryの反復を各ステップごとでRLVRすることでさらに性能を向上でき、実際にlong horizonな推論や学習時よりもより長いreasoning token budgetの場合に大きなgainを獲得できている。

RLVRをする際に各ステップごとのSummaryを保存しておき、各ステップのsummaryが与えられたときに正解できるかどうかのシグナルに基づいて、ステップごとの要約で条件付けられた応答能力を改善する。これにより、さまざまなステップで応答を生成する能力が強化され、結果的にshort horizonからlong horizonの推論をする能力が強化される。
このときsummaryはリプレイバッファとして扱い後のepochの訓練でもオフポリシーデータとして活用する。要約はinputに条件付けられて生成されるものであり、optimizationのtargetとは異なるためリプレイバッファとして活用でき、かつさまざまな要約に対して正解が生成できるように学習されるためテスト時の要約の分布のシフトにロバストになる。また、オンポリシーデータだけだと、long horizonに対する要約は非常に稀になるため、リプレイバッファを利用することで補う。

テスト時に学習時を超えたhorizonで推論できることは現在のAIエージェントの大きな課題だと思うので非常に興味深い研究だと思う。




Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Coding #VisionLanguageModel #2D (Image) #OCR Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)はソースコード理解で成功を収めていますが、計算効率が課題です。従来、LLMはコードをトークンの線形シーケンスとして扱い、計算コストが増加します。そこで、マルチモーダル大規模言語モデル(MLLM)による画像モダリティの利用が提案され、圧縮の可能性を探る研究を行いました。その結果、(1) MLLMは最大8倍のトークン削減を実現し、効果的にコードを理解できることが分かりました;(2) 構文ハイライトなどの視覚的手がかりを活用し、4倍の圧縮下でパフォーマンス向上;(3) クローン検出タスクは視覚的圧縮に対して耐性があり、圧縮比で生のテキストを上回る結果もありました。これにより、MLLMの効率的な推論可能性が示唆されています。 Comment

元ポスト:

Loading…

textをimageとして扱う関連研究:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10

literatureについては下記ポスト参考:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #KV Cache Issue Date: 2026-02-02 GPT Summary- クエリ非依存型のKVキャッシュ削除手法「KVzip」を提案。LLMを用いてKVペアの重要性を定量化し、重要度の低いペアを削除することでKVキャッシュのサイズを$3$-$4\times$削減。これにより、デコーディングレイテンシを約$2\times$短縮し、さまざまなタスクにおいて性能低下がほとんどないことを実証。また、最大170Kトークンのコンテキストにおいて既存手法を上回る性能を示す。 Comment

元ポスト:

Loading…

pj page: https://janghyun1230.github.io/kvzip/

openreview: https://openreview.net/forum?id=JFygzwx8SJ




Paper/Blog Link My Issue
#Document #NLP #LanguageModel #SyntheticData #LongSequence #read-later #Selected Papers/Blogs #KV Cache Issue Date: 2026-02-02 GPT Summary- 大型言語モデルは、テキストコーパスに基づくクエリ応答に広く使用されていますが、コンテキストウィンドウのメモリ消費が高くコストがかかります。本研究では、オフラインで小さなKVキャッシュ(カートリッジ)をトレーニングし、推論時にそれを使用する代替策を提案。カートリッジのトレーニングコストは分散可能ですが、単純な次トークン予測ではICLと競争できないことが判明。そこで、文脈蒸留を目的とした自己学習を用いたトレーニングを行いました。これにより、自己学習によるカートリッジはICLの機能を再現し、メモリ使用量を38.6倍削減し、スループットを26.4倍向上させました。また、効果的なコンテキスト長を延長し、再トレーニングなしで合成できるカートリッジを生成することにも成功しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=0k5w8O0SNg




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #read-later #NormalizingFlow Issue Date: 2025-10-28 GPT Summary- FARMERという新しい生成フレームワークを提案し、正規化フローと自己回帰モデルを統合して高品質な画像合成と尤度推定を実現。潜在シーケンスへの変換や自己教師あり次元削減により、ARモデリングの効率を向上。推論速度を加速する蒸留スキームと画像生成品質を向上させる分類器フリーガイダンスを導入。実験により、FARMERは既存モデルと比較して競争力のある性能を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

これは...👀👀👀




Paper/Blog Link My Issue
#NLP #LanguageModel #ContextWindow #Encoder #One-Line Notes #text Issue Date: 2025-10-26 GPT Summary- 本研究では、コンテキストを連続表現に圧縮するARC-Encoderを提案し、デコーダLLMのトークン埋め込みを置き換えるアプローチを探求。ARC-Encoderは、テキストトークンの少ない連続表現を出力し、計算効率を向上させる。さまざまなLLMシナリオで評価した結果、最先端のパフォーマンスを達成し、複数のデコーダに同時に適応可能であることを示した。 Comment

元ポスト:

Loading…

最近textのcontextをvisual tokenでレンダリングすることで圧縮する話が盛り上がっているが、こちらはtextの表現そのものを圧縮する話な模様。

そのうちpixel単位の入力、テキスト単位での入力を圧縮する話どちらかだけでなく、双方のハイブリッドになり、かつタスクに応じてattention等を通じてどちらのモダリティの情報を使うか、また圧縮前と後の情報どちらを使うか、みたいなものを動的に選択してタスクに応じて計算量やメモリを節約しつつ、高い性能を担保する、みたいな話になるんではなかろうか。




Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence Issue Date: 2025-09-26 GPT Summary- CompLLMは、長いコンテキストを効率的に処理するためのソフト圧縮技術で、コンテキストをセグメントに分割して独立に圧縮する。これにより、効率性、スケーラビリティ、再利用性を実現。実験では、CompLLMが長いコンテキストで最大4倍の速度向上を示し、圧縮されていないコンテキストと同等の性能を維持。 Comment

元ポスト:

Loading…

著者による一言まとめ:

Loading…

openreview: https://openreview.net/forum?id=6AWWE08NnN




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Prompting #NeurIPS Issue Date: 2026-02-02 GPT Summary- プロンプトはLMのマルチタスク機能における効率性に課題をもたらすため、私たちは「ギスティング」を提案。これはプロンプトを小さなトークンセットに圧縮し、再利用することで計算効率を向上させる方法で、トレーニングコストは標準的な指示ファインチューニングと同等。実験により、最大26倍のプロンプト圧縮と最大40%のFLOPs削減を達成し、出力品質を保持しつつ効率化を実現。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=2DtxPCL3T5




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #ICLR #Encoder #Pixel-based Issue Date: 2025-10-22 GPT Summary- PIXELは、テキストを画像として表現する新しい言語モデルで、語彙のボトルネックを回避し、言語間での表現転送を可能にする。86MパラメータのPIXELは、BERTと同じデータで事前学習され、非ラテン文字を含む多様な言語での構文的および意味的タスクでBERTを大幅に上回る性能を示したが、ラテン文字ではやや劣る結果となった。また、PIXELは正字法的攻撃や言語コードスイッチングに対してBERTよりも堅牢であることが確認された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #OCR #Reference Collection Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか?p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

OCRベンチマーク:
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

(DeepSeek-OCRの主題はOCRの性能向上というわけではないようだが)

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

textxをimageとしてエンコードする話は以下の2023年のICLRの研究でもやられているよというポスト:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07

Loading…

関連:
- [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01

関連:

Loading…

関連:
- [Paper Note] Glyph: Scaling Context Windows via Visual-Text Compression, Jiale Cheng+, arXiv'25, 2025.10

literature:

Loading…


上記ポストでは本研究はこれらliteratureを完全に無視し “an initial investigation into the feasibility of compressing long contexts via optical 2D mapping.” と主張しているので、先行研究を認識し引用すべきだと述べられているようだ。

karpathy氏のポスト:

Loading…

Loading…