SparseAttention
[Paper Note] SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning, Jintao Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Attention Issue Date: 2026-02-21 GPT Summary- トレーニング不要な疎注意法は拡散モデルの高速化に寄与するが、訓練可能な疎注意法が生成品質を維持しながら高い疎性を達成できる理由や制約について考察。これに基づいて、訓練可能な疎注意法SpargeAttention2を提案。ハイブリッドマスキング規則や効率的な実装、生成品質保持のためのファインチューニング目的を含む。実験により、SpargeAttention2は95%のアテンション疎性と16.2倍の速度向上を実現し、従来手法を常に上回る成果を示した。 Comment
元ポスト:
[Paper Note] SLA2: Sparse-Linear Attention with Learnable Routing and QAT, Jintao Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #VideoGeneration/Understandings #Routing #4D (Video) #One-Line Notes #LinearAttention Issue Date: 2026-02-20 GPT Summary- SLA2は、スパース注意とリニア注意を動的に選択する学習可能なルータを導入し、パフォーマンスを向上させる。さらに、アテンションブランチを組み合わせるための比率や量子化を意識した設計を採用。実験により、動画生成モデルで97%のスパース性を達成し、18.6倍の速度向上を実現した。 Comment
元ポスト:
ポイント解説:
Sparse AttentionとLinear Attentionを動的に選択するルータを学習して効率を向上させる
[Paper Note] GLM-5: from Vibe Coding to Agentic Engineering, GLM-5 Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #LongSequence #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2026-02-18 GPT Summary- 次世代モデルGLM-5は、エージェント主導のエンジニアリングへ移行し、推論コストを削減しながら長い文脈の忠実度を維持する。新しい非同期強化学習インフラを実装することで、学習効率を向上させ、非同期エージェントRLアルゴリズムにより複雑な相互作用からの学習効果を高める。これによりGLM-5は最先端の性能を達成し、実世界のコーディングタスクでの能力が従来の基準を超えたことが示された。 Comment
関連:
- GLM-5: From Vibe Coding to Agentic Engineering, Z.ai, 2026.02
- DeepSeek Sparse Attention (DSA)
- [Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
元ポスト:
解説:
ASync RLにおける工夫:
[Paper Note] MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling, MiniCPM Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #SmallModel #Selected Papers/Blogs #One-Line Notes #Hybrid #LinearAttention Issue Date: 2026-02-12 GPT Summary- MiniCPM-SALAは、9Bパラメータのハイブリッドアーキテクチャで、疎アテンションと線形アテンションを組み合わせ、長文脈タスクの効率と性能を向上させる。層選択アルゴリズムにより、1:3の比率で統合され、ハイブリッド位置エンコーディングを利用することで、トレーニングコストを約75%削減。広範な実験で、シーケンス長256Kトークン時に推論速度を最大3.5倍向上させ、最大100万トークンの文脈をサポートすることが示された。 Comment
元ポスト:
解説:
linear attention->sparse attentionをcascadingしたtransformerブロックを持つアーキテクチャ
linear attention:
- [Paper Note] Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention, Zhen Qin+, ICML'24, 2024.05
sparse attention:
- [Paper Note] InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation, Weilin Zhao+, arXiv'25, 2025.09
[Paper Note] Prism: Spectral-Aware Block-Sparse Attention, Xinghao Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #LongSequence #VisionLanguageModel #One-Line Notes Issue Date: 2026-02-12 GPT Summary- ブロックスパースアテンションの効率を改善するために、平均プーリングによる粗粒度アテンションの不正確さの原因を分析し、Prismというトレーニング不要のアプローチを提案。Prismは、ブロック選択を高周波数と低周波数に分解し、エネルギーベースの温度キャリブレーションで位置情報を復元。結果、フルアテンションと同等の精度を維持しつつ、最大5.1倍の速度向上を達成。 Comment
元ポスト:
sparse attentionにおいて、RoPEとmean poolingによるブロックの重要度の同定が組み合わさったときに、mean poolingがlow pass filterの役割を果たし高周波成分が破壊される(ことを理論的に示した)。このため、低周波成分と高周波成分を分けて扱う手法を提案しているという感じの話らしい。
[Paper Note] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing, Yizhao Gao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #Architecture #KV Cache #Hybrid #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 新しいアーキテクチャ「ハイブリッド疎注意」(HySparse)を提案。全注意層と疎注意層を交互に配置し、疎層のトークン選択を全注意層から導出。これにより、トークンの重要性予測が簡素化され、KVキャッシュの再利用が可能に。評価では、7B密集モデルと80B MoEモデルの両方で全注意およびハイブリッドSWAのベースラインを超え、特に49層の80B MoEモデルで顕著な性能向上とKVキャッシュの10倍削減を実現。 Comment
元ポスト:
ポイント解説:
Full attentionとsparse attentionを組み合わせたアーキテクチャの提案で、Full attentionと同等以上の性能を効率的に達成し、sparse attentionではfull attentionのKV Cacheを再利用するように設計されていることから、KV Cacheのスペースを大幅に削減できて嬉しい、という話に見える。
[Paper Note] InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation, Weilin Zhao+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence Issue Date: 2026-02-17 GPT Summary- 長いシーケンス処理のためのInfLLM-V2フレームワークを提案。密-疎切替可能な注意機構により、短い入力には密な注意を、長い入力にはスパース注意を使用し、パラメータを再利用して計算効率を向上。実験では、InfLLM-V2は密な注意より4倍速く、長文理解で98.1%、思考推論で99.7%の性能を維持。再現可能なハイブリッド推論モデルMiniCPM4.1を訓練・オープンソース化。
[Paper Note] The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs, Piotr Nawrot+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Evaluation #LongSequence #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-30 GPT Summary- スパースアテンションは、Transformer LLMの長文コンテキスト処理能力を向上させるが、その効率と精度のトレードオフは未評価である。本研究では、最大128Kトークンのシーケンスに対して、6つの手法を9つのタスクで分析し、スパースアテンションの効果的利用を示した。主な発見は、より大きなスパースモデルが小さな密なモデルを上回ること、トークンの重要度推定は計算制約で実現しにくいものの他の選択肢が効果的であること、長いシーケンスが高いスパース性を許容すること。これにより、スパースアテンション導入についての実践的ガイダンスを提供した。 Comment
元ポスト:
最近多くなってきたsparse attentionに関する非常に大きな実験で、かつ過去な提案されたものの分類などもされているようなのでsparse attentionに対する理解が深められそう。これは気になる。そして著者にSebastian Ruder氏の名前が。
[Paper Note] Efficient Context Scaling with LongCat ZigZag Attention, Chen Zhang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Attention #LongSequence #Architecture Issue Date: 2026-01-15 GPT Summary- LoZAは、フルアテンションモデルをスパースバージョンに変換するためのスパースアテンションスキームであり、長いコンテキストでの計算効率を向上させる。これにより、リトリーバル拡張生成やツール統合推論において顕著な速度向上が実現。LongCat-Flashの中間トレーニングに適用することで、1百万トークンまで迅速に処理可能な基盤モデルを提供し、効率的な長期推論が可能となる。 Comment
HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-ZigZag
元ポスト:
[Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Reference Collection Issue Date: 2025-12-01 GPT Summary- DeepSeek-V3.2は、計算効率と推論性能を両立させたモデルで、主な技術革新として(1) DSAによる効率的な注意メカニズム、(2) スケーラブルな強化学習フレームワークによりGPT-5と同等の性能を実現、(3) 大規模エージェントタスク合成パイプラインを用いてトレーニングデータを生成し、一般化能力と指示遵守を向上させた。特に、DeepSeek-V3.2-SpecialeはGPT-5を超える性能を示し、国際数学オリンピックで金メダルを獲得した。 Comment
HF: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
GPT-5級のスコアを獲得している。なんということだ。
公式ポスト:
vLLM recipe:
https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html
関連:
- Expert Parallel Deployment, vLLM, 2025.10
元ポスト:
所見:
事前学習にさらに計算機リソースを投下する見込みとのこと:
解説:
解説:
所見:
artificial analysisによる評価ではOpen Weightモデルの中ではKimi K2 Thinkingに次いで2番目の性能:
- Introducing Kimi K2 Thinking, MoonshotAI, 2025.11
所見:
関連:
- [Paper Note] DeepSeek-Math-V2, DeepSeekAI, 2025.11
DeepSeek Sparse Attention (DSA)
[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment
pj page: https://github.com/meituan-longcat/LongCat-Video
元ポスト:
[Paper Note] vAttention: Verified Sparse Attention, Aditya Desai+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #Architecture #Sparse Issue Date: 2025-10-08 GPT Summary- vAttentionは、トップ-$k$とランダムサンプリングを統合した新しいスパースアテンションメカニズムで、ユーザー指定の$(\epsilon, \delta)$保証を提供し、近似精度を向上させる。これにより、スパースアテンションの実用性と信頼性が向上し、フルアテンションと同等の品質を保ちながら、最大20倍のスパース性を実現。推論シナリオでも迅速なデコーディングが可能で、実験により性能の向上が確認された。コードはオープンソースで公開されている。 Comment
元ポスト:
[Paper Note] VideoNSA: Native Sparse Attention Scales Video Understanding, Enxin Song+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Attention #LongSequence #VideoGeneration/Understandings #VisionLanguageModel #Sparse Issue Date: 2025-10-04 GPT Summary- VideoNSAは、ビデオ理解のためにNative Sparse Attentionを適用し、長い時間スケールでの一貫性を向上させる手法。216Kのビデオ指示データセットでQwen2.5-VLをエンドツーエンドでトレーニングし、テキストには密な注意、ビデオにはNSAを使用。トークン圧縮や従来のスパースベースラインと比較して、長いビデオ理解や時間的推論で性能が向上。アブレーション分析により、信頼性のあるスケーリングや注意の最適配分などの重要な発見が得られた。 Comment
元ポスト:
[Paper Note] Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation, Shuo Yang+, NeurIPS'25 Spotlight, 2025.05
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #Architecture #NeurIPS #VideoGeneration/Understandings #Sparse Issue Date: 2025-09-27 GPT Summary- Diffusion Transformers(DiTs)の動画生成におけるレイテンシーの問題を解決するため、重要トークンの特定精度を最大化し計算の無駄を最小化するトレーニング不要のフレームワークSVG2を提案。SVG2は意味に基づくトークンのクラスタリングと再配置を行い、計算効率を向上させる。これにより、HunyuanVideoおよびWan 2.1でそれぞれ最大2.30倍および1.89倍のスピードアップを達成し、PSNRを維持。 Comment
元ポスト:
pj page: https://svg-project.github.io/v2/
Q, Kそれぞれについて独立してkmeansクラスタリングを実施し、意味的に類似したQ, Kをクラスタ化し、map上で散らばっているトークンの配置を整頓して計算機上で効率的に扱えるようにし、各クラスタのcentroidをattention scoreの計算に用いてクラスタ内のトークンのスコアを近似することで計算を効率化します、といった話な模様。また、クリティカルなクラスタとそうでは無いものがあるので、p個のクリティカルなクラスタを選択しさらに効率化をする模様。
[Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12
Paper/Blog Link My Issue
#Survey #ComputerVision #EfficiencyImprovement #NLP #Transformer #Attention #Sparse Issue Date: 2025-11-30 GPT Summary- 本論文では、計算効率やメモリ効率を向上させることに焦点を当てた「X-former」モデル(Reformer、Linformer、Performer、Longformerなど)の大規模なセレクションを紹介し、最近の研究を体系的かつ包括的にまとめる。Transformersは自然言語処理を含む多くの分野で重要な役割を果たしている。 Comment
関連:
- [Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12
- [Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07
- [Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20
[Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #LongSequence #NeurIPS #Sparse Issue Date: 2025-11-30 GPT Summary- BigBirdは、Transformersモデルのシーケンス長に対する二次的依存性を線形に削減するスパース注意メカニズムを提案。これにより、長いシーケンスを最大8倍処理可能となり、質問応答や要約などのNLPタスクでの性能が向上。さらに、ゲノムデータへの新たな応用も示唆。 Comment
[Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #One-Line Notes #Sparse Issue Date: 2025-08-09 GPT Summary- Longformerは、長いシーケンスを線形に処理できる注意機構を持つTransformerベースのモデルで、数千トークンの文書を扱える。局所的なウィンドウ注意とタスクに基づくグローバル注意を組み合わせ、文字レベルの言語モデリングで最先端の結果を達成。事前学習とファインチューニングを行い、長文タスクでRoBERTaを上回る性能を示した。また、Longformer-Encoder-Decoder(LED)を導入し、長文生成タスクにおける効果を確認した。 Comment
(固定された小さめのwindowsサイズの中でのみattentionを計算する)sliding window attentionを提案。Figure2を見ると、通常のAttentionと比較して、現在のトークンの周辺のトークンにしか注目しない特性が図示されており、イメージが掴みやすい。
OpenLLMの文脈だと、Mistralに採用されて話題になったかも?
- Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23
[Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #ICLR #Sparse Issue Date: 2025-08-05 GPT Summary- 本研究では、トランスフォーマーモデルの効率を向上させるために、局所感度ハッシュを用いた注意機構と可逆残差層を提案。これにより、計算量をO($L^2$)からO($L\log L$)に削減し、メモリ効率と速度を向上させたReformerモデルを実現。トランスフォーマーと同等の性能を維持。 Comment
openreview: https://openreview.net/forum?id=rkgNKkHtvB
[Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04
Paper/Blog Link My Issue
#ComputerVision #Transformer #LongSequence #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-30 GPT Summary- スパース因子分解を用いてトランスフォーマーの注意行列を$O(n \sqrt{n})$に削減し、深いネットワークの訓練やメモリ節約のための手法を導入。スパーストランスフォーマーは数百層で数万タイムステップのシーケンスをモデル化し、Enwik8、CIFAR-10、ImageNet-64で新たな最先端を達成。自己注意を用いて100万以上の長さのシーケンスをモデル化する可能性を示す。 Comment
Sparse Attentionの概念を提案した研究。以下Surveyより
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04
GLM-5: From Vibe Coding to Agentic Engineering, Z.ai, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #LongHorizon Issue Date: 2026-02-12 Comment
関連:
- GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12
GLMシリーズの最新モデルGLM-5がリリースされた
元ポスト:
- DeepSeek Sparse Attentionを採用:
- DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09
- [Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
- 事前学習データを23Tから28.5Tトークンへ
- パラメータ数は4.5の355B-A32から744B-A40Bへ
- RLのインフラとして4.5から引き続きSlimeを採用
- slime, THUDM & Zhihu, 2025.09
- long-horizonなタスクに秀でており、reasoning, coding, agenticタスクにおける各種ベンチマークでOpus 4.5, GPT-5.2, Gemini 3 Proと同等程度の性能
FP8版も公開されている模様(Hopper以後のアーキテクチャでないとサポートされていない点に注意
所見:
元ポスト:
unslothがGGUF版をすでにリリースしている模様。早い:
https://unsloth.ai/docs/models/glm-5
アーキテクチャ解説:
アーキテクチャ解説:
所見:
DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #OpenWeight #Reference Collection #Sparse Issue Date: 2025-09-29 Comment
元ポスト:
DeepSeek Sparse Attentionポイント解説:
解説:
DSA図解:
ポイント解説:
公式ポスト:
