LinearAttention


Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #VideoGeneration/Understandings #Routing #4D (Video) #One-Line Notes #SparseAttention Issue Date: 2026-02-20 GPT Summary- SLA2は、スパース注意とリニア注意を動的に選択する学習可能なルータを導入し、パフォーマンスを向上させる。さらに、アテンションブランチを組み合わせるための比率や量子化を意識した設計を採用。実験により、動画生成モデルで97%のスパース性を達成し、18.6倍の速度向上を実現した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Sparse AttentionとLinear Attentionを動的に選択するルータを学習して効率を向上させる




Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #SmallModel #Selected Papers/Blogs #One-Line Notes #Hybrid #SparseAttention Issue Date: 2026-02-12 GPT Summary- MiniCPM-SALAは、9Bパラメータのハイブリッドアーキテクチャで、疎アテンションと線形アテンションを組み合わせ、長文脈タスクの効率と性能を向上させる。層選択アルゴリズムにより、1:3の比率で統合され、ハイブリッド位置エンコーディングを利用することで、トレーニングコストを約75%削減。広範な実験で、シーケンス長256Kトークン時に推論速度を最大3.5倍向上させ、最大100万トークンの文脈をサポートすることが示された。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts, Yingfa Chen+, arXiv'26, 2026.01

解説:

Loading…

linear attention->sparse attentionをcascadingしたtransformerブロックを持つアーキテクチャ

image

linear attention:
- [Paper Note] Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention, Zhen Qin+, ICML'24, 2024.05

sparse attention:
- [Paper Note] InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation, Weilin Zhao+, arXiv'25, 2025.09




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention #LongSequence #Architecture #ICLR #Selected Papers/Blogs Issue Date: 2026-02-04 GPT Summary- 線形トランスフォーマーの限界を克服するため、ゲーティングとデルタ更新ルールの2つのメカニズムを組み合わせた「Gated DeltaNet」を提案。これにより、迅速なメモリ消去とターゲット更新を実現し、言語モデリングや長文理解などのタスクで既存モデルを上回る性能を達成。ハイブリッドアーキテクチャを用いることでトレーニング効率も向上。 Comment

openreview: https://openreview.net/forum?id=r8H7xhYPwz¬eId=U0uk5A0VlT

linear attention:
- [Paper Note] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention, Angelos Katharopoulos+, ICML'20

Mamba2(linear attention with decay):
- [Paper Note] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML'24




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence #OpenWeight #Architecture #read-later #Selected Papers/Blogs #Reference Collection #Hybrid Issue Date: 2025-10-31 GPT Summary- Kimi Linearは、短・長コンテキスト及び強化学習のシナリオにおいてフルアテンションを超えるハイブリッドな線形アテンションアーキテクチャです。Kimi Delta Attention(KDA)を核とし、ゲーティング機構を拡張した線形アテンションモジュールで、RNNのメモリをより有効利用します。特注のチャンク単位アルゴリズムにより、DPLR遷移行列の効率を向上させ、計算量を大幅に削減します。Kimi Linearモデルは48Bパラメータで事前学習され、評価タスクでMLAを大きく上回り、KVキャッシュ使用量を75%削減し、デコードスループットを6倍向上させました。これにより、フルアテンションアーキテクチャの優れた代替として機能し、長い入力・出力タスクに対応可能であることが示されています。 Comment

HF: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

アーキテクチャ解説:

Loading…

KDAとFull Attention, Sliding Window Attentionの比較:

Loading…


Full Attentionと同等の性能をより効率良く達成できる




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence #ICML #One-Line Notes Issue Date: 2026-02-17 GPT Summary- Lightning Attentionは、一定の学習速度を維持しつつ固定メモリ消費を実現する線形注意の新しい実装です。累積和演算の問題を、異なる計算戦略を用いることで解決し、ブロック内では従来の注意計算を、ブロック間では線形注意のカーネル技術を導入しています。GPUを効率的に活用するためのタイル化技術を採用し、新しいアーキテクチャTransNormerLLM(TNL)を提案。TNLは他のモデルより効率的で、従来のトランスフォーマーと同等の性能を示します。ソースコードは公開されています。 Comment

openreview: https://openreview.net/forum?id=Lwm6TiUP4X&referrer=%5Bthe%20profile%20of%20Yiran%20Zhong%5D(%2Fprofile%3Fid%3D~Yiran_Zhong1)

Ring、MiniCPMで採用されているlinear attentionの一種であるlightning attention




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #SSM (StateSpaceModel) #COLM #Selected Papers/Blogs Issue Date: 2026-02-04 GPT Summary- ファウンデーションモデルはトランスフォーマーを基盤としており、計算非効率性を解決するために新たなアーキテクチャが開発されたが、言語モダリティではあまり効果的でなかった。私たちは内容ベースの推論能力の欠如を特定し、SSMのパラメータを入力に依存させることで、情報の選択的伝播を可能にした。さらに、ハードウェアに適応した並列アルゴリズムを設計し、簡略化されたニューラルネットワークアーキテクチャMambaに統合した。このMambaは、高速な推論とシーケンス長での線形スケーリングを可能にし、言語や音声などで最先端の性能を達成。特にMamba-3Bモデルは、同サイズのトランスフォーマーを上回る性能を示した。 Comment

openreview: https://openreview.net/forum?id=tEYskw1VY2

日本語解説: https://qiita.com/peony_snow/items/649ecb307cd3b5c10aa7

関連:
- [Paper Note] Retentive Network: A Successor to Transformer for Large Language Models, Yutao Sun+, arXiv'23, 2023.07
- [Paper Note] RWKV: Reinventing RNNs for the Transformer Era, Bo Peng+, N/A, EMNLP'23 Findings, 2023.05

Mamba2:
- [Paper Note] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML'24




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #ICML #Selected Papers/Blogs Issue Date: 2026-02-04 GPT Summary- 線形アテンションを持つトランスフォーマーは、効率的な並列トレーニングを実現する一方、通常のソフトマックスアテンションに比べて性能が劣る。提案するFLASHLINEARATTENTIONは、メモリ移動と並列化のトレードオフを考慮し、短いシーケンスで高速な実装を実現。また、データ依存ゲートを追加したゲート付き線形アテンション(GLA)トランスフォーマーは、LLaMAやRetNet、Mambaと比較して競争力のある性能を示し、長さの一般化でも有効。GLAトランスフォーマーは、同サイズのMambaモデルよりも高いトレーニングスループットを持つ。

Paper/Blog Link My Issue
#NLP #LanguageModel #SSM (StateSpaceModel) #ICML #Selected Papers/Blogs Issue Date: 2025-03-24 GPT Summary- TransformersとMambaのような状態空間モデル(SSMs)の関連性を示し、SSMsと注意の変種との理論的接続を構築。新たに設計したMamba-2は、速度を2〜8倍向上させながら、Transformersと競争力を維持。 Comment

Mamba2の詳細を知りたい場合に読む

Mamba3:
- [Paper Note] MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10

バグがあり本来の性能が出ていなかった模様:

Loading…


初期化修正は後はGated Delta Netを上回る性能に。

- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel Issue Date: 2026-02-04 GPT Summary- RetNetを提案し、トレーニングの並列化と低コストの推論を実現。再帰と注目の関係を導出し、シーケンスモデリング用の保持メカニズムを提供。並列処理と再帰を組み合わせることで、高効率な長シーケンスモデリングを実現し、性能を維持したままデコーディングの効率を向上。実験によりRetNetの優れたスケーリングと効率的推論を確認。Transformerの強力な後継として位置付け。 Comment

日本語解説: https://zenn.dev/spiralai/articles/a41a934599c7ec

openreview: https://openreview.net/forum?id=UU9Icwbhin

解説: https://medium.com/ai-fusion-labs/retentive-networks-retnet-explained-the-much-awaited-transformers-killer-is-here-6c17e3e8add8




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #ICML #Selected Papers/Blogs #RecurrentModels Issue Date: 2025-08-05 GPT Summary- 自己注意をカーネル特徴マップの線形ドット積として表現することで、Transformersの複雑性を$\mathcal{O}\left(N^2\right)$から$\mathcal{O}\left(N\right)$に削減。これにより、自己回帰型Transformersの速度が最大4000倍向上し、従来のパフォーマンスを維持。 Comment

関連:
- Transformers are Multi-State RNNs, Matanel Oren+, N/A, EMNLP'24

pj page: https://linear-transformers.com




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #Attention #Reasoning #LongSequence #OpenWeight #LongHorizon Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

関連:
- Ring-1T, inclusionAI, 2025.10

MLA + lightning linear attentionのハイブリッド
- MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- [Paper Note] Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention, Zhen Qin+, ICML'24, 2024.05