LinearAttention


Paper/Blog Link My Issue
#NLP #LanguageModel #SSM (StateSpaceModel) #Architecture #ICLR #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-03-18 GPT Summary- 推論効率がLLMの性能に与える影響に注目し、計算量を抑えつつ高い性能を持つモデルの開発が求められている。Transformerモデルは品質は高いが、計算コストが増加するため、サブ二次モデルの必要性が高まっている。しかし、最近の線形モデルは効率を優先した結果、性能が損なわれることも多い。これに対し、我々は状態空間モデル(SSM)に基づく三つの改善策を提案し、Mamba-3モデルを開発した。これにより、下流の言語モデリングタスクで平均精度が大幅に向上し、より少ない状態サイズで同等のパープレキシティを実現した。Mamba-3は性能と効率の向上を示す結果を得た。 Comment

openreview時点でのメモ:
- [Paper Note] MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10

元ポスト:

Loading…

最近はMambaのようなSSM(あるいはlinear attention)とfull attentionのハイブリッドなdecoder-onlyモデルが主流になりつつあるため、抑えておいた方が良いだろう。




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #VideoGeneration/Understandings #Routing #4D (Video) #One-Line Notes #SparseAttention Issue Date: 2026-02-20 GPT Summary- SLA2は、スパース注意とリニア注意を動的に選択する学習可能なルータを導入し、パフォーマンスを向上させる。さらに、アテンションブランチを組み合わせるための比率や量子化を意識した設計を採用。実験により、動画生成モデルで97%のスパース性を達成し、18.6倍の速度向上を実現した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Sparse AttentionとLinear Attentionを動的に選択するルータを学習して効率を向上させる




Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #SmallModel #Selected Papers/Blogs #One-Line Notes #Hybrid #SparseAttention Issue Date: 2026-02-12 GPT Summary- MiniCPM-SALAは、9Bパラメータのハイブリッドアーキテクチャで、疎アテンションと線形アテンションを組み合わせ、長文脈タスクの効率と性能を向上させる。層選択アルゴリズムにより、1:3の比率で統合され、ハイブリッド位置エンコーディングを利用することで、トレーニングコストを約75%削減。広範な実験で、シーケンス長256Kトークン時に推論速度を最大3.5倍向上させ、最大100万トークンの文脈をサポートすることが示された。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts, Yingfa Chen+, arXiv'26, 2026.01

解説:

Loading…

linear attention->sparse attentionをcascadingしたtransformerブロックを持つアーキテクチャ

image

linear attention:
- [Paper Note] Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention, Zhen Qin+, ICML'24, 2024.05

sparse attention:
- [Paper Note] InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation, Weilin Zhao+, arXiv'25, 2025.09




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention #LongSequence #Architecture #ICLR #Selected Papers/Blogs Issue Date: 2026-02-04 GPT Summary- 線形トランスフォーマーの限界を克服するため、ゲーティングとデルタ更新ルールの2つのメカニズムを組み合わせた「Gated DeltaNet」を提案。これにより、迅速なメモリ消去とターゲット更新を実現し、言語モデリングや長文理解などのタスクで既存モデルを上回る性能を達成。ハイブリッドアーキテクチャを用いることでトレーニング効率も向上。 Comment

openreview: https://openreview.net/forum?id=r8H7xhYPwz¬eId=U0uk5A0VlT

linear attention:
- [Paper Note] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention, Angelos Katharopoulos+, ICML'20

Mamba2(linear attention with decay):
- [Paper Note] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML'24




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence #OpenWeight #Architecture #read-later #Selected Papers/Blogs #Reference Collection #Hybrid Issue Date: 2025-10-31 GPT Summary- Kimi Linearは、短・長コンテキスト及び強化学習のシナリオにおいてフルアテンションを超えるハイブリッドな線形アテンションアーキテクチャです。Kimi Delta Attention(KDA)を核とし、ゲーティング機構を拡張した線形アテンションモジュールで、RNNのメモリをより有効利用します。特注のチャンク単位アルゴリズムにより、DPLR遷移行列の効率を向上させ、計算量を大幅に削減します。Kimi Linearモデルは48Bパラメータで事前学習され、評価タスクでMLAを大きく上回り、KVキャッシュ使用量を75%削減し、デコードスループットを6倍向上させました。これにより、フルアテンションアーキテクチャの優れた代替として機能し、長い入力・出力タスクに対応可能であることが示されています。 Comment

HF: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

アーキテクチャ解説:

Loading…

KDAとFull Attention, Sliding Window Attentionの比較:

Loading…


Full Attentionと同等の性能をより効率良く達成できる




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence #ICML #One-Line Notes Issue Date: 2026-02-17 GPT Summary- Lightning Attentionは、一定の学習速度を維持しつつ固定メモリ消費を実現する線形注意の新しい実装です。累積和演算の問題を、異なる計算戦略を用いることで解決し、ブロック内では従来の注意計算を、ブロック間では線形注意のカーネル技術を導入しています。GPUを効率的に活用するためのタイル化技術を採用し、新しいアーキテクチャTransNormerLLM(TNL)を提案。TNLは他のモデルより効率的で、従来のトランスフォーマーと同等の性能を示します。ソースコードは公開されています。 Comment

openreview: https://openreview.net/forum?id=Lwm6TiUP4X&referrer=%5Bthe%20profile%20of%20Yiran%20Zhong%5D(%2Fprofile%3Fid%3D~Yiran_Zhong1)

Ring、MiniCPMで採用されているlinear attentionの一種であるlightning attention




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #SSM (StateSpaceModel) #COLM #Selected Papers/Blogs Issue Date: 2026-02-04 GPT Summary- ファウンデーションモデルはトランスフォーマーを基盤としており、計算非効率性を解決するために新たなアーキテクチャが開発されたが、言語モダリティではあまり効果的でなかった。私たちは内容ベースの推論能力の欠如を特定し、SSMのパラメータを入力に依存させることで、情報の選択的伝播を可能にした。さらに、ハードウェアに適応した並列アルゴリズムを設計し、簡略化されたニューラルネットワークアーキテクチャMambaに統合した。このMambaは、高速な推論とシーケンス長での線形スケーリングを可能にし、言語や音声などで最先端の性能を達成。特にMamba-3Bモデルは、同サイズのトランスフォーマーを上回る性能を示した。 Comment

openreview: https://openreview.net/forum?id=tEYskw1VY2

日本語解説: https://qiita.com/peony_snow/items/649ecb307cd3b5c10aa7

関連:
- [Paper Note] Retentive Network: A Successor to Transformer for Large Language Models, Yutao Sun+, arXiv'23, 2023.07
- [Paper Note] RWKV: Reinventing RNNs for the Transformer Era, Bo Peng+, N/A, EMNLP'23 Findings, 2023.05

Mamba2:
- [Paper Note] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML'24




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #ICML #Selected Papers/Blogs Issue Date: 2026-02-04 GPT Summary- 線形アテンションを持つトランスフォーマーは、効率的な並列トレーニングを実現する一方、通常のソフトマックスアテンションに比べて性能が劣る。提案するFLASHLINEARATTENTIONは、メモリ移動と並列化のトレードオフを考慮し、短いシーケンスで高速な実装を実現。また、データ依存ゲートを追加したゲート付き線形アテンション(GLA)トランスフォーマーは、LLaMAやRetNet、Mambaと比較して競争力のある性能を示し、長さの一般化でも有効。GLAトランスフォーマーは、同サイズのMambaモデルよりも高いトレーニングスループットを持つ。

Paper/Blog Link My Issue
#NLP #LanguageModel #SSM (StateSpaceModel) #ICML #Selected Papers/Blogs #Reference Collection #Initial Impression Notes Issue Date: 2025-03-24 GPT Summary- TransformersとMambaのような状態空間モデル(SSMs)の関連性を示し、SSMsと注意の変種との理論的接続を構築。新たに設計したMamba-2は、速度を2〜8倍向上させながら、Transformersと競争力を維持。 Comment

Mamba2の詳細を知りたい場合に読む

Mamba3:
- [Paper Note] MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10

バグがあり本来の性能が出ていなかった模様:

Loading…


初期化修正は後はGated Delta Netを上回る性能に。

- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12




Paper/Blog Link My Issue
#NeurIPS Issue Date: 2024-02-25 GPT Summary- 研究では、線形transformersが複雑な問題に対して効果的な最適化アルゴリズムを見つける能力を持つことが示された。特に、トレーニングデータが異なるノイズレベルで破損している場合でも、線形transformersは合理的なベースラインを上回るか匹敵する結果を示した。新しいアプローチとして、運動量と再スケーリングを組み込んだ最適化戦略が提案された。これにより、線形transformersが洗練された最適化戦略を発見する能力を持つことが示された。 Comment

openreview: https://openreview.net/forum?id=MWV9zfgW9s




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel Issue Date: 2026-02-04 GPT Summary- RetNetを提案し、トレーニングの並列化と低コストの推論を実現。再帰と注目の関係を導出し、シーケンスモデリング用の保持メカニズムを提供。並列処理と再帰を組み合わせることで、高効率な長シーケンスモデリングを実現し、性能を維持したままデコーディングの効率を向上。実験によりRetNetの優れたスケーリングと効率的推論を確認。Transformerの強力な後継として位置付け。 Comment

日本語解説: https://zenn.dev/spiralai/articles/a41a934599c7ec

openreview: https://openreview.net/forum?id=UU9Icwbhin

解説: https://medium.com/ai-fusion-labs/retentive-networks-retnet-explained-the-much-awaited-transformers-killer-is-here-6c17e3e8add8




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #ICML #Selected Papers/Blogs #RecurrentModels Issue Date: 2025-08-05 GPT Summary- 自己注意をカーネル特徴マップの線形ドット積として表現することで、Transformersの複雑性を$\mathcal{O}\left(N^2\right)$から$\mathcal{O}\left(N\right)$に削減。これにより、自己回帰型Transformersの速度が最大4000倍向上し、従来のパフォーマンスを維持。 Comment

関連:
- Transformers are Multi-State RNNs, Matanel Oren+, N/A, EMNLP'24

pj page: https://linear-transformers.com




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #SSM (StateSpaceModel) #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #Hybrid #LowPrecision Issue Date: 2026-03-12 Comment

元ポスト:

Loading…

解説:

Loading…

artificial analysisによる評価:

Loading…

Swallow LVM Leaderboardに性能が掲載:

Loading…

解説:

Loading…

アーキテクチャ:

Loading…

- NVFP4で学習して gpt-ossより2.2倍高速だが性能も向上
- 88 Layer: 40 Latent MoE / 40 Mamba-2 / 8 GQA Attention
- GQA Attentiom Layerは非常に少なく、ほとんどがMamba-2 (linear attention)となっている
- Latent MoEは入力をそのまま変換するshared expertsと、入力を1/4のlatent vectorに変換した潜在空間上で処理をするLatext expertsの組み合わせによって出力を得る。
- 具体的には、RouterによってTop-22のexpertsを選択し、inputを1/4のlatent vectorに圧縮した上でExpertsに入力。Expertsの出力を加算して4倍のvectorに変換し次元を戻して、別ルートでshared expertsに元の入力次元から変換されたベクトルと組み合わせて出力するようなアーキテクチャ

Latent MoE解説:

Loading…


要はMoEに必要なmatrixが、latent vectorを扱うことで小さくなるのでMoEのWeightのメモリロードのボトルネックが緩和されるだけでなく、

各MoE Laverは異なるGPUやマシンに分散されて配置されるため計算のためにはベクトルのバッチを通信しなければならないがそのコストが削減されスループットの向上につながるので嬉しい、ということだと思われる。

ポイント解説:

Loading…

technical reportが出た:
- [Paper Note] Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'26, 2026.04




Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Attention #OpenWeight #mid-training #read-later #Selected Papers/Blogs #One-Line Notes #RecurrentModels #Hybrid Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

x1のFull Attention + x3のGated DeltaNetによるハイブリッドアーキテクチャで、75%のattentionをlinear attention (recurrent module)に置換。x3のSliding Window Attentionを用いているOlmo3と比較した結果
- 事前学習におけるデータ効率がより高く(約2倍)
- mid-training後の評価では、数学、コード、STEM, non-STEM, QA、long-contextなどの主要なドメインにおいてOlmo3と同と床それ以上の性能を達成。特に、long-contextにおけるベンチマでは大幅な性能向上(Recurrentなアーキテクチャの恩恵)

関連:
- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12

元ポスト:

Loading…

関連:

Loading…

所見:

Loading…




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #Attention #Reasoning #LongSequence #OpenWeight #LongHorizon Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

関連:
- Ring-1T, inclusionAI, 2025.10

MLA + lightning linear attentionのハイブリッド
- MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- [Paper Note] Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention, Zhen Qin+, ICML'24, 2024.05