SparseAttentionに関する論文・技術記事メモの一覧

SparseAttention

[Paper Note] （Sparse） Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models, Maksim Zhdanov+, ICLR'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #Transformer #ICLR #One-Line Notes #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- 本研究では、MLベースの気象予測のスペクトル劣化に対応する確率的モデル「Mosaic」を提案。三つの故障モードを扱い、アンサンブルメンバーを生成する。1.5°解像度で214Mパラメータを持つMosaicは、高解像度モデルに匹敵する性能を示し、ほぼ完璧なスペクトル整合性を達成。予報は高速に実行可能で、コードも公開中。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=u0KcfOaRc7&referrer=%5Bthe%20profile%20of%20Max%20Welling%5D(%2Fprofile%3Fid%3D~Max_Welling1)

block-sparse attentionによるtransformerベースの天気予報モデル

[Paper Note] BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding, Jiayi Yuan+, MLSys'26 Best Paper, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Training-Free #Selected Papers/Blogs #MLSys #reading #One-Line Notes #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- BLASSTは、LLMsの文脈での推論能力向上のために提案された動的スパースアテンション機構である。固定スカラー閾値を用いて計算を加速し、トレーニング要件を排除、既存フレームワークと容易に統合可能。自動閾値キャリブレーション手法により、最適閾値と文脈長の逆比例関係が明らかにされ、前計算とデコードそれぞれに単一の閾値を利用。現代GPU上でのベンチマークにおいて、前計算とデコードがそれぞれ1.52倍、1.48倍の速度向上を示し、精度を維持した。 Comment

元ポスト:

Loading…

training-freeで単一のスカラー閾値による制御によって、スキップ可能なattention blockをスキップするSparse Attentionとのこと。

非常に使い勝手が良さそうで、50%程度のSparsityにしてもベースラインとなるDense Attentionに対してダウンストリームタスクの性能低下はなく（Table 4)、50%程度のSparsityの場合、prefillとdecode step方法において、Blackwell, Hopperアーキテクチャにおいて約1.3倍の高速化を実現できる（Table5)。

[Paper Note] SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning, Jintao Zhang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Attention Issue Date: 2026-02-21 GPT Summary- トレーニング不要な疎注意法は拡散モデルの高速化に寄与するが、訓練可能な疎注意法が生成品質を維持しながら高い疎性を達成できる理由や制約について考察。これに基づいて、訓練可能な疎注意法SpargeAttention2を提案。ハイブリッドマスキング規則や効率的な実装、生成品質保持のためのファインチューニング目的を含む。実験により、SpargeAttention2は95%のアテンション疎性と16.2倍の速度向上を実現し、従来手法を常に上回る成果を示した。 Comment

元ポスト:

Loading…

[Paper Note] SLA2: Sparse-Linear Attention with Learnable Routing and QAT, Jintao Zhang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #VideoGeneration/Understandings #Routing #4D (Video) #One-Line Notes #LinearAttention Issue Date: 2026-02-20 GPT Summary- SLA2は、スパース注意とリニア注意を動的に選択する学習可能なルータを導入し、パフォーマンスを向上させる。さらに、アテンションブランチを組み合わせるための比率や量子化を意識した設計を採用。実験により、動画生成モデルで97%のスパース性を達成し、18.6倍の速度向上を実現した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Sparse AttentionとLinear Attentionを動的に選択するルータを学習して効率を向上させる

[Paper Note] GLM-5: from Vibe Coding to Agentic Engineering, GLM-5 Team+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #LongSequence #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2026-02-18 GPT Summary- 次世代モデルGLM-5は、エージェント主導のエンジニアリングへ移行し、推論コストを削減しながら長い文脈の忠実度を維持する。新しい非同期強化学習インフラを実装することで、学習効率を向上させ、非同期エージェントRLアルゴリズムにより複雑な相互作用からの学習効果を高める。これによりGLM-5は最先端の性能を達成し、実世界のコーディングタスクでの能力が従来の基準を超えたことが示された。 Comment

元ポスト:

Loading…

解説:

Loading…

ASync RLにおける工夫:

Loading…

[Paper Note] MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling, MiniCPM Team+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #SmallModel #Selected Papers/Blogs #One-Line Notes #Hybrid #LinearAttention Issue Date: 2026-02-12 GPT Summary- MiniCPM-SALAは、9Bパラメータのハイブリッドアーキテクチャで、疎アテンションと線形アテンションを組み合わせ、長文脈タスクの効率と性能を向上させる。層選択アルゴリズムにより、1:3の比率で統合され、ハイブリッド位置エンコーディングを利用することで、トレーニングコストを約75%削減。広範な実験で、シーケンス長256Kトークン時に推論速度を最大3.5倍向上させ、最大100万トークンの文脈をサポートすることが示された。 Comment

元ポスト:

Loading…

解説:

Loading…

linear attention->sparse attentionをcascadingしたtransformerブロックを持つアーキテクチャ

linear attention:
- [Paper Note] Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention, Zhen Qin+, ICML'24, 2024.05

sparse attention:
- [Paper Note] InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation, Weilin Zhao+, arXiv'25, 2025.09

[Paper Note] Prism: Spectral-Aware Block-Sparse Attention, Xinghao Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #LongSequence #VisionLanguageModel #One-Line Notes Issue Date: 2026-02-12 GPT Summary- ブロックスパースアテンションの効率を改善するために、平均プーリングによる粗粒度アテンションの不正確さの原因を分析し、Prismというトレーニング不要のアプローチを提案。Prismは、ブロック選択を高周波数と低周波数に分解し、エネルギーベースの温度キャリブレーションで位置情報を復元。結果、フルアテンションと同等の精度を維持しつつ、最大5.1倍の速度向上を達成。 Comment

pj page: https://efficacious-citrus-7a0.notion.site/Prism-Spectral-Aware-Block-Sparse-Attention-304d97f5df9d80318802f9cb37d18c3e

元ポスト:

Loading…

sparse attentionにおいて、RoPEとmean poolingによるブロックの重要度の同定が組み合わさったときに、mean poolingがlow pass filterの役割を果たし高周波成分が破壊される（ことを理論的に示した）。このため、低周波成分と高周波成分を分けて扱う手法を提案しているという感じの話らしい。

[Paper Note] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing, Yizhao Gao+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #Architecture #KV Cache #Hybrid #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 新しいアーキテクチャ「ハイブリッド疎注意」（HySparse）を提案。全注意層と疎注意層を交互に配置し、疎層のトークン選択を全注意層から導出。これにより、トークンの重要性予測が簡素化され、KVキャッシュの再利用が可能に。評価では、7B密集モデルと80B MoEモデルの両方で全注意およびハイブリッドSWAのベースラインを超え、特に49層の80B MoEモデルで顕著な性能向上とKVキャッシュの10倍削減を実現。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Full attentionとsparse attentionを組み合わせたアーキテクチャの提案で、Full attentionと同等以上の性能を効率的に達成し、sparse attentionではfull attentionのKV Cacheを再利用するように設計されていることから、KV Cacheのスペースを大幅に削減できて嬉しい、という話に見える。

[Paper Note] InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation, Weilin Zhao+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence Issue Date: 2026-02-17 GPT Summary- 長いシーケンス処理のためのInfLLM-V2フレームワークを提案。密-疎切替可能な注意機構により、短い入力には密な注意を、長い入力にはスパース注意を使用し、パラメータを再利用して計算効率を向上。実験では、InfLLM-V2は密な注意より4倍速く、長文理解で98.1%、思考推論で99.7%の性能を維持。再現可能なハイブリッド推論モデルMiniCPM4.1を訓練・オープンソース化。

[Paper Note] The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs, Piotr Nawrot+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Evaluation #LongSequence #read-later #Selected Papers/Blogs #Initial Impression Notes #Author Thread-Post Issue Date: 2026-01-30 GPT Summary- スパースアテンションは、Transformer LLMの長文コンテキスト処理能力を向上させるが、その効率と精度のトレードオフは未評価である。本研究では、最大128Kトークンのシーケンスに対して、6つの手法を9つのタスクで分析し、スパースアテンションの効果的利用を示した。主な発見は、より大きなスパースモデルが小さな密なモデルを上回ること、トークンの重要度推定は計算制約で実現しにくいものの他の選択肢が効果的であること、長いシーケンスが高いスパース性を許容すること。これにより、スパースアテンション導入についての実践的ガイダンスを提供した。 Comment

元ポスト:

Loading…

最近多くなってきたsparse attentionに関する非常に大きな実験で、かつ過去な提案されたものの分類などもされているようなのでsparse attentionに対する理解が深められそう。これは気になる。そして著者にSebastian Ruder氏の名前が。

[Paper Note] Efficient Context Scaling with LongCat ZigZag Attention, Chen Zhang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Attention #LongSequence #Architecture Issue Date: 2026-01-15 GPT Summary- LoZAは、フルアテンションモデルをスパースバージョンに変換するためのスパースアテンションスキームであり、長いコンテキストでの計算効率を向上させる。これにより、リトリーバル拡張生成やツール統合推論において顕著な速度向上が実現。LongCat-Flashの中間トレーニングに適用することで、1百万トークンまで迅速に処理可能な基盤モデルを提供し、効率的な長期推論が可能となる。 Comment

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-ZigZag

元ポスト:

Loading…

[Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-12-01 GPT Summary- DeepSeek-V3.2を紹介。主な技術革新は、(1) 効率的なアテンション機構DSAにより長い文脈での性能を維持しつつ計算複雑性を削減、(2) スケーラブルな強化学習によりGPT-5に匹敵する性能を達成、特にDeepSeek-V3.2-SpecialeはGPT-5を上回り、International Mathematics OlympiadおよびInternational Olympiad in Informaticsで金メダル級の性能を示す。(3) 新規合成パイプラインにより大規模な訓練データ生成を実現し、複雑な環境での一般化と指示遵守の向上を図る。 Comment

HF: https://huggingface.co/deepseek-ai/DeepSeek-V3.2

GPT-5級のスコアを獲得している。なんということだ。

公式ポスト:

Loading…

vLLM recipe:
https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html

元ポスト:

Loading…

所見:

Loading…

事前学習にさらに計算機リソースを投下する見込みとのこと:

Loading…

解説:

Loading…

解説:

Loading…

所見:

Loading…

解説:
https://www.linkedin.com/posts/vinija_deepseek-v32-a-major-leap-for-open-reasoning-activity-7401524268850970624-eAvV?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

artificial analysisによる評価ではOpen Weightモデルの中ではKimi K2 Thinkingに次いで2番目の性能:

Loading…

- Introducing Kimi K2 Thinking, MoonshotAI, 2025.11

所見:

Loading…

DeepSeek Sparse Attention (DSA)

DSAの図解:

Loading…

要は、Lightning Indexerによって過去のkeyをキャッシュしておき、現在のtokenに関するQueryが与えられたときに、QueryとKe?からQueryにとって重要なKey Top-kを選択した上で、Top-kのKeyに対してMLAを実行する(Sparse Attentionの一種とみなせる）。

Top-kのtokenに対してのみAttentionの計算が走るので、計算量のオーダーが系列長をNとするとO(N^2)からO(Nk)となり、線形のオーダーとなり計算量が削減される。

また、MLAによって、すべてのKV Cacheをそのまま保持する必要がなく、個々のKV Cacheを圧縮した小さなtiny latent vectorを保持し、それを復元する重み行列を保持すれば良いので、メモリも効率化されている。

DSAは計算量を削減し、MLAはメモリを削減する。

MLAはこちら:
- [Paper Note] DeepSeek-V3 Technical Report, DeepSeek-AI+, arXiv'24, 2024.12

[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…

[Paper Note] vAttention: Verified Sparse Attention, Aditya Desai+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #Architecture #Sparse Issue Date: 2025-10-08 GPT Summary- vAttentionは、トップ-$k$とランダムサンプリングを統合した新しいスパースアテンションメカニズムで、ユーザー指定の$(\epsilon, \delta)$保証を提供し、近似精度を向上させる。これにより、スパースアテンションの実用性と信頼性が向上し、フルアテンションと同等の品質を保ちながら、最大20倍のスパース性を実現。推論シナリオでも迅速なデコーディングが可能で、実験により性能の向上が確認された。コードはオープンソースで公開されている。 Comment

元ポスト:

Loading…

[Paper Note] VideoNSA: Native Sparse Attention Scales Video Understanding, Enxin Song+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Attention #LongSequence #VideoGeneration/Understandings #VisionLanguageModel #Sparse Issue Date: 2025-10-04 GPT Summary- VideoNSAは、ビデオ理解のためにNative Sparse Attentionを適用し、長い時間スケールでの一貫性を向上させる手法。216Kのビデオ指示データセットでQwen2.5-VLをエンドツーエンドでトレーニングし、テキストには密な注意、ビデオにはNSAを使用。トークン圧縮や従来のスパースベースラインと比較して、長いビデオ理解や時間的推論で性能が向上。アブレーション分析により、信頼性のあるスケーリングや注意の最適配分などの重要な発見が得られた。 Comment

元ポスト:

Loading…

[Paper Note] Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation, Shuo Yang+, NeurIPS'25 Spotlight, 2025.05

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #Architecture #NeurIPS #VideoGeneration/Understandings #Sparse Issue Date: 2025-09-27 GPT Summary- Diffusion Transformers（DiTs）の動画生成におけるレイテンシーの問題を解決するため、重要トークンの特定精度を最大化し計算の無駄を最小化するトレーニング不要のフレームワークSVG2を提案。SVG2は意味に基づくトークンのクラスタリングと再配置を行い、計算効率を向上させる。これにより、HunyuanVideoおよびWan 2.1でそれぞれ最大2.30倍および1.89倍のスピードアップを達成し、PSNRを維持。 Comment

元ポスト:

Loading…

pj page: https://svg-project.github.io/v2/

Q, Kそれぞれについて独立してkmeansクラスタリングを実施し、意味的に類似したQ, Kをクラスタ化し、map上で散らばっているトークンの配置を整頓して計算機上で効率的に扱えるようにし、各クラスタのcentroidをattention scoreの計算に用いてクラスタ内のトークンのスコアを近似することで計算を効率化します、といった話な模様。また、クリティカルなクラスタとそうでは無いものがあるので、p個のクリティカルなクラスタを選択しさらに効率化をする模様。

[Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12

Paper/Blog Link My Issue
#Survey #ComputerVision #EfficiencyImprovement #NLP #Transformer #Attention #Sparse Issue Date: 2025-11-30 GPT Summary- 本論文では、計算効率やメモリ効率を向上させることに焦点を当てた「X-former」モデル（Reformer、Linformer、Performer、Longformerなど）の大規模なセレクションを紹介し、最近の研究を体系的かつ包括的にまとめる。Transformersは自然言語処理を含む多くの分野で重要な役割を果たしている。 Comment

[Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #LongSequence #NeurIPS #Sparse Issue Date: 2025-11-30 GPT Summary- BigBirdは、Transformersモデルのシーケンス長に対する二次的依存性を線形に削減するスパース注意メカニズムを提案。これにより、長いシーケンスを最大8倍処理可能となり、質問応答や要約などのNLPタスクでの性能が向上。さらに、ゲノムデータへの新たな応用も示唆。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/KVV8VP-dlvisual-grounding-of-learned-physical-models-238500048

[Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #One-Line Notes #Sparse Issue Date: 2025-08-09 GPT Summary- Longformerは、長いシーケンスを線形に処理できる注意機構を持つTransformerベースのモデルで、数千トークンの文書を扱える。局所的なウィンドウ注意とタスクに基づくグローバル注意を組み合わせ、文字レベルの言語モデリングで最先端の結果を達成。事前学習とファインチューニングを行い、長文タスクでRoBERTaを上回る性能を示した。また、Longformer-Encoder-Decoder（LED）を導入し、長文生成タスクにおける効果を確認した。 Comment

（固定された小さめのwindowsサイズの中でのみattentionを計算する）sliding window attentionを提案。Figure2を見ると、通常のAttentionと比較して、現在のトークンの周辺のトークンにしか注目しない特性が図示されており、イメージが掴みやすい。

OpenLLMの文脈だと、Mistralに採用されて話題になったかも？
- Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23

[Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #ICLR #Sparse Issue Date: 2025-08-05 GPT Summary- 本研究では、トランスフォーマーモデルの効率を向上させるために、局所感度ハッシュを用いた注意機構と可逆残差層を提案。これにより、計算量をO($L^2$)からO($L\log L$)に削減し、メモリ効率と速度を向上させたReformerモデルを実現。トランスフォーマーと同等の性能を維持。 Comment

openreview: https://openreview.net/forum?id=rkgNKkHtvB

[Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04

Paper/Blog Link My Issue
#ComputerVision #Transformer #LongSequence #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-30 GPT Summary- スパース因子分解を用いてトランスフォーマーの注意行列を$O(n \sqrt{n})$に削減し、深いネットワークの訓練やメモリ節約のための手法を導入。スパーストランスフォーマーは数百層で数万タイムステップのシーケンスをモデル化し、Enwik8、CIFAR-10、ImageNet-64で新たな最先端を達成。自己注意を用いて100万以上の長さのシーケンスをモデル化する可能性を示す。 Comment

Sparse Attentionの概念を提案した研究。以下Surveyより
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04

HiSparse: Turbocharging Sparse Attention with Hierarchical Memory, LMSYS, 2026.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #Attention #Blog #KeyPoint Notes #KV Cache Issue Date: 2026-04-28 Comment

元ポスト:

Loading…

SparseAttentionはattention計算をする際にtop-kのトークンのみを用いて計算する手法であり、token単位でactivateされるKV Cacheを減らすことができるが、top-kで選択されたトークンのKV Cacheに対して迅速にアクセスをしなければならないためHBM上にKV Cacheを全てロードしておかなければならない。このため、memory-boundな処理になりがちである。このような場合、同時アクセス数が増えたときに、HBMが飽和して、一定サイズの同時アクセスを超えるとスループットが向上しなくなる課題がある。

これを克服するために、HiSparseと呼ばれる手法を提案している。具体的には、頻繁にアクセスされるKV CacheのみをHBM上に置いておき、使わないものはホストメモリにオフロードしておき必要に応じてswapするというものである。top-kのトークンとしてどれが必要か、それがHBM(バッファ）上に存在するか、存在しない場合はLRUでホストメモリとバッファのエントリをswapするといった操作を高速で実現するカーネルに基づいて、効率的に実施されるようである。

[Paper Note] DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence, DeepSeek-AI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Infrastructure #AIAgents #Attention #LongSequence #PositionalEncoding #Optimizer #OpenWeight #Architecture #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #RewardModel #Reference Collection #KV Cache #Compression #GenerativeVerifier #ResidualStream #SelfDistillation #Author Thread-Post Issue Date: 2026-04-24 Comment

HF: https://huggingface.co/collections/deepseek-ai/deepseek-v4

元ポスト:

Loading…

とうとうでました

所見:

Loading…

所見:

Loading…

Artificial Analysisによる評価:

Loading…

所見:

Loading…

所見:
-

Loading…

所見:

Loading…

1Mコンテキストにおいて、V3.2と比較してわずか10%のKV Cacheしか必要としないとのこと。

所見:

Loading…

1Mトークンのcontext windowを実用的にするために最新の叡智が詰め込まれまくっているという感じのようである。うーむ読むしかない

所見:

Loading…

RTX 6000で4基でFlashが動いたよ、という報告に見える:

Loading…

解説:

Loading…

所見:

Loading…

Self Rewarding LMsのコンセプトが利用されている:

Loading…

Proは、Flashをlong contextを扱える様々なドメインのスペシャリストとして訓練し、OPDによって蒸留されたものなのでは？という話:

Loading…

論文中に疑問点をアノテーションした結果が共有されている:

Loading…

GLM-5: From Vibe Coding to Agentic Engineering, Z.ai, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #LongHorizon Issue Date: 2026-02-12 Comment

GLMシリーズの最新モデルGLM-5がリリースされた

元ポスト:

Loading…

- DeepSeek Sparse Attentionを採用:
- DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09
- [Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
- 事前学習データを23Tから28.5Tトークンへ
- パラメータ数は4.5の355B-A32から744B-A40Bへ
- RLのインフラとして4.5から引き続きSlimeを採用
- slime, THUDM & Zhihu, 2025.09
- long-horizonなタスクに秀でており、reasoning, coding, agenticタスクにおける各種ベンチマークでOpus 4.5, GPT-5.2, Gemini 3 Proと同等程度の性能

FP8版も公開されている模様（Hopper以後のアーキテクチャでないとサポートされていない点に注意

所見:

Loading…

元ポスト:

Loading…

unslothがGGUF版をすでにリリースしている模様。早い:
https://unsloth.ai/docs/models/glm-5

アーキテクチャ解説:

Loading…

アーキテクチャ解説:

Loading…

所見:

Loading…

DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #OpenWeight #Reference Collection #Sparse Issue Date: 2025-09-29 Comment

元ポスト:

Loading…

DeepSeek Sparse Attentionポイント解説:

Loading…

解説:

Loading…

DSA図解:

Loading…

ポイント解説:

Loading…

公式ポスト:

Loading…