Sparse


Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Stability Issue Date: 2026-02-21 GPT Summary- Arcee Trinity Largeは4000億パラメータを持ち、130億のスパースMoEとして設計されている。Trinity Nano(60億パラメータ)とTrinity Mini(260億パラメータ)も報告されており、各モデルには局所的およびグローバルな注意機構、ゲート付き注意、深さスケールされた正規化、MoEのシグモイド・ルーティングが採用されている。Trinity Largeには新しいMoEロードバランシング戦略のSMEBUが導入され、Muonオプティマイザーで訓練された。すべてのモデルは損失のスパイクなしで訓練を完了し、Trinity NanoとTrinity Miniは10兆トークン、Trinity Largeは17兆トークンで事前学習された。モデルのチェックポイントはHugging Faceで利用可能。 Comment

モデル:
- Trinity Large, Arcee, 2026.01




Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #Architecture #SparseAttention Issue Date: 2025-10-08 GPT Summary- vAttentionは、トップ-$k$とランダムサンプリングを統合した新しいスパースアテンションメカニズムで、ユーザー指定の$(\epsilon, \delta)$保証を提供し、近似精度を向上させる。これにより、スパースアテンションの実用性と信頼性が向上し、フルアテンションと同等の品質を保ちながら、最大20倍のスパース性を実現。推論シナリオでも迅速なデコーディングが可能で、実験により性能の向上が確認された。コードはオープンソースで公開されている。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Attention #LongSequence #VideoGeneration/Understandings #VisionLanguageModel #SparseAttention Issue Date: 2025-10-04 GPT Summary- VideoNSAは、ビデオ理解のためにNative Sparse Attentionを適用し、長い時間スケールでの一貫性を向上させる手法。216Kのビデオ指示データセットでQwen2.5-VLをエンドツーエンドでトレーニングし、テキストには密な注意、ビデオにはNSAを使用。トークン圧縮や従来のスパースベースラインと比較して、長いビデオ理解や時間的推論で性能が向上。アブレーション分析により、信頼性のあるスケーリングや注意の最適配分などの重要な発見が得られた。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #Architecture #NeurIPS #VideoGeneration/Understandings #SparseAttention Issue Date: 2025-09-27 GPT Summary- Diffusion Transformers(DiTs)の動画生成におけるレイテンシーの問題を解決するため、重要トークンの特定精度を最大化し計算の無駄を最小化するトレーニング不要のフレームワークSVG2を提案。SVG2は意味に基づくトークンのクラスタリングと再配置を行い、計算効率を向上させる。これにより、HunyuanVideoおよびWan 2.1でそれぞれ最大2.30倍および1.89倍のスピードアップを達成し、PSNRを維持。 Comment

元ポスト:

Loading…

pj page: https://svg-project.github.io/v2/

Q, Kそれぞれについて独立してkmeansクラスタリングを実施し、意味的に類似したQ, Kをクラスタ化し、map上で散らばっているトークンの配置を整頓して計算機上で効率的に扱えるようにし、各クラスタのcentroidをattention scoreの計算に用いてクラスタ内のトークンのスコアを近似することで計算を効率化します、といった話な模様。また、クリティカルなクラスタとそうでは無いものがあるので、p個のクリティカルなクラスタを選択しさらに効率化をする模様。
image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #Initial Impression Notes Issue Date: 2025-09-19 GPT Summary- 強化学習(RL)は、LLMsのパフォーマンスと人間の価値観の整合性を大幅に改善する。驚くべきことに、パラメータの5%から30%の小さなサブネットワークのみを更新することで実現されるスパース性が観察され、これは7つのRLアルゴリズムと10のLLMで共通して見られた。このスパース性は本質的であり、サブネットワークのファインチューニングによってテスト精度が回復し、ほぼ同一のモデルが生成される。更新はほぼフルランクであり、ポリシー分布に近いデータでのトレーニングが主な要因と考えられる。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=0NdS4xCngO

RLの挙動を理解する上で役に立ちそうで興味深い。以下とは何か関連があるのだろうか:
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
- [Paper Note] From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning, Sitao Cheng+, arXiv'25, 2025.12




Paper/Blog Link My Issue
#Survey #ComputerVision #EfficiencyImprovement #NLP #Transformer #Attention #SparseAttention Issue Date: 2025-11-30 GPT Summary- 本論文では、計算効率やメモリ効率を向上させることに焦点を当てた「X-former」モデル(Reformer、Linformer、Performer、Longformerなど)の大規模なセレクションを紹介し、最近の研究を体系的かつ包括的にまとめる。Transformersは自然言語処理を含む多くの分野で重要な役割を果たしている。 Comment

関連:
- [Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12
- [Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07
- [Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #LongSequence #NeurIPS #SparseAttention Issue Date: 2025-11-30 GPT Summary- BigBirdは、Transformersモデルのシーケンス長に対する二次的依存性を線形に削減するスパース注意メカニズムを提案。これにより、長いシーケンスを最大8倍処理可能となり、質問応答や要約などのNLPタスクでの性能が向上。さらに、ゲノムデータへの新たな応用も示唆。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/KVV8VP-dlvisual-grounding-of-learned-physical-models-238500048




Paper/Blog Link My Issue
#MachineLearning #ReinforcementLearning #NeurIPS #Diversity Issue Date: 2025-10-22 GPT Summary- スパース報酬の強化学習において、過去の成功した軌道を利用する手法は短期的な行動を促す可能性がある。本研究では、多様な過去の軌道を追跡し拡張する軌道条件付きポリシーを提案し、エージェントが多様な状態に到達できるようにする。実験により、複雑なタスクにおいて従来の手法を大幅に上回り、特にアタリゲームで最先端のスコアを達成した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #One-Line Notes #SparseAttention Issue Date: 2025-08-09 GPT Summary- Longformerは、長いシーケンスを線形に処理できる注意機構を持つTransformerベースのモデルで、数千トークンの文書を扱える。局所的なウィンドウ注意とタスクに基づくグローバル注意を組み合わせ、文字レベルの言語モデリングで最先端の結果を達成。事前学習とファインチューニングを行い、長文タスクでRoBERTaを上回る性能を示した。また、Longformer-Encoder-Decoder(LED)を導入し、長文生成タスクにおける効果を確認した。 Comment

(固定された小さめのwindowsサイズの中でのみattentionを計算する)sliding window attentionを提案。Figure2を見ると、通常のAttentionと比較して、現在のトークンの周辺のトークンにしか注目しない特性が図示されており、イメージが掴みやすい。

image

OpenLLMの文脈だと、Mistralに採用されて話題になったかも?
- Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #ICLR #SparseAttention Issue Date: 2025-08-05 GPT Summary- 本研究では、トランスフォーマーモデルの効率を向上させるために、局所感度ハッシュを用いた注意機構と可逆残差層を提案。これにより、計算量をO($L^2$)からO($L\log L$)に削減し、メモリ効率と速度を向上させたReformerモデルを実現。トランスフォーマーと同等の性能を維持。 Comment

openreview: https://openreview.net/forum?id=rkgNKkHtvB




Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #NLP #ReinforcementLearning #ACL #Decoder #KeyPoint Notes Issue Date: 2017-12-31 GPT Summary- 再帰型ニューラルネットワーク(RNN)は自然言語処理での可能性を示すが、長文の処理が遅い。本論文では、無関係な情報をスキップしながらテキストを読むアプローチを提案。モデルは、入力テキストの数語を読んだ後にジャンプする距離を学習し、ポリシー勾配法で訓練。数値予測や自動Q&Aなど4つのタスクで、提案モデルは標準LSTMに比べて最大6倍の速度向上を達成し、精度も維持。 Comment

解説スライド: http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/07.pdf

Reinforceにおける勾配の更新式の導出が丁寧に記述されており大変ありがたい。

RNNにおいて重要な部分以外は読み飛ばすことで効率を向上させる研究。いくつ読み飛ばすかも潜在変数として一緒に学習する。潜在変数(離散変数)なので、普通に尤度最大化するやり方では学習できず、おまけに離散変数なのでバックプロパゲーション使えないので、強化学習で学習する。



Vanilla LSTMと比較し、色々なタスクで実験した結果、性能も(少し)上がるし、スピードアップもする。

うーんこの研究は今改めて見返すと非常に面白いな…(8年も経ったのか)。ざっくり言うと必要のない部分は読み飛ばして考慮しないという話であり、最近のLLMでもこういった話はよくやられている印象。一番近いのはSparse Attentionだろうか。
- [Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12
- [Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07
- [Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20

トークン単位などはなくlayerをスキップするとかもある(Layer Skip)。
- [Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #One-Line Notes #Reference Collection #Initial Impression Notes Issue Date: 2026-01-29 Comment

テクニカルレポート: https://github.com/arcee-ai/trinity-large-tech-report/
HF: https://huggingface.co/arcee-ai

GLM4.7やDeepSeekV3と比較してスループットやTTFTが二倍以上。

非常にsparseなMoE(400B-A13B, 4/256のexpertsにルーティング)であるため学習を安定させるためにDense layerを増やし、モメンタムを考慮したexpertのバランシングや、z-lossと呼ばれるlogitのスケールをコントロールするような手法を導入することで安定した学習を実現。2048 Nvidia B300 GPUsで、17Tトークンの事前学習33日で完了

元ポスト:

Loading…

これほどsparseなMoEをここまで安定させて学習できるのは非常に興味深いと思われる。

インタビュー:

Loading…


やると決めてチームビルディングも含めて非常に短期間(6ヶ月)で達成したとのことだが、気になる。

解説:

Loading…

所見(風刺):

Loading…

ポイント解説:

Loading…

アーキテクチャ解説:

Loading…




Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #Routing #Initial Impression Notes Issue Date: 2026-01-23 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning, Lili Yu+, arXiv'23

MoEがトークン単位でactivateするweightをサブセットにするweight sparcityによって効率化を実現する手法とみなしたときに、それぞれのinputに情報量の濃淡があることから現在のトークンごとにweightを割り当てるのではなく、weightごとにトークンを割り当てるというもう一つの軸を考えることができ(=Data Sparcity)、これをweightごとにトークンのsubsetしか持たないような実現方法をとるとcontextが損なわれauto-regressiveの前提が崩れるためtrain-inference-mismatchが生じるので、null experts(受け取ったトークンに対して何もしない)を実装して実現するみたいな話のように見えるが全くまだ読めていない。




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #ImageSynthesis #Initial Impression Notes Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモーダルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?

アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。

OmniモーダルでUMMを大規模にスクラッチから事前学習:
- [Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02