Hybrid
[Paper Note] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) Issue Date: 2025-12-28 GPT Summary- Nemotron 3 Nano 30B-A3Bは、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであり、25兆のテキストトークンで事前学習され、監視付きファインチューニングと強化学習を経て精度を向上。前世代のNemotron 2 Nanoよりも高精度で、フォワードパスごとに半分未満のパラメータを活性化し、同サイズのオープンモデルと比較して最大3.3倍の推論スループットを達成。エージェント的、推論、チャット能力が向上し、最大1Mトークンのコンテキスト長をサポート。事前学習済みモデルはHugging Faceで公開。 Comment
元ポスト:
[Paper Note] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning, Ling Team+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #Architecture #MoE(Mixture-of-Experts) Issue Date: 2025-10-24 GPT Summary- Ring-linearモデルシリーズ、特にRing-mini-linear-2.0(16Bパラメータ)とRing-flash-linear-2.0(104Bパラメータ)を紹介。両モデルはハイブリッドアーキテクチャを採用し、長いコンテキストの推論でI/Oと計算オーバーヘッドを削減。推論コストは32億パラメータの密なモデルと比較して1/10、元のRingシリーズと比べて50%以上削減。最適なモデル構造を特定し、高性能FP8オペレーターライブラリ「linghe」によりトレーニング効率が50%向上。複数の複雑推論ベンチマークでSOTAパフォーマンスを維持。 Comment
HF: https://huggingface.co/inclusionAI/Ring-flash-linear-2.0-128k
元ポスト:
所見:
[Paper Note] GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models, Min Zeng+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning Issue Date: 2025-09-23 GPT Summary- GTAフレームワークを提案し、SFTの効率性とRLの能力を統合。モデルは仮の推測を生成し、最終的な回答を導出する。ハイブリッドアプローチにより、収束が速く、性能が向上。損失マスキングと勾配制約を用いて勾配の対立を軽減。実験結果はGTAの優位性を示す。 Comment
元ポスト:
[Paper Notes] KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE, Kimi Team, 2025.10
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #OpenWeight #Architecture #read-later Issue Date: 2025-10-31 Comment
HF: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
元ポスト:
所見:
所見:
アーキテクチャ解説: