Hybrid


Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) Issue Date: 2025-12-28 GPT Summary- Nemotron 3 Nano 30B-A3Bは、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであり、25兆のテキストトークンで事前学習され、監視付きファインチューニングと強化学習を経て精度を向上。前世代のNemotron 2 Nanoよりも高精度で、フォワードパスごとに半分未満のパラメータを活性化し、同サイズのオープンモデルと比較して最大3.3倍の推論スループットを達成。エージェント的、推論、チャット能力が向上し、最大1Mトークンのコンテキスト長をサポート。事前学習済みモデルはHugging Faceで公開。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #Architecture #MoE(Mixture-of-Experts) Issue Date: 2025-10-24 GPT Summary- Ring-linearモデルシリーズ、特にRing-mini-linear-2.0(16Bパラメータ)とRing-flash-linear-2.0(104Bパラメータ)を紹介。両モデルはハイブリッドアーキテクチャを採用し、長いコンテキストの推論でI/Oと計算オーバーヘッドを削減。推論コストは32億パラメータの密なモデルと比較して1/10、元のRingシリーズと比べて50%以上削減。最適なモデル構造を特定し、高性能FP8オペレーターライブラリ「linghe」によりトレーニング効率が50%向上。複数の複雑推論ベンチマークでSOTAパフォーマンスを維持。 Comment

HF: https://huggingface.co/inclusionAI/Ring-flash-linear-2.0-128k

元ポスト:

Loading…

所見:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning Issue Date: 2025-09-23 GPT Summary- GTAフレームワークを提案し、SFTの効率性とRLの能力を統合。モデルは仮の推測を生成し、最終的な回答を導出する。ハイブリッドアプローチにより、収束が速く、性能が向上。損失マスキングと勾配制約を用いて勾配の対立を軽減。実験結果はGTAの優位性を示す。 Comment

元ポスト:

Loading…