Operator
[Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #SmallModel #OpenWeight #Architecture #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm #Latency Issue Date: 2026-01-23 GPT Summary- SLMの効率的な展開はレイテンシ制約のあるアプリで重要。本研究は、SLMのレイテンシ決定要因を特定し、深さと幅の比率、オペレータ選択が鍵であることを示す。深く細いモデルが精度向上につながるが、トレードオフフロンティアからは外れることがある。新しい効率的アテンションの代替手段を評価し、最適なオペレータを用いた進化的検索フレームワークを開発。さらに重み正規化技術を用い、SLMの性能を向上。新ハイブリッドSLM「Nemotron-Flash」は、精度を平均+5.5%向上させ、レイテンシを大幅に低下、スループットを著しく改善。 Comment
解説:
Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #FoundationModel #Blog #OpenWeight #RecurrentModels Issue Date: 2025-09-26 Comment
元ポスト:
LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。
アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。
メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。
