Latency
#Analysis
#Pocket
#NLP
#LanguageModel
#SmallModel
#read-later
#Selected Papers/Blogs
#EvolutionaryAlgorithm
Issue Date: 2025-11-25 [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11 GPT Summary- 本研究では、小型言語モデル(SLMs)の実デバイスにおけるレイテンシの主要な決定要因を特定し、SLM設計とトレーニングの原則を提供します。深さ-幅比とオペレーター選択がレイテンシに影響を与えることを示し、深く細いモデルが一般的に良好な精度を達成する一方で、必ずしも精度-レイテンシのトレードオフの最前線に位置しないことを発見しました。効率的なアテンションの代替手段を評価し、ハイブリッドSLM内での最適なオペレーターの組み合わせを進化的探索フレームワークで発見。これにより、Nemotron-Flashという新しいSLMファミリーを導入し、精度が平均+5.5%向上し、レイテンシが1.3倍/1.9倍低下、スループットが18.7倍/45.6倍向上しました。 Comment
Issue Date: 2025-11-25 [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11 GPT Summary- 本研究では、小型言語モデル(SLMs)の実デバイスにおけるレイテンシの主要な決定要因を特定し、SLM設計とトレーニングの原則を提供します。深さ-幅比とオペレーター選択がレイテンシに影響を与えることを示し、深く細いモデルが一般的に良好な精度を達成する一方で、必ずしも精度-レイテンシのトレードオフの最前線に位置しないことを発見しました。効率的なアテンションの代替手段を評価し、ハイブリッドSLM内での最適なオペレーターの組み合わせを進化的探索フレームワークで発見。これにより、Nemotron-Flashという新しいSLMファミリーを導入し、精度が平均+5.5%向上し、レイテンシが1.3倍/1.9倍低下、スループットが18.7倍/45.6倍向上しました。 Comment
元ポスト: