Latencyに関する論文・技術記事メモの一覧

Latency

[Paper Note] Micro Language Models Enable Instant Responses, Wen Cheng+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #One-Line Notes #Reference Collection #EdgeDevices Issue Date: 2026-04-22 GPT Summary- μLMsを導入し、エッジデバイスで即座に文脈に基づく応答の最初の数語を生成し、クラウドモデルがその後を完成させることで、遅延を隠蔽する協調生成フレームワークを設計。経験的結果は、極小モデルでも大規模モデルと同等の生成が可能であることを示し、リソース制約のあるデバイスでの高い応答性を実現。 Comment

元ポスト:

Loading…

オンデバイスのMicro LLM(8M--30M)パラメータが冒頭の単語を生成し、その続きをCloud側のLLMが生成することで、Cloud LLMのlatencyの遅さをマスクする

[Paper Note] STEM: Scaling Transformers with Embedding Modules, Ranajoy Sadhukhan+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #EfficiencyImprovement #Pretraining #NLP #Transformer #LongSequence #Architecture #read-later #Selected Papers/Blogs #Inference #Stability #Interpretability #Author Thread-Post Issue Date: 2026-01-17 GPT Summary- STEMは、Transformersに埋め込みモジュールを用いてスパーシティを効果的に処理し、安定したトレーニングを実現します。FNNのアッププロジェクションを埋め込みのルックアップに置き換え、トークンごとの計算を削減しつつ、性能を向上させます。知識の保存や解釈性を向上させ、長いコンテキストでも効果を発揮。350Mおよび1Bモデルで約3～4%の精度向上を達成し、知識や推論のベンチマークで優れた結果を示しました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Inference-Time Hyper-Scaling with KV Cache Compression, Adrian Łańcucki+, NeurIPS'25, 2025.06

Paper/Blog Link My Issue
#EfficiencyImprovement #LanguageModel #Distillation #NeurIPS #Test-Time Scaling #PostTraining #KV Cache Issue Date: 2026-01-25 GPT Summary- 推論時のスケーリングでは、生成効率と精度のトレードオフが求められる。LLMにおいて生成コストはKVキャッシュのサイズに依存するため、KVキャッシュの圧縮が鍵となる。新手法のダイナミックメモリスパーシフィケーション（DMS）を導入し、学習不要のスパースアテンションよりも高い精度を維持しつつ8倍の圧縮を達成。DMSは重要な情報を保持しつつトークンの削除を遅延させる。実験により、DMSを用いることで複数のLLMファミリーにおいて精度向上を実証した。 Comment

openreview: https://openreview.net/forum?id=8ZiElzQxf1&referrer=%5Bthe%20profile%20of%20Piotr%20Nawrot%5D(%2Fprofile%3Fid%3D~Piotr_Nawrot1)

HF: https://huggingface.co/nvidia/Qwen3-8B-DMS-8x

[Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #SmallModel #OpenWeight #Architecture #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm #Operator Issue Date: 2026-01-23 GPT Summary- SLMの効率的な展開はレイテンシ制約のあるアプリで重要。本研究は、SLMのレイテンシ決定要因を特定し、深さと幅の比率、オペレータ選択が鍵であることを示す。深く細いモデルが精度向上につながるが、トレードオフフロンティアからは外れることがある。新しい効率的アテンションの代替手段を評価し、最適なオペレータを用いた進化的検索フレームワークを開発。さらに重み正規化技術を用い、SLMの性能を向上。新ハイブリッドSLM「Nemotron-Flash」は、精度を平均+5.5%向上させ、レイテンシを大幅に低下、スループットを著しく改善。 Comment

解説:

Loading…

[Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SmallModel #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm Issue Date: 2025-11-25 GPT Summary- 本研究では、小型言語モデル（SLMs）の実デバイスにおけるレイテンシの主要な決定要因を特定し、SLM設計とトレーニングの原則を提供します。深さ-幅比とオペレーター選択がレイテンシに影響を与えることを示し、深く細いモデルが一般的に良好な精度を達成する一方で、必ずしも精度-レイテンシのトレードオフの最前線に位置しないことを発見しました。効率的なアテンションの代替手段を評価し、ハイブリッドSLM内での最適なオペレーターの組み合わせを進化的探索フレームワークで発見。これにより、Nemotron-Flashという新しいSLMファミリーを導入し、精度が平均+5.5%向上し、レイテンシが1.3倍/1.9倍低下、スループットが18.7倍/45.6倍向上しました。 Comment

元ポスト:

Loading…