LLMServingに関する論文・技術記事メモの一覧

LLMServing

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Reasoning #Decoding #Inference #Entropy
Issue Date: 2025-10-30 [Paper Note] Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning, Aman Sharma+, arXiv'25, 2025.10 GPT Summary- エントロピーに基づく新しいフレームワークを提案し、推論タスクにおける大規模言語モデルのトークン効率を向上。シャノンエントロピーを信頼度信号として利用し、早期停止を実現することで、計算コストを25-50%削減。モデルごとに異なるエントロピー閾値を用いて、正しい答えを早期に得ることを認識し、トークン節約とレイテンシ削減を可能にする。精度を維持しつつ一貫したパフォーマンスを示し、現代の推論システムの特徴を明らかに。 Comment

元ポスト:

Loading…

デコード時のエントロピーに応じて、reasoningを打ち切るか否か判定してコスト削減しつつ推論する話な模様

vLLMとかでデフォルトでサポートされてスループット上がったら嬉しいなあ

#EfficiencyImprovement #Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #SoftwareEngineering
Issue Date: 2025-10-16 [Paper Note] Expert-as-a-Service: Towards Efficient, Scalable, and Robust Large-scale MoE Serving, Ziming Liu+, arXiv'25, 2025.09 GPT Summary- EaaSという新しいサービングシステムを提案し、Mixture-of-Experts (MoE)モデルの効率的でスケーラブルな展開を実現。MoEモジュールを独立したステートレスサービスに分解し、リソースの細かいスケーリングとフォールトトレランスを提供。実験により、EaaSはモノリシックシステムと同等のパフォーマンスを維持しつつ、スループットの減少を2%未満に抑え、最大37.5%の計算リソースを節約することが確認された。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #DiffusionModel #read-later #Selected Papers/Blogs
Issue Date: 2025-10-14 [Paper Note] dInfer: An Efficient Inference Framework for Diffusion Language Models, Yuxin Ma+, arXiv'25, 2025.10 GPT Summary- dLLMの推論を効率化するフレームワークdInferを提案。dInferは4つのモジュールに分解され、新しいアルゴリズムと最適化を統合。これにより、出力品質を維持しつつ、推論速度を大幅に向上。HumanEvalで1秒あたり1,100トークンを超え、従来のシステムに比べて10倍のスピードアップを実現。dInferはオープンソースで公開。 Comment

code: https://github.com/inclusionAI/dInfer

とうとうdLLMを高速でinferenceできるフレームワークが出た模様。inclusionAIより。

ポイント解説:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #Architecture #MoE(Mixture-of-Experts) #SoftwareEngineering Issue Date: 2025-05-20 Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures, Chenggang Zhao+, arXiv'25 GPT Summary- DeepSeek-V3は、2,048台のNVIDIA H800 GPUでトレーニングされ、ハードウェア制約に対処するための共同設計を示す。メモリ効率向上のためのマルチヘッド潜在注意や、計算と通信の最適化を図る専門家の混合アーキテクチャ、FP8混合精度トレーニングなどの革新を強調。ハードウェアのボトルネックに基づく将来の方向性について議論し、AIワークロードに応えるためのハードウェアとモデルの共同設計の重要性を示す。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #python #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23 GPT Summary- PagedAttentionを用いたvLLMシステムを提案し、KVキャッシュメモリの無駄を削減し、リクエスト間での柔軟な共有を実現。これにより、同レベルのレイテンシでLLMのスループットを2-4倍向上。特に長いシーケンスや大規模モデルで効果が顕著。ソースコードは公開中。 Comment

（今更ながら）vLLMはこちら:
https://github.com/vllm-project/vllm

現在の主要なLLM Inference/Serving Engineのひとつ。

#EfficiencyImprovement #Pocket #NLP #LanguageModel #python #read-later #Inference Issue Date: 2025-06-12 [Paper Note] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv'23 GPT Summary- SARATHIは、LLMの推論効率を向上させる手法で、プレフィルリクエストをチャンクに分割し、デコードマキシマルバッチを構築することで計算利用率を最大化します。これにより、デコードスループットを最大10倍向上させ、エンドツーエンドスループットも改善。特に、A6000 GPU上のLLaMA-13Bモデルで顕著な性能向上を示し、パイプラインバブルを大幅に削減しました。 Comment

vLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。
![Image](https://github.com/user-attachments/assets/4db0f73d-bdf4-4c2b-a765-2c9b242904f1)

#Article #Tutorial #NLP #LanguageModel #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #Tutorial #NLP #LanguageModel #AIAgents #Japanese #PostTraining Issue Date: 2025-10-05 PFN LLMセミナー, PFN, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #ReinforcementLearning #Repository #Inference Issue Date: 2025-09-11 Checkpoint Engine, MoonshotAI, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #python #Blog #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08 Comment

めっちゃ良さそう

#Article #EfficiencyImprovement #LanguageModel #python #Blog #Decoding #SpeculativeDecoding Issue Date: 2025-08-21 vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05 #Article #EfficiencyImprovement #LanguageModel #Library #python Issue Date: 2025-08-03 LMCache, LMCache, 2025.07 Comment

元ポスト:

Loading…

KV Cacheを色々なところにキャッシュしておいて、prefixだけでなく全てのreused可能なものをキャッシュすることで、TTFTとスループットを大幅に向上するらしい。特にlong contextなタスクで力を発揮し、vLLMと組み合わせると下記のようなパフォーマンス向上結果

#Article #EfficiencyImprovement #NLP #LanguageModel #Decoding #SpeculativeDecoding Issue Date: 2025-07-24 Speculative Decoding：Faster Inference Without Paying for More GPU, ELYZA, 2025.07 #Article #Tutorial #NLP #LanguageModel #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Article #LanguageModel #Library Issue Date: 2025-07-21 LMDeploy, OpenMMLab, 2023.07 #Article #Tutorial #Metrics #NLP #LanguageModel #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)

- P：パラメータ数（単位は10億）
- Q：ビット精度（例：16、32）、8で割ることでビットをバイトに変換
- オーバーヘッド（％）：推論中の追加メモリまたは一時的な使用量（例：KVキャッシュ、アクティベーションバッファ、オプティマイザの状態）
```

↑これ、忘れがちなのでメモ…

すごいメモだ…勉強になります

#Article #NLP #LanguageModel #python #Blog #Repository #MinimalCode Issue Date: 2025-06-22 Nano-vLLM, GeeeekExplorer, 2025.06 Comment

元ポスト:

Loading…

vLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。

#Article #NLP #python Issue Date: 2025-06-20 Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06 Comment

vLLM, SGLangよりもデコーディングが早い模様（図は下記ブログより引用）

ブログ: https://zhihaojia.medium.com/compiling-llms-into-a-megakernel-a-path-to-low-latency-inference-cf7840913c17

元ポスト:

Loading…

#Article #LanguageModel #python #Selected Papers/Blogs Issue Date: 2025-02-12 SGlang, sgl-project, 2024.01 GPT Summary- SGLangは、大規模言語モデルと視覚言語モデルのための高速サービングフレームワークで、バックエンドとフロントエンドの共同設計により迅速なインタラクションを実現します。主な機能には、高速バックエンドランタイム、柔軟なフロントエンド言語、広範なモデルサポートがあり、オープンソースの活発なコミュニティに支えられています。 Comment

- Open R1, HuggingFace, 2025.01

のUpdate2でMath Datasetの生成に利用されたLLM Servingフレームワーク。利用前と比較してスループットが2倍になったとのこと。

CPU, external storageを利用することでTTFTを改善するようになったようで、最大80%TTFTが削減されるとの記述がある。

Loading…

（原理的には元来可能だが計算効率の最適化に基づく誤差によって実装上の問題で実現できていなかった) Deterministic Inferenceをサポート:

Loading…

#Article #NLP #LanguageModel #Library #python #Repository Issue Date: 2024-08-31 NanoFlow, 2024.08 Comment

vLLMよりも2倍程度高速なLLM serving framework。

オフライン評価

オンラインでのlatency評価

機能はvLLMの方が多いが、速度はこちらの方がかなり速そうではある。latencyのrequirementが厳しい場合などは検討しても良いかもしれない。

しかしLLM serving frameworkも群雄割拠ですね。

元ポスト:

Loading…

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 も参照のこと

#Article #EfficiencyImprovement #Library #python #Blog #OpenWeight Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment

[vllm]( https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。

（図はブログ中より引用）

こちらも参照のこと

vLLMの仕組みをざっくりと理解する： https://dalab.jp/archives/journal/vllm/#PagedAttention

vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html