LLMServingに関する論文・技術記事メモの一覧

LLMServing

[Paper Note] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models, Long Lian+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #Decoding #Parallel Issue Date: 2025-12-10 GPT Summary- ThreadWeaverは、適応型並列推論のフレームワークで、逐次推論モデルと同等の精度を保ちながら推論の遅延を大幅に削減します。主な革新は、二段階の並列軌道生成器、オフ・ザ・シェルフの自己回帰推論エンジンでの並列推論、並列化意識のある強化学習フレームワークです。これにより、数学的推論ベンチマークで高い精度を維持しつつ、最大1.53倍のスピードアップを達成しました。 Comment

元ポスト:

Loading…

[Paper Note] Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning, Aman Sharma+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Reasoning #Decoding #Inference #Entropy Issue Date: 2025-10-30 GPT Summary- エントロピーに基づく新しいフレームワークを提案し、推論タスクにおける大規模言語モデルのトークン効率を向上。シャノンエントロピーを信頼度信号として利用し、早期停止を実現することで、計算コストを25-50%削減。モデルごとに異なるエントロピー閾値を用いて、正しい答えを早期に得ることを認識し、トークン節約とレイテンシ削減を可能にする。精度を維持しつつ一貫したパフォーマンスを示し、現代の推論システムの特徴を明らかに。 Comment

元ポスト:

Loading…

デコード時のエントロピーに応じて、reasoningを打ち切るか否か判定してコスト削減しつつ推論する話な模様

vLLMとかでデフォルトでサポートされてスループット上がったら嬉しいなあ

[Paper Note] Expert-as-a-Service: Towards Efficient, Scalable, and Robust Large-scale MoE Serving, Ziming Liu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #SoftwareEngineering Issue Date: 2025-10-16 GPT Summary- EaaSという新しいサービングシステムを提案し、Mixture-of-Experts (MoE)モデルの効率的でスケーラブルな展開を実現。MoEモジュールを独立したステートレスサービスに分解し、リソースの細かいスケーリングとフォールトトレランスを提供。実験により、EaaSはモノリシックシステムと同等のパフォーマンスを維持しつつ、スループットの減少を2%未満に抑え、最大37.5%の計算リソースを節約することが確認された。 Comment

元ポスト:

Loading…

[Paper Note] dInfer: An Efficient Inference Framework for Diffusion Language Models, Yuxin Ma+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #DiffusionModel #read-later #Selected Papers/Blogs Issue Date: 2025-10-14 GPT Summary- dLLMの推論を効率化するフレームワークdInferを提案。dInferは4つのモジュールに分解され、新しいアルゴリズムと最適化を統合。これにより、出力品質を維持しつつ、推論速度を大幅に向上。HumanEvalで1秒あたり1,100トークンを超え、従来のシステムに比べて10倍のスピードアップを実現。dInferはオープンソースで公開。 Comment

code: https://github.com/inclusionAI/dInfer

とうとうdLLMを高速でinferenceできるフレームワークが出た模様。inclusionAIより。

ポイント解説:

Loading…

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures, Chenggang Zhao+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #Architecture #MoE(Mixture-of-Experts) #SoftwareEngineering Issue Date: 2025-05-20 GPT Summary- DeepSeek-V3は、2,048台のNVIDIA H800 GPUでトレーニングされ、ハードウェア制約に対処するための共同設計を示す。メモリ効率向上のためのマルチヘッド潜在注意や、計算と通信の最適化を図る専門家の混合アーキテクチャ、FP8混合精度トレーニングなどの革新を強調。ハードウェアのボトルネックに基づく将来の方向性について議論し、AIワークロードに応えるためのハードウェアとモデルの共同設計の重要性を示す。 Comment

元ポスト:

Loading…

[Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #python #Selected Papers/Blogs Issue Date: 2025-08-19 GPT Summary- PagedAttentionを用いたvLLMシステムを提案し、KVキャッシュメモリの無駄を削減し、リクエスト間での柔軟な共有を実現。これにより、同レベルのレイテンシでLLMのスループットを2-4倍向上。特に長いシーケンスや大規模モデルで効果が顕著。ソースコードは公開中。 Comment

（今更ながら）vLLMはこちら:
https://github.com/vllm-project/vllm

現在の主要なLLM Inference/Serving Engineのひとつ。

[Paper Note] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv'23

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #python #read-later #Inference Issue Date: 2025-06-12 GPT Summary- SARATHIは、LLMの推論効率を向上させる手法で、プレフィルリクエストをチャンクに分割し、デコードマキシマルバッチを構築することで計算利用率を最大化します。これにより、デコードスループットを最大10倍向上させ、エンドツーエンドスループットも改善。特に、A6000 GPU上のLLaMA-13Bモデルで顕著な性能向上を示し、パイプラインバブルを大幅に削減しました。 Comment

vLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。
![Image](https://github.com/user-attachments/assets/4db0f73d-bdf4-4c2b-a765-2c9b242904f1)

SpecBundle & SpecForge v0.2: Production-Ready Speculative Decoding Models and Framework, Spec Forge Team+, lmsys org, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SpeculativeDecoding Issue Date: 2025-12-28 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lmsys/specbundle

mini-sglang: A compact implementation of SGLang, designed to demystify the complexities of modern LLM serving systems, sgl-project, 2025

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #python #Repository #SoftwareEngineering #read-later #Selected Papers/Blogs #MinimalCode Issue Date: 2025-12-28 Comment

元ポスト:

Loading…

めっちゃ勉強したい

LightX2V: Light Video Generation Inference Framework, ModelTC, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #Library #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-12-24 Comment

元ポスト:

Loading…

Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

PFN LLMセミナー, PFN, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #Japanese #PostTraining Issue Date: 2025-10-05 Comment

元ポスト:

Loading…

Checkpoint Engine, MoonshotAI, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Repository #Inference Issue Date: 2025-09-11 Comment

元ポスト:

Loading…

Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #Blog #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Comment

めっちゃ良さそう

vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #LanguageModel #python #Blog #Decoding #SpeculativeDecoding Issue Date: 2025-08-21

LMCache, LMCache, 2025.07

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #LanguageModel #Library #python Issue Date: 2025-08-03 Comment

元ポスト:

Loading…

KV Cacheを色々なところにキャッシュしておいて、prefixだけでなく全てのreused可能なものをキャッシュすることで、TTFTとスループットを大幅に向上するらしい。特にlong contextなタスクで力を発揮し、vLLMと組み合わせると下記のようなパフォーマンス向上結果

Speculative Decoding：Faster Inference Without Paying for More GPU, ELYZA, 2025.07

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Decoding #SpeculativeDecoding Issue Date: 2025-07-24

```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)

- P：パラメータ数（単位は10億）
- Q：ビット精度（例：16、32）、8で割ることでビットをバイトに変換
- オーバーヘッド（％）：推論中の追加メモリまたは一時的な使用量（例：KVキャッシュ、アクティベーションバッファ、オプティマイザの状態）
```

↑これ、忘れがちなのでメモ…

すごいメモだ…勉強になります

Nano-vLLM, GeeeekExplorer, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #Blog #Repository #MinimalCode Issue Date: 2025-06-22 Comment

元ポスト:

Loading…

vLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。

Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06

Paper/Blog Link My Issue
#Article #NLP #python Issue Date: 2025-06-20 Comment

vLLM, SGLangよりもデコーディングが早い模様（図は下記ブログより引用）

ブログ: https://zhihaojia.medium.com/compiling-llms-into-a-megakernel-a-path-to-low-latency-inference-cf7840913c17

元ポスト:

Loading…

SGlang, sgl-project, 2024.01

Paper/Blog Link My Issue
#Article #LanguageModel #python #Selected Papers/Blogs Issue Date: 2025-02-12 GPT Summary- SGLangは、大規模言語モデルと視覚言語モデルのための高速サービングフレームワークで、バックエンドとフロントエンドの共同設計により迅速なインタラクションを実現します。主な機能には、高速バックエンドランタイム、柔軟なフロントエンド言語、広範なモデルサポートがあり、オープンソースの活発なコミュニティに支えられています。 Comment

- Open R1, HuggingFace, 2025.01

のUpdate2でMath Datasetの生成に利用されたLLM Servingフレームワーク。利用前と比較してスループットが2倍になったとのこと。

CPU, external storageを利用することでTTFTを改善するようになったようで、最大80%TTFTが削減されるとの記述がある。

Loading…

（原理的には元来可能だが計算効率の最適化に基づく誤差によって実装上の問題で実現できていなかった) Deterministic Inferenceをサポート:

Loading…

NanoFlow, 2024.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #Repository Issue Date: 2024-08-31 Comment

vLLMよりも2倍程度高速なLLM serving framework。

オフライン評価

オンラインでのlatency評価

機能はvLLMの方が多いが、速度はこちらの方がかなり速そうではある。latencyのrequirementが厳しい場合などは検討しても良いかもしれない。

しかしLLM serving frameworkも群雄割拠ですね。

元ポスト:

Loading…

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 も参照のこと

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #python #Blog #OpenWeight Issue Date: 2024-08-05 Comment

[vllm]( https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。

（図はブログ中より引用）

こちらも参照のこと

vLLMの仕組みをざっくりと理解する： https://dalab.jp/archives/journal/vllm/#PagedAttention

vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html

LLMServing

[Paper Note] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models, Long Lian+, arXiv'25, 2025.11

[Paper Note] Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning, Aman Sharma+, arXiv'25, 2025.10

[Paper Note] Expert-as-a-Service: Towards Efficient, Scalable, and Robust Large-scale MoE Serving, Ziming Liu+, arXiv'25, 2025.09

[Paper Note] dInfer: An Efficient Inference Framework for Diffusion Language Models, Yuxin Ma+, arXiv'25, 2025.10

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures, Chenggang Zhao+, arXiv'25

[Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23

[Paper Note] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv'23

SpecBundle & SpecForge v0.2: Production-Ready Speculative Decoding Models and Framework, Spec Forge Team+, lmsys org, 2025.12

mini-sglang: A compact implementation of SGLang, designed to demystify the complexities of modern LLM serving systems, sgl-project, 2025

LightX2V: Light Video Generation Inference Framework, ModelTC, 2025.12

Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06

PFN LLMセミナー, PFN, 2025.10

Checkpoint Engine, MoonshotAI, 2025.09

Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08

vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05

LMCache, LMCache, 2025.07

Speculative Decoding：Faster Inference Without Paying for More GPU, ELYZA, 2025.07

LLM Servingを支える技術, Kotoba Technologies, 2025.07

LMDeploy, OpenMMLab, 2023.07

LLM推論に関する技術メモ, iwashi.co, 2025.07

Nano-vLLM, GeeeekExplorer, 2025.06

Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06

SGlang, sgl-project, 2024.01

NanoFlow, 2024.08

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06