Inference
#EfficiencyImprovement
#Pocket
#NLP
#LanguageModel
#Chain-of-Thought
#Reasoning
#EMNLP
#Length
Issue Date: 2025-08-24 [Paper Note] TokenSkip: Controllable Chain-of-Thought Compression in LLMs, Heming Xia+, EMNLP'25 SummaryChain-of-Thought (CoT)はLLMの推論能力を向上させるが、長いCoT出力は推論遅延を増加させる。これに対処するため、重要度の低いトークンを選択的にスキップするTokenSkipを提案。実験により、TokenSkipはCoTトークンの使用を削減しつつ推論性能を維持することを示した。特に、Qwen2.5-14B-InstructでGSM8Kにおいて推論トークンを40%削減し、性能低下は0.4%未満であった。 Comment元ポスト:https://x.com/hemingkx/status/1891873475545137245?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #EfficiencyImprovement #MachineLearning #Pocket #LanguageModel
Issue Date: 2025-08-24 [Paper Note] Pushing the Envelope of LLM Inference on AI-PC, Evangelos Georganas+, arXiv'25 Summary超低ビットLLMモデルの登場により、リソース制約のある環境でのLLM推論が可能に。1ビットおよび2ビットのマイクロカーネルを設計し、PyTorch-TPPに統合することで、推論効率を最大2.2倍向上。これにより、AI PCやエッジデバイスでの超低ビットLLMモデルの効率的な展開が期待される。 Comment元ポスト:https://x.com/jiqizhixin/status/1959379120577826935?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #EfficiencyImprovement #Pocket #NLP #LanguageModel #read-later
Issue Date: 2025-06-12 [Paper Note] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv'23 SummarySARATHIは、LLMの推論効率を向上させる手法で、プレフィルリクエストをチャンクに分割し、デコードマキシマルバッチを構築することで計算利用率を最大化します。これにより、デコードスループットを最大10倍向上させ、エンドツーエンドスループットも改善。特に、A6000 GPU上のLLaMA-13Bモデルで顕著な性能向上を示し、パイプラインバブルを大幅に削減しました。 CommentvLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。

Issue Date: 2025-08-24 [Paper Note] TokenSkip: Controllable Chain-of-Thought Compression in LLMs, Heming Xia+, EMNLP'25 SummaryChain-of-Thought (CoT)はLLMの推論能力を向上させるが、長いCoT出力は推論遅延を増加させる。これに対処するため、重要度の低いトークンを選択的にスキップするTokenSkipを提案。実験により、TokenSkipはCoTトークンの使用を削減しつつ推論性能を維持することを示した。特に、Qwen2.5-14B-InstructでGSM8Kにおいて推論トークンを40%削減し、性能低下は0.4%未満であった。 Comment元ポスト:https://x.com/hemingkx/status/1891873475545137245?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #EfficiencyImprovement #MachineLearning #Pocket #LanguageModel
Issue Date: 2025-08-24 [Paper Note] Pushing the Envelope of LLM Inference on AI-PC, Evangelos Georganas+, arXiv'25 Summary超低ビットLLMモデルの登場により、リソース制約のある環境でのLLM推論が可能に。1ビットおよび2ビットのマイクロカーネルを設計し、PyTorch-TPPに統合することで、推論効率を最大2.2倍向上。これにより、AI PCやエッジデバイスでの超低ビットLLMモデルの効率的な展開が期待される。 Comment元ポスト:https://x.com/jiqizhixin/status/1959379120577826935?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #EfficiencyImprovement #Pocket #NLP #LanguageModel #read-later
Issue Date: 2025-06-12 [Paper Note] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv'23 SummarySARATHIは、LLMの推論効率を向上させる手法で、プレフィルリクエストをチャンクに分割し、デコードマキシマルバッチを構築することで計算利用率を最大化します。これにより、デコードスループットを最大10倍向上させ、エンドツーエンドスループットも改善。特に、A6000 GPU上のLLaMA-13Bモデルで顕著な性能向上を示し、パイプラインバブルを大幅に削減しました。 CommentvLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。

#EfficiencyImprovement
#Pocket
#NLP
#LanguageModel
#Transformer
#Attention
#LongSequence
Issue Date: 2023-04-30
Efficiently Scaling Transformer Inference, Reiner Pope+, N_A, MLSys'23
Summary大規模Transformerベースのモデルの推論のエンジニアリングのトレードオフを理解するために、最適な多次元分割技術を選択するための単純な解析モデルを開発低レベルの最適化と組み合わせることで、500B+パラメータモデルのレイテンシーとモデルFLOPS利用率のトレードオフにおいて、FasterTransformerベンチマークスイートを上回る新しいParetoフロンティアを実現適切な分割により、マルチクエリアテンションの低いメモリ要件により、32倍の大きなコンテキスト長にスケーリング可能int8ウェイト量子化を使用した生成中の低バッチサイズレイテンシーは、トークンあたり29msであり、入力トークンの大バッチサイズ処理において76%のMFUを実現し、PaLM 540Bパラメータモデルにおいて2048トークンの長いコンテキスト長をサポートしている。
Comment特にMultiquery Attentionという技術がTransformerのinferenceのコスト削減に有効らしい
#Article
#Tutorial
#Metrics
#NLP
#LanguageModel
#LLMServing
#MoE(Mixture-of-Experts)
#SoftwareEngineering
#Admin'sPick
#Parallelism
#Batch
Issue Date: 2025-07-21
LLM推論に関する技術メモ, iwashi.co, 2025.07
Comment```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)
・P:パラメータ数(単位は10億)
・Q:ビット精度(例:16、32)、8で割ることでビットをバイトに変換
・オーバーヘッド(%):推論中の追加メモリまたは一時的な使用量(例:KVキャッシュ、アクティベーションバッファ、オプティマイザの状態)
```
↑これ、忘れがちなのでメモ…関連(量子化関連研究):
・2264
・1570
・1043すごいメモだ…勉強になります
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)
・P:パラメータ数(単位は10億)
・Q:ビット精度(例:16、32)、8で割ることでビットをバイトに変換
・オーバーヘッド(%):推論中の追加メモリまたは一時的な使用量(例:KVキャッシュ、アクティベーションバッファ、オプティマイザの状態)
```
↑これ、忘れがちなのでメモ…関連(量子化関連研究):
・2264
・1570
・1043すごいメモだ…勉強になります