Inference
Issue Date: 2025-10-30 [Paper Note] Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning, Aman Sharma+, arXiv'25, 2025.10 GPT Summary- エントロピーに基づく新しいフレームワークを提案し、推論タスクにおける大規模言語モデルのトークン効率を向上。シャノンエントロピーを信頼度信号として利用し、早期停止を実現することで、計算コストを25-50%削減。モデルごとに異なるエントロピー閾値を用いて、正しい答えを早期に得ることを認識し、トークン節約とレイテンシ削減を可能にする。精度を維持しつつ一貫したパフォーマンスを示し、現代の推論システムの特徴を明らかに。 Comment
元ポスト:
デコード時のエントロピーに応じて、reasoningを打ち切るか否か判定してコスト削減しつつ推論する話な模様
vLLMとかでデフォルトでサポートされてスループット上がったら嬉しいなあ
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning #EMNLP #Length
Issue Date: 2025-08-24 [Paper Note] TokenSkip: Controllable Chain-of-Thought Compression in LLMs, Heming Xia+, EMNLP'25 GPT Summary- Chain-of-Thought (CoT)はLLMの推論能力を向上させるが、長いCoT出力は推論遅延を増加させる。これに対処するため、重要度の低いトークンを選択的にスキップするTokenSkipを提案。実験により、TokenSkipはCoTトークンの使用を削減しつつ推論性能を維持することを示した。特に、Qwen2.5-14B-InstructでGSM8Kにおいて推論トークンを40%削減し、性能低下は0.4%未満であった。 Comment
元ポスト:
#EfficiencyImprovement #MachineLearning #Pocket #LanguageModel
Issue Date: 2025-08-24 [Paper Note] Pushing the Envelope of LLM Inference on AI-PC, Evangelos Georganas+, arXiv'25 GPT Summary- 超低ビットLLMモデルの登場により、リソース制約のある環境でのLLM推論が可能に。1ビットおよび2ビットのマイクロカーネルを設計し、PyTorch-TPPに統合することで、推論効率を最大2.2倍向上。これにより、AI PCやエッジデバイスでの超低ビットLLMモデルの効率的な展開が期待される。 Comment
元ポスト:
vLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #LongSequence Issue Date: 2023-04-30 Efficiently Scaling Transformer Inference, Reiner Pope+, N_A, MLSys'23 GPT Summary- - 大規模Transformerベースのモデルの推論のエンジニアリングのトレードオフを理解するために、最適な多次元分割技術を選択するための単純な解析モデルを開発- 低レベルの最適化と組み合わせることで、500B+パラメータモデルのレイテンシーとモデルFLOPS利用率のトレードオフにおいて、FasterTransformerベンチマークスイートを上回る新しいParetoフロンティアを実現- 適切な分割により、マルチクエリアテンションの低いメモリ要件により、32倍の大きなコンテキスト長にスケーリング可能- int8ウェイト量子化を使用した生成中の低バッチサイズレイテンシーは、トークンあたり29msであり、入力トークンの大バッチサイズ処理において76%のMFUを実現し、PaLM 540Bパラメータモデルにおいて2048トークンの長いコンテキスト長をサポートしている。 Comment
特にMultiquery Attentionという技術がTransformerのinferenceのコスト削減に有効らしい
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #MinimalCode #KV Cache Issue Date: 2025-10-22 nanochat, karpathy, 2025.10 Comment
元ポスト:
新たなスピードランが...!!
#Article #NLP #LanguageModel #ReinforcementLearning #Repository #LLMServing Issue Date: 2025-09-11 Checkpoint Engine, MoonshotAI, 2025.09 Comment
元ポスト:
#Article #Tutorial #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment
```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)
- P:パラメータ数(単位は10億)
- Q:ビット精度(例:16、32)、8で割ることでビットをバイトに変換
- オーバーヘッド(%):推論中の追加メモリまたは一時的な使用量(例:KVキャッシュ、アクティベーションバッファ、オプティマイザの状態)
```
↑これ、忘れがちなのでメモ…
関連(量子化関連研究):
- [Paper Note] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin+, MLSys'24
- SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, Guangxuan Xiao+, ICML'23
- GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, ICLR'23
すごいメモだ…勉強になります