SpeculativeDecodingに関する論文・技術記事メモの一覧

SpeculativeDecoding

#Pocket #NLP #LanguageModel #Reasoning #Decoding #read-later #Selected Papers/Blogs
Issue Date: 2025-09-24 [Paper Note] Scaling Speculative Decoding with Lookahead Reasoning, Yichao Fu+, arXiv'25, 2025.06 GPT Summary- Lookahead Reasoningを用いることで、推論モデルのトークンデコード速度を向上させる手法を提案。軽量なドラフトモデルが将来のステップを提案し、ターゲットモデルが一度のバッチ処理で展開。これにより、トークンレベルの推測デコーディング（SD）のスピードアップを1.4倍から2.1倍に改善し、回答の質を維持。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #LongSequence #Decoding #read-later #Selected Papers/Blogs
Issue Date: 2025-09-07 [Paper Note] REFRAG: Rethinking RAG based Decoding, Xiaoqiang Lin+, arXiv'25 GPT Summary- REFRAGは、RAGアプリケーションにおける遅延を改善するための効率的なデコーディングフレームワークであり、スパース構造を利用して初回トークンまでの時間を30.85倍加速します。これにより、LLMsのコンテキストサイズを16まで拡張可能にし、さまざまな長コンテキストタスクで精度を損なうことなくスピードアップを実現しました。 Comment

元ポスト:

Loading…

興味深い。Speculative Decodingの新手法ともみなせそう。

同時期に出た下記研究と比較してどのようなpros/consがあるだろうか？
- [Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25

解説:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #ICLR #Test-Time Scaling #Decoding #Verification
Issue Date: 2025-05-13 Faster Cascades via Speculative Decoding, Harikrishna Narasimhan+, ICLR'25 GPT Summary- カスケードと推測デコーディングは、言語モデルの推論効率を向上させる手法であり、異なるメカニズムを持つ。カスケードは難しい入力に対して大きなモデルを遅延的に使用し、推測デコーディングは並行検証で大きなモデルを活用する。新たに提案する推測カスケーディング技術は、両者の利点を組み合わせ、最適な遅延ルールを特定する。実験結果は、提案手法がカスケードおよび推測デコーディングのベースラインよりも優れたコスト品質トレードオフを実現することを示した。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=vo9t20wsmd

#Article #EfficiencyImprovement #LanguageModel #python #Blog #LLMServing #Decoding Issue Date: 2025-08-21 vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05 #Article #EfficiencyImprovement #NLP #LanguageModel #LLMServing #Decoding Issue Date: 2025-07-24 Speculative Decoding：Faster Inference Without Paying for More GPU, ELYZA, 2025.07