SpeculativeDecoding


Paper/Blog Link My Issue
#read-later Issue Date: 2026-03-05 GPT Summary- 自己回帰デコーディングのボトルネックを解消するため、推測的デコーディングを用いた通常の手法を拡張し、スペキュレーティブスペキュレーティブデコーディング(SSD)を導入。これにより、検証中にドラフトモデルが次の検証結果を予測し、迅速に推測を返すことが可能に。SSDが抱える課題に対処するための手法を提案し、最適化されたSSDアルゴリズムSaguaroを実装。結果として、最適化された推測的デコーディングに比べ最大2倍、自己回帰デコーディングに対しては最大5倍の速度向上を実現。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Decoding #read-later Issue Date: 2026-02-09 GPT Summary- Auroraは、ライブ推論トレースから直接投機的デコーディング学習を行う統一システムを提案。オンラインでの学習を非同期強化学習問題として再定義し、受け入れられたトークンからフィードバックを得てサンプル効率を向上。デイ0での展開をサポートし、迅速な適応と即時のユーティリティフィードバックを提供。実験では、フロンティアモデルに対して1.5倍の速度向上を実現し、静的な投機者にも1.25倍の向上を見せた。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #Selected Papers/Blogs #Verification #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- SDを用いて推論効率を向上させる新しいフレームワークTriSpecを提案。軽量なプロキシを活用し、不確実なトークンに対してのみターゲットモデルを使用することで、計算コストを大幅に削減。実験により、従来のSDに対して最大35%の速度向上とターゲットモデルの呼び出し回数を最大50%削減したことを示す。 Comment

元ポスト:

Loading…

targetモデルでのverificationは重いので、軽量なverificationをdraftに対して実施することで最大35%デコーディング速度向上とのこと。

verificationに利用するLLM(=proxy)がどのようなモデルファミリーなのか、ターゲットと同じファミリーなのか否かなどが気になる。

3.1節に以下のように書かれている:
> We identify smaller same-family models as ideal proxy veri-
fiers, justified by the following three core properties.

proxyについて以下の三つの観点で分析している:
- strong alignmentw: トークンレベルでtargetとalignしているかを分析(exact match, acceptable mismatch, unacceptable mismatchの3値分類)
- trustworthy outputs: token levelでalignしているだけでなく、単独で応答させたときにtargetと同じ回答が得られるか(同じ回答が得られるのであれば多少のトークンレベルの齟齬は許容可能
- Clear separability: proxyが信頼できるトークンと不確実な出力を区別できることが好ましく、proxyのtop1,2のprobabilityの差が0.5より大きい場合にacceptableなトークンと強い相関があることがわかり、verificationの信頼性の担保に使える

同じモデルファミリーでも、よりファミリー内での挙動が一致させるような副次的効果を得られるモデルファミリー構築方法もあり、Speculative Decodingの承認率が向上するような話もある:
- [Paper Note] Efficient Construction of Model Family through Progressive Training Using Model Expansion, Kazuki Yano+, COLM'25, 2025.04




Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Decoding #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2025-12-28 GPT Summary- EAGLE-3は、特徴予測を放棄し、トークン予測に切り替えることで性能を向上させた大規模言語モデルの手法。これにより、トレーニングデータの拡大からの恩恵を最大化し、最大6.5倍のスピードアップを実現。実験では、チャットモデルと推論モデルの両方で評価され、EAGLE-2に対して約1.4倍の改善を示した。コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=4exx1hUffq

Speculavive Decodingの文脈で多くの文献から本研究が言及される




Paper/Blog Link My Issue
#EfficiencyImprovement #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #SmallModel #AACL #One-Line Notes Issue Date: 2025-12-18 GPT Summary- FB-RAGは、複雑なクエリに対するRAGの課題を解決する新しいフレームワークで、軽量のLLMを用いて関連性の高いコンテキストを特定。従来のファインチューニングなしで性能向上を実現し、レイテンシを削減。EN.QAデータセットでは、リーディングベースラインに匹敵し、性能向上とレイテンシ削減を達成。小さなLLMが大きなLLMの性能を向上させる可能性を示す。 Comment

元ポスト:

Loading…

使いやすそうなアプローチなので覚えておくと実用上は良いかもしれない




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #COLM #KeyPoint Notes Issue Date: 2025-12-11 GPT Summary- プログレッシブトレーニングを用いて、異なるパラメータサイズの大規模言語モデル(LLMs)ファミリーを効率的に構築する方法を提案。これにより、計算コストを約25%削減しつつ、独立訓練モデルと同等の性能を維持。さらに、モデルサイズに応じた最大学習率の調整により、性能向上と一貫した挙動を実現。 Comment

openreview: https://openreview.net/forum?id=fuBrcTH8NM#discussion

LLMのモデルファミリーを構築する際に、従来は独立して異なるサイズのモデルをスクラッチから学習する必要があるが、小規模なモデルを学習した後、当該モデルをreusableモデルとみなしbert2BERTを用いることでモデルサイズを順次拡張していくことで、より小さな計算コストで一連のモデルファミリーを学習できるprogressive trainingを提案(たとえば実験では1,2,4,8Bのモデルファミリーを学習する際の計算コストが約25%削減)。また、モデルサイズが大きくなればなるほどモデルは学習率に対してsensitiveになることが先行研究で報告されており、モデルサイズに応じて最大学習率を線形に減少させるようなスケジューリングをすることで、独立に学習した場合よりも最終的に高い性能を獲得しているだけでなく、モデルファミリー間の挙動の一貫性も向上している。

bert2BERTでは2種類の拡張手法が提案されているが、Function Preserving Initialization (FPI; 同じinputに対して同じoutputが出力されるようにwidth, depthを拡張する(簡単な操作で実現できる。bert2BERT Figure4を参照))を採用している。
- [Paper Note] bert2BERT: Towards Reusable Pretrained Language Models, Cheng Chen+, ACL'22, 2021.10

興味深いのは独立して学習した場合よりもモデルファミリーの挙動が類似している点であり、これはspeculative decodingのacceptance rate向上に寄与しデコーディングの効率化に繋がるという明確な利点がある。




Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #Decoding #read-later #Selected Papers/Blogs Issue Date: 2025-09-24 GPT Summary- Lookahead Reasoningを用いることで、推論モデルのトークンデコード速度を向上させる手法を提案。軽量なドラフトモデルが将来のステップを提案し、ターゲットモデルが一度のバッチ処理で展開。これにより、トークンレベルの推測デコーディング(SD)のスピードアップを1.4倍から2.1倍に改善し、回答の質を維持。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #LongSequence #Decoding #read-later #Selected Papers/Blogs Issue Date: 2025-09-07 GPT Summary- REFRAGは、RAGアプリケーションにおける遅延を改善するための効率的なデコーディングフレームワークであり、スパース構造を利用して初回トークンまでの時間を30.85倍加速します。これにより、LLMsのコンテキストサイズを16まで拡張可能にし、さまざまな長コンテキストタスクで精度を損なうことなくスピードアップを実現しました。 Comment

元ポスト:

Loading…

興味深い。Speculative Decodingの新手法ともみなせそう。

同時期に出た下記研究と比較してどのようなpros/consがあるだろうか?
- [Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25

解説:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ICLR #Test-Time Scaling #Decoding #Verification Issue Date: 2025-05-13 GPT Summary- カスケードと推測デコーディングは、言語モデルの推論効率を向上させる手法であり、異なるメカニズムを持つ。カスケードは難しい入力に対して大きなモデルを遅延的に使用し、推測デコーディングは並行検証で大きなモデルを活用する。新たに提案する推測カスケーディング技術は、両者の利点を組み合わせ、最適な遅延ルールを特定する。実験結果は、提案手法がカスケードおよび推測デコーディングのベースラインよりも優れたコスト品質トレードオフを実現することを示した。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=vo9t20wsmd