SpeculativeDecoding


Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-12-28 GPT Summary- EAGLE-3は、特徴予測を放棄し、トークン予測に切り替えることで性能を向上させた大規模言語モデルの手法。これにより、トレーニングデータの拡大からの恩恵を最大化し、最大6.5倍のスピードアップを実現。実験では、チャットモデルと推論モデルの両方で評価され、EAGLE-2に対して約1.4倍の改善を示した。コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=4exx1hUffq




Paper/Blog Link My Issue
#EfficiencyImprovement #InformationRetrieval #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #SmallModel #AACL #One-Line Notes Issue Date: 2025-12-18 GPT Summary- FB-RAGは、複雑なクエリに対するRAGの課題を解決する新しいフレームワークで、軽量のLLMを用いて関連性の高いコンテキストを特定。従来のファインチューニングなしで性能向上を実現し、レイテンシを削減。EN.QAデータセットでは、リーディングベースラインに匹敵し、性能向上とレイテンシ削減を達成。小さなLLMが大きなLLMの性能を向上させる可能性を示す。 Comment

元ポスト:

Loading…

使いやすそうなアプローチなので覚えておくと実用上は良いかもしれない




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #Decoding #read-later #Selected Papers/Blogs Issue Date: 2025-09-24 GPT Summary- Lookahead Reasoningを用いることで、推論モデルのトークンデコード速度を向上させる手法を提案。軽量なドラフトモデルが将来のステップを提案し、ターゲットモデルが一度のバッチ処理で展開。これにより、トークンレベルの推測デコーディング(SD)のスピードアップを1.4倍から2.1倍に改善し、回答の質を維持。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #LongSequence #Decoding #read-later #Selected Papers/Blogs Issue Date: 2025-09-07 GPT Summary- REFRAGは、RAGアプリケーションにおける遅延を改善するための効率的なデコーディングフレームワークであり、スパース構造を利用して初回トークンまでの時間を30.85倍加速します。これにより、LLMsのコンテキストサイズを16まで拡張可能にし、さまざまな長コンテキストタスクで精度を損なうことなくスピードアップを実現しました。 Comment

元ポスト:

Loading…

興味深い。Speculative Decodingの新手法ともみなせそう。

同時期に出た下記研究と比較してどのようなpros/consがあるだろうか?
- [Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25

解説:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #ICLR #Test-Time Scaling #Decoding #Verification Issue Date: 2025-05-13 GPT Summary- カスケードと推測デコーディングは、言語モデルの推論効率を向上させる手法であり、異なるメカニズムを持つ。カスケードは難しい入力に対して大きなモデルを遅延的に使用し、推測デコーディングは並行検証で大きなモデルを活用する。新たに提案する推測カスケーディング技術は、両者の利点を組み合わせ、最適な遅延ルールを特定する。実験結果は、提案手法がカスケードおよび推測デコーディングのベースラインよりも優れたコスト品質トレードオフを実現することを示した。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=vo9t20wsmd