Decodingに関する論文・技術記事メモの一覧

Decoding

[Paper Note] Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding, Yonggan Fu+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #Architecture Issue Date: 2026-07-19 GPT Summary- Nemotron-Labs-Diffusionは、AR、拡散、自己推測デコードを統合した三モードの言語モデルです。ARと拡散が補完的であることを示し、自己推測モードでは、拡散によるドラフト作成とARによる検証でマルチトークン予測が向上します。光速分析により、拡散がより多くのトークン生成を可能にし、最大76.5%の向上が見られました。3B、8B、14Bパラメータのモデルは、精度と速度の両面で最先端を超え、特にNemotron-Labs-Diffusion-8Bは、スループットを4倍に向上させました。 Comment

元ポスト:

Loading…

[Paper Note] Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling, Yucheng Li+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #SpeculativeDecoding Issue Date: 2026-07-03 GPT Summary- MTPを用いることで強化学習におけるロールアウトを加速するBebopを提案。MTPの受け入れ率はモデルエントロピーに影響され、確率的拒否サンプリングがその攪乱を軽減。新しいTV損失を導入し、受け入れ率の改善を実現。エンドツーエンドでのMTPトレーニングにより一貫した速度向上を達成し、最大1.8倍の加速を示す実験結果を提供。 Comment

元ポスト:

Loading…

[Paper Note] Fast Byte Latent Transformer, Julie Kallini+, ICML'26, 2026.05

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ICML #Byte-level #Author Thread-Post Issue Date: 2026-05-12 GPT Summary- BLTを用いて、バイトレベルLMの生成速度のボトルネックを解消。BLT Diffusionを導入し、並列生成によってデコードステップを削減。さらに、BLT Self-speculationとBLT Diffusion+Verificationを提案し、生成品質を向上させつつ推定メモリコストを低減。これにより、バイトレベルLMの実用性が向上。 Comment

元ポスト:

Loading…

[Paper Note] Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding, Daisuke Oba+, ICLR'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #ICLR #Author Thread-Post Issue Date: 2026-04-25 GPT Summary- SureLockは、マスク済み拡散型言語モデルにおいて、未マスクトークンをロックすることで計算資源を効率化します。具体的には、未マスク位置の事後分布が安定した場合、その位置に対するクエリ投影とフィードフォワードをスキップしつつ、他の位置がアテンションできるようにキャッシュを使用します。この手法により、計算コストがO(N^2d)からO(MNd)に削減され、生成品質を維持しつつFLOPを30〜50%削減します。理論分析も行い、ロック時点でKLを監視することでトークン確率の偏差を十分に境界づけることができることを示しています。 Comment

pj page: https://daioba.github.io/surelock/

元ポスト:

Loading…

著者ポスト2:

Loading…

[Paper Note] Micro Language Models Enable Instant Responses, Wen Cheng+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #One-Line Notes #Reference Collection #Latency #EdgeDevices Issue Date: 2026-04-22 GPT Summary- μLMsを導入し、エッジデバイスで即座に文脈に基づく応答の最初の数語を生成し、クラウドモデルがその後を完成させることで、遅延を隠蔽する協調生成フレームワークを設計。経験的結果は、極小モデルでも大規模モデルと同等の生成が可能であることを示し、リソース制約のあるデバイスでの高い応答性を実現。 Comment

元ポスト:

Loading…

オンデバイスのMicro LLM(8M--30M)パラメータが冒頭の単語を生成し、その続きをCloud側のLLMが生成することで、Cloud LLMのlatencyの遅さをマスクする

[Paper Note] LACE: Lattice Attention for Cross-thread Exploration, Yang Li+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Attention #Test-Time Scaling #mid-training #PostTraining #One-Line Notes Issue Date: 2026-04-20 GPT Summary- LACEは、独立した推論試行を協調的な並列プロセスに変換するフレームワークであり、クロススレッドのアテンションを活用して推論経路間での洞察の共有と相互訂正を可能にする。合成データを使って自然な訓練データの不足を補い、実験では正確性が7ポイント以上向上することを示した。結果は、相互作用する並列推論が大規模言語モデルの効果を高める可能性を示唆している。 Comment

元ポスト:

Loading…

parallel test-time scalingによって生成をする最中にtrajectoryを交互作用させることで、trajectoryの冗長性を減らし、交互作用を可能にする。

[Paper Note] TARo: Token-level Adaptive Routing for LLM Test-time Alignment, Arushi Rai+, ACL'26 Findings, 2026.03

Paper/Blog Link My Issue
#LanguageModel #Alignment #ACL #Findings #Routing #KeyPoint Notes #Author Thread-Post #Test-time Alignment Issue Date: 2026-04-07 GPT Summary- 推論時に固定されたLLMsを用いて、トークンレベル適応ルーティング（TARo）を提案。報酬モデルにより数学的推論の一貫性信号を捉え、ルーターが基盤モデルを自動制御。TARoは推論性能を最大+22.4%向上させ、分布外の臨床推論や指示遵守を改善。再訓練なしでの一般化も可能で、堅牢な推論を実現。 Comment

元ポスト:

Loading…

巨大なベースモデル全体を特定ドメインに適用するためにpost-trainingするのは大変なので、代わりに小規模なdomain-expertなRewardモデルを学習し（今回は数学のstep-wiseにlogicが正しいことをpreferenceとして与えるような学習方法を採用したようである; 3.2節）、各decoding step tにおいて、ベースモデルとRewardモデルのトークンのlogitを線形補完することで、出力トークンをガイドする。logitの線形補完において、固定されたスカラー値（e.g., 0.5など。GenARMという手法らしい）を用いる研究などが先行研究ではあるが、これはベースモデルの特定タスクにおいてベースモデルの性能を劣化させるので、本研究ではdecoding step t時点で出力されたベースモデル、Rewardモデルのlogitを入力として、FFNによって線形補完の重みα_tをdecoding step tごとに決定する（α_tを決定するネットワークをRouterと呼ぶ）。FFNは2種類のvariantがあり、双方のlogitをconcatしたものを入力するものと、top-kをサンプリングし、kごとにindexに基づいたembeddingをconcatして入力する方法の二種類がある（3.3節）。

結果としては、GenARMと比較して提案手法は有効ではあるが、ベースモデルとrewardモデルの組み合わせによっては、baseモデルよりも性能が悪化するということもありそうに見える。

またRouterはベースモデルのサイズを大きくしても、性能が転移するので再学習が不要である。

[Paper Note] Multi-Head Low-Rank Attention, Songtao Liu+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #Architecture Issue Date: 2026-03-04 GPT Summary- 大規模言語モデルの長文文脈推論におけるKVキャッシュのボトルネックを解消するため、Multi-Head Low-Rank Attention（MLRA）を提案。これにより、4ウェイTPデコードの効率化が実現。実験により、MLRAは最先端の性能を達成し、MLAよりもデコード速度を2.8倍向上させることが確認された。 Comment

元ポスト:

Loading…

[Paper Note] Fast KV Compaction via Attention Matching, Adam Zweiger+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #read-later #Selected Papers/Blogs #KV Cache #Compression Issue Date: 2026-02-28 GPT Summary- 長い文脈の処理において、KVキャッシュのサイズがボトルネックとなるが、要約による圧縮は情報損失を招く。最近のCartridges研究はコンパクトなKVキャッシュが全文脈に近い性能を持つことを示したが、最適化が遅い。本研究では、Attention Matchingを用い、アテンション出力を再現しながらコンパクトなキーと値を構築する高速な文脈圧縮手法を提案。これにより、効率的な部分問題への分解が可能となり、圧縮時間と品質で大幅な改善を達成し、数秒で最大50倍の圧縮を実現した。 Comment

元ポスト:

Loading…

[Paper Note] BitDance: Scaling Autoregressive Generative Models with Binary Tokens, Yuang Ai+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #Transformer #DiffusionModel #TextToImageGeneration #read-later #2D (Image) #ImageSynthesis Issue Date: 2026-02-17 GPT Summary- BitDanceは、バイナリ視覚トークンを予測する自己回帰型の画像生成モデルであり、高エントロピーのバイナリ潜在変数により最大2^{256}の状態を表現できます。バイナリ拡散ヘッドを採用し、標準の分類を超えたトークン生成を実現。次パッチ拡散技術により、複数トークンを高精度で並列予測し、推論速度を8.7倍向上させます。ImageNet 256x256では最高のFIDスコア1.24を達成し、1024x1024画像生成においては従来モデルと比較して30倍以上の速度向上を実現しています。コードとモデルは公開されています。 Comment

pj page: https://bitdance.csuhan.com/

元ポスト:

Loading…

[Paper Note] Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model, Jacqueline He+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Selected Papers/Blogs #Legal #KeyPoint Notes #Initial Impression Notes #Copyright #Author Thread-Post Issue Date: 2026-02-12 GPT Summary- 「アンカーデコーディング」は、現代の言語モデルが逐語的な再現を抑制するための新しい推論法であり、リスクのあるLMからより安全な生成を実現します。この手法は、ユーザーが選択した情報予算に応じて生成過程に制約を加え、著作権リスクと有用性のトレードオフを可能にします。また、新たに導入した安全モデルと、クロスボキャブラリ融合を実現するAnchored$_{\mathrm{Byte}}$デコーディングにより、リスク低減と流暢さを維持しつつ、コピーギャップを75％まで排除することが確認されました。 Comment

元ポスト:

Loading…

権利上の問題がない言語モデル（permissive licenceデータによって学習されたものなど）SafeLMと、任意の言語モデルRiskyLMの2つが与えられたときに、KL Divergenceの予算Kの元、各生成のstep tごとに語彙空間上で両LLMのKL DivergenceがK_t未満となるように生成するトークンを選択することで、出力の有用性（fluencyとfactuality)は維持しつつ、memorizationされている著作権物をそのままデコーディングしてしまうリスクを低減する手法。RiskyLMの非常に高いUtility上の語彙生成確率を、SafeLM側の安全な語彙確率で引っ張って良い塩梅で生成するようなイメージと思われる。

この手法はSafeLMがどれだけ高いUtilityを維持しつつ安全性を保てるかにデコーディング性能が依存すると思われるが、SLMで非常に性能の良いTinyComma 0.8Bもリリースしている。

また、KL Divergenceを測定する都合上、提案手法は共通のVocab(すなわちトークナイザー）を持つモデル間でしか適用できないが、KL Divergenceをバイト空間上で測るように工夫することでVocabの制約を無くす方法も提案している。

著作物をそのまま出力してしまう問題は軽減されそうだと思われるが、著者独特の思想や感情、表現や言い回しなどの著作権で保護される対象をどの程度の度合いで守れるかについては興味がある。また、そのためには次はどのようなステップが必要か？

[Paper Note] When RL Meets Adaptive Speculative Training: A Unified Training-Serving System, Junxiong Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #read-later #SpeculativeDecoding Issue Date: 2026-02-09 GPT Summary- Auroraは、ライブ推論トレースから直接投機的デコーディング学習を行う統一システムを提案。オンラインでの学習を非同期強化学習問題として再定義し、受け入れられたトークンからフィードバックを得てサンプル効率を向上。デイ0での展開をサポートし、迅速な適応と即時のユーティリティフィードバックを提供。実験では、フロンティアモデルに対して1.5倍の速度向上を実現し、静的な投機者にも1.25倍の向上を見せた。 Comment

元ポスト:

Loading…

公式アナウンス:

Loading…

[Paper Note] Reasoning with Latent Tokens in Diffusion Language Models, Andre He+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #LatentReasoning Issue Date: 2026-02-06 GPT Summary- 離散拡散モデルは、自動回帰モデルと競争できる性能を持ちつつ、推論時に多くの計算を要する。このトレードオフは、推論時に未知のトークンの共同予測を行うことに起因しており、この予測を省略すると速度が向上するが性能が低下する。そこで、潜在トークンを調整する新たな手法を提案し、推論速度とサンプル品質のトレードオフを実現。さらに、潜在トークンを利用して自動回帰モデルでの改善を示し、全体的一貫性や先見性を要するタスクにおける性能向上のメカニズムを示唆している。 Comment

元ポスト:

Loading…

[Paper Note] Test-time Recursive Thinking: Self-Improvement without External Feedback, Yufan Zhuang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Test-Time Scaling #SelfVerification Issue Date: 2026-02-05 GPT Summary- LLMが自己改善できるかを探求し、2つの課題—候補解の生成と正しい回答の選択—を特定。テスト時再帰的思考（TRT）フレームワークを提案し、生成を戦略や知識に基づいて条件付けることで、オープンソースモデルがAIME-25/24で100%の精度を達成、クローズドソースモデルは外部フィードバックなしで問題解決能力を向上させた。 Comment

元ポスト:

Loading…

[Paper Note] Causal Autoregressive Diffusion Language Model, Junhao Ruan+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Parallel #KV Cache Issue Date: 2026-02-05 GPT Summary- 因果オート回帰拡散（CARD）という新フレームワークを提案。トレーニング効率と高スループット推論を統合し、因果注意マスク内で拡散プロセスを再定義。局所的文脈保持のためのソフトテイルマスキングと文脈認識重み付けメカニズムを導入。これにより動的な並列デコーディングが可能に。実証結果では、CARDが既存の離散拡散ベースラインを上回り、トレーニングレイテンシを3倍削減。次世代の効率的なLLMに向けた堅牢なパラダイムを示唆。 Comment

元ポスト:

Loading…

[Paper Note] TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification, Haoyun Jiang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Selected Papers/Blogs #Verification #SpeculativeDecoding #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- SDを用いて推論効率を向上させる新しいフレームワークTriSpecを提案。軽量なプロキシを活用し、不確実なトークンに対してのみターゲットモデルを使用することで、計算コストを大幅に削減。実験により、従来のSDに対して最大35％の速度向上とターゲットモデルの呼び出し回数を最大50％削減したことを示す。 Comment

元ポスト:

Loading…

targetモデルでのverificationは重いので、軽量なverificationをdraftに対して実施することで最大35%デコーディング速度向上とのこと。

verificationに利用するLLM(＝proxy)がどのようなモデルファミリーなのか、ターゲットと同じファミリーなのか否かなどが気になる。

3.1節に以下のように書かれている:
> We identify smaller same-family models as ideal proxy veri-
fiers, justified by the following three core properties.

proxyについて以下の三つの観点で分析している:
- strong alignmentw: トークンレベルでtargetとalignしているかを分析（exact match, acceptable mismatch, unacceptable mismatchの3値分類)
- trustworthy outputs: token levelでalignしているだけでなく、単独で応答させたときにtargetと同じ回答が得られるか（同じ回答が得られるのであれば多少のトークンレベルの齟齬は許容可能
- Clear separability: proxyが信頼できるトークンと不確実な出力を区別できることが好ましく、proxyのtop1,2のprobabilityの差が0.5より大きい場合にacceptableなトークンと強い相関があることがわかり、verificationの信頼性の担保に使える

同じモデルファミリーでも、よりファミリー内での挙動が一致させるような副次的効果を得られるモデルファミリー構築方法もあり、Speculative Decodingの承認率が向上するような話もある:
- [Paper Note] Efficient Construction of Model Family through Progressive Training Using Model Expansion, Kazuki Yano+, COLM'25, 2025.04

openreview: https://openreview.net/forum?id=yhhgkkiQe5

提案手法の気持ちや、検証コストに焦点を当てたことは非常に有意義であるものの、Speculative Decodingの（数学的な）ロスレス保証を、実験的には性能がほとんど低下しないことが示されているが、数学的な保証を犠牲にして速度改善している点が実用上の大きな課題で、プロキシを挟むアイデアが既存研究の階層的、マルチレベルのSD, 検証の条件を緩める手法と比較して新規性が明らかでない点、また通常のSDと比較して3つのモデルを用いる点でエンジニアリングの観点からオーバーヘッドなしに主要な推論スタックにデプロイできるのか、実験結果の再現性や公式の報告とズレがある点などが指摘され、ICLR'26にrejectされている。

[Paper Note] Token-Level LLM Collaboration via FusionRoute, Nuoya Xiong+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Routing #One-Line Notes Issue Date: 2026-01-10 GPT Summary- FusionRouteは、軽量なルーターを用いて、各デコーディングステップで最適な専門家を選択し、その専門家の出力を補完するトークンレベルのマルチLLMコラボレーションフレームワークを提案。これにより、ドメイン特化型モデルの効率性を保ちながら、一般化能力を向上させる。実験では、Llama-3やGemma-2といったモデルで、数学的推論やコード生成などのタスクにおいて優れた性能を示した。 Comment

元ポスト:

Loading…

トークンレベルでモデルを選択して生成する

[Paper Note] TimeBill: Time-Budgeted Inference for Large Language Models, Qi Fan+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Controllable #NLP #LanguageModel #Architecture #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-12-31 GPT Summary- LLMsの推論効率と応答性能を向上させるために、時間予算に基づくフレームワーク「TimeBill」を提案。細粒度の応答長予測器と実行時間推定器を用いてエンドツーエンドの実行時間を予測し、KVキャッシュの排出比率を適応的に調整。実験により、タスク完了率の向上と応答性能の維持を実証。 Comment

元ポスト:

Loading…

興味深いアイデア

レスポンスの長さをbucket単位で予測し、実際のハードウェア上での過去のデータなどに基づいてruntimeを予測。予測したruntimeのworstcaseよりも遅延しないようにKV Cacheを削減することで限られた時間的な予算の中でresponceを返すような手法な模様。

[Paper Note] EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test, Yuhui Li+, NeurIPS'25, 2025.03

Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs #SpeculativeDecoding #Initial Impression Notes Issue Date: 2025-12-28 GPT Summary- EAGLE-3は、特徴予測を放棄し、トークン予測に切り替えることで性能を向上させた大規模言語モデルの手法。これにより、トレーニングデータの拡大からの恩恵を最大化し、最大6.5倍のスピードアップを実現。実験では、チャットモデルと推論モデルの両方で評価され、EAGLE-2に対して約1.4倍の改善を示した。コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=4exx1hUffq

Speculavive Decodingの文脈で多くの文献から本研究が言及される

[Paper Note] Fast and Accurate Causal Parallel Decoding using Jacobi Forcing, Lanxiang Hu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #read-later #Selected Papers/Blogs Issue Date: 2025-12-18 GPT Summary- マルチトークン生成において、Jacobi Forcingを導入し、ARモデルから効率的な並列デコーダーへの移行を実現。これにより、コーディングと数学のベンチマークで3.8倍の速度向上を達成し、マルチブロックデコーディングで最大4.5倍のトークン受け入れ数を実現。推論のレイテンシを低下させることが可能に。 Comment

元ポスト:

Loading…

pj page: https://hao-ai-lab.github.io/blogs/jacobi-forcing/

[Paper Note] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models, Long Lian+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #LLMServing #Parallel Issue Date: 2025-12-10 GPT Summary- ThreadWeaverは、適応型並列推論のフレームワークで、逐次推論モデルと同等の精度を保ちながら推論の遅延を大幅に削減します。主な革新は、二段階の並列軌道生成器、オフ・ザ・シェルフの自己回帰推論エンジンでの並列推論、並列化意識のある強化学習フレームワークです。これにより、数学的推論ベンチマークで高い精度を維持しつつ、最大1.53倍のスピードアップを達成しました。 Comment

元ポスト:

Loading…

[Paper Note] TiDAR: Think in Diffusion, Talk in Autoregression, Jingyu Liu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #read-later #Selected Papers/Blogs Issue Date: 2025-11-13 GPT Summary- TiDARは、拡散言語モデルと自己回帰モデルの利点を融合したハイブリッドアーキテクチャで、トークンのドラフトとサンプリングを単一のフォワードパスで実行します。これにより、高スループットとARモデルに匹敵する品質を両立させ、推測的デコーディングを上回る効率を実現しました。TiDARは、1秒あたり4.71倍から5.91倍のトークン生成を可能にし、ARモデルとの品質ギャップを初めて埋めました。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining, Costin-Andrei Oncescu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) Issue Date: 2025-11-05 GPT Summary- MoEアーキテクチャを用いたLLMのデコードレイテンシを低下させるため、トークンから専門家へのマッピングを動的に再ルーティングするフレームワークを提案。バッチ認識ルーティングを活用し、メモリに既にロードされている専門家を利用することで、精度を維持しつつ、Qwen3-30BおよびQwen3-235Bモデルでそれぞれ39%と15%のレイテンシ削減を達成。 Comment

元ポスト:

Loading…

[Paper Note] Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning, Aman Sharma+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Reasoning #LLMServing #Inference #Entropy Issue Date: 2025-10-30 GPT Summary- エントロピーに基づく新しいフレームワークを提案し、推論タスクにおける大規模言語モデルのトークン効率を向上。シャノンエントロピーを信頼度信号として利用し、早期停止を実現することで、計算コストを25-50%削減。モデルごとに異なるエントロピー閾値を用いて、正しい答えを早期に得ることを認識し、トークン節約とレイテンシ削減を可能にする。精度を維持しつつ一貫したパフォーマンスを示し、現代の推論システムの特徴を明らかに。 Comment

元ポスト:

Loading…

デコード時のエントロピーに応じて、reasoningを打ち切るか否か判定してコスト削減しつつ推論する話な模様

vLLMとかでデフォルトでサポートされてスループット上がったら嬉しいなあ

[Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #DiffusionModel Issue Date: 2025-10-17 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

[Paper Note] DeepPrune: Parallel Scaling without Inter-trace Redundancy, Shangqing Tu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Pruning #Test-Time Scaling #Parallel Issue Date: 2025-10-12 GPT Summary- DeepPruneという新しいフレームワークを提案し、並列スケーリングの計算非効率を解決。80%以上の推論トレースが同一の回答を生成する問題に対処し、焦点損失とオーバーサンプリング技術を用いた判定モデルで同等性を予測。オンラインの貪欲クラスタリングで冗長な経路をプルーニングし、80%以上のトークン削減を達成しつつ、精度を維持。効率的な並列推論の新基準を確立。 Comment

pj page: https://deepprune.github.io

HF: https://huggingface.co/collections/THU-KEG/deepprune-68e5c1ea71f789a6719b2c1c

元ポスト:

Loading…

[Paper Note] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information, Jiaxi Li+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Search #LanguageModel #Reasoning #Test-Time Scaling #TreeSearch Issue Date: 2025-10-08 GPT Summary- 相互情報量ツリー探索（MITS）を提案し、推論経路の評価と探索を効率化。PMIに基づくスコアリング関数を用い、計算コストを抑えつつ優れた推論性能を実現。エントロピーに基づく動的サンプリング戦略でリソースを最適配分し、重み付き投票方式で最終予測を行う。MITSは多様なベンチマークでベースラインを上回る結果を示した。 Comment

元ポスト:

Loading…

[Paper Note] Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models, Shutong Wu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel Issue Date: 2025-10-06 GPT Summary- Diffusion Large Language Models (DLLMs)は、双方向の注意メカニズムにより文脈を捉える能力が高いが、推論効率が自己回帰モデルに劣る。既存の並列デコーディングアルゴリズムは性能低下を伴う。これを解決するために、損失のない並列デコーディングを実現する新しいアルゴリズム「Free Draft-and-Verification（Freedave）」を提案。Freedaveにより、DLLMsのスループットは数学的推論タスクで最大2.8倍向上する。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Speculative Decoding with Lookahead Reasoning, Yichao Fu+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-09-24 GPT Summary- Lookahead Reasoningを用いることで、推論モデルのトークンデコード速度を向上させる手法を提案。軽量なドラフトモデルが将来のステップを提案し、ターゲットモデルが一度のバッチ処理で展開。これにより、トークンレベルの推測デコーディング（SD）のスピードアップを1.4倍から2.1倍に改善し、回答の質を維持。 Comment

元ポスト:

Loading…

[Paper Note] Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs, Yue Wang+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Underthinking #Author Thread-Post Issue Date: 2025-09-19 GPT Summary- 大規模言語モデル（LLMs）は複雑な推論タスクで優れた能力を示すが、「アンダーシンキング」という現象により、思考の切り替えが頻繁に起こり、特に難しい数学問題でパフォーマンスが低下することが明らかになった。新しい指標を用いてアンダーシンキングを定量化し、思考の切り替えを抑制するデコーディング戦略TIPを提案。実験により、モデルのファインチューニングなしで精度が向上することが示された。これにより、LLMの推論の非効率性を理解し、問題解決能力を向上させる実用的な解決策が提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism, Yifan Song+, NAACL'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #NAACL #Non-Determinism Issue Date: 2025-09-09 GPT Summary- LLMの評価は非決定性を見落としがちで、単一出力に焦点を当てるため性能の変動理解が制限される。本研究では、貪欲デコーディングとサンプリングの性能差を探求し、非決定性に関するベンチマークの一貫性を特定。実験により、貪欲デコーディングが多くのタスクで優れていることを確認し、アライメントがサンプリングの分散を減少させる可能性を示した。また、小型LLMが大型モデルに匹敵する性能を持つことを明らかにし、LLM評価における非決定性の重要性を強調した。 Comment

[Paper Note] REFRAG: Rethinking RAG based Decoding, Xiaoqiang Lin+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #LongSequence #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-09-07 GPT Summary- REFRAGは、RAGアプリケーションにおける遅延を改善するための効率的なデコーディングフレームワークであり、スパース構造を利用して初回トークンまでの時間を30.85倍加速します。これにより、LLMsのコンテキストサイズを16まで拡張可能にし、さまざまな長コンテキストタスクで精度を損なうことなくスピードアップを実現しました。 Comment

元ポスト:

Loading…

興味深い。Speculative Decodingの新手法ともみなせそう。

同時期に出た下記研究と比較してどのようなpros/consがあるだろうか？
- [Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25

解説:

Loading…

[Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #read-later Issue Date: 2025-09-05 GPT Summary- Set Block Decoding（SBD）を提案し、次トークン予測とマスクトークン予測を統合して生成を加速。SBDは複数の未来のトークンを並行してサンプリング可能で、従来の手法よりも速度向上を実現。アーキテクチャ変更なしで既存モデルをファインチューニングし、フォワードパスの数を3-5倍削減しつつ同等のパフォーマンスを達成。 Comment

元ポスト:

Loading…

[Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Controllable #NLP #Search #LanguageModel #Test-Time Scaling #KeyPoint Notes Issue Date: 2025-08-30 GPT Summary- 事前学習済みのLLMの層をモジュールとして操作し、各サンプルに最適なアーキテクチャを構築する手法を提案。モンテカルロ木探索を用いて、数学および常識推論のベンチマークで最適な層の連鎖（CoLa）を特定。CoLaは柔軟で動的なアーキテクチャを提供し、推論効率を改善する可能性を示唆。75%以上の正しい予測に対して短いCoLaを見つけ、60%以上の不正確な予測を正すことができることが明らかに。固定アーキテクチャの限界を克服する道を開く。 Comment

解説:

Loading…

事前学習済み言語モデルのforward pathにおける各layerをbuilding blocksとみなして、入力に応じてスキップ、あるいは再帰的な利用をMCTSによって選択することで、test time時のモデルの深さや、モデルの凡化性能をタスクに対して適用させるような手法を提案している模様。モデルのパラメータの更新は不要。k, r ∈ {1,2,3,4} の範囲で、"k個のlayerをskip"、あるいはk個のlayerのブロックをr回再帰する、とすることで探索範囲を限定的にしtest時の過剰な計算を抑止している。また、MCTSにおけるsimulationの回数は200回。length penaltyを大きくすることでcompactなforward pathになるように調整、10%の確率でまだ探索していない子ノードをランダムに選択することで探索を促すようにしている。オリジナルと比較して実行時間がどの程度増えてしまうのか？に興味があったが、モデルの深さという観点で推論効率は考察されているように見えたが、実行時間という観点ではざっと見た感じ記載がないように見えた。

以下の広範なQA、幅広い難易度を持つ数学に関するデータで評価（Appendix Bに各データセットごとに500 sampleを利用と記載がある）をしたところ、大幅に性能が向上している模様。ただし、8B程度のサイズのモデルでしか実験はされていない。
- [Paper Note] Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge, Peter Clark+, arXiv'18
- [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24

[Paper Note] Deep Think with Confidence, Yichao Fu+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Selected Papers/Blogs #MajorityVoting Issue Date: 2025-08-24 GPT Summary- 「Deep Think with Confidence（DeepConf）」は、LLMの推論タスクにおける精度と計算コストの課題を解決する手法で、モデル内部の信頼性信号を活用して低品質な推論を動的にフィルタリングします。追加の訓練や調整を必要とせず、既存のフレームワークに統合可能です。評価の結果、特に難易度の高いAIME 2025ベンチマークで99.9%の精度を達成し、生成トークンを最大84.7%削減しました。 Comment

pj page: https://jiaweizzhao.github.io/deepconf
vLLMでの実装: https://jiaweizzhao.github.io/deepconf/static/htmls/code_example.html

元ポスト:

Loading…

tooluse、追加の訓練なしで、どのようなタスクにも適用でき、85%生成トークン量を減らした上で、OpenModelで初めてAIME2025において99% Acc.を達成した手法とのこと。vLLMを用いて50 line程度で実装できるらしい。

reasoning traceのconfidence(i.e., 対数尤度)をgroup sizeを決めてwindow単位で決定し、それらをデコーディングのプロセスで活用することで、品質の低いreasoning traceに基づく結果を排除しつつ、majority votingに活用する方法。直感的にもうまくいきそう。オフラインとオンラインの推論によって活用方法が提案されている。あとでしっかり読んで書く。Confidenceの定義の仕方はグループごとのbottom 10%、tailなどさまざまな定義方法と、それらに基づいたconfidenceによるvotingの重み付けが複数考えられ、オフライン、オンラインによって使い分ける模様。

vLLMにPRも出ている模様？

[Paper Note] Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models, Wen Wang+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #PostTraining Issue Date: 2025-08-22 GPT Summary- dLLMsは中間予測を捨てがちだが、時間的振動が重要な現象である。本研究では、時間的一貫性を活用する2つの方法を提案。1つ目は、テスト時に予測を集約する時間的自己一貫性投票、2つ目は中間予測の安定性を測る時間的意味エントロピーを報酬信号とする時間的一貫性強化。実験結果では、Countdownデータセットで24.7%の改善を達成し、他のベンチマークでも向上を示した。これにより、dLLMsの時間的ダイナミクスの可能性が強調される。 Comment

元ポスト:

Loading…

dLLMのデノイジング過程において途中に正解が表出しているのに時間発展とともに消えてしまう問題があるらしく、それに対して、デノイジングステップにおいてstableな予測を行うSelf-Consistencyベースのdecoding手法と、意味的なエントロピーをrewardに加え時間発展で安定するようにpost trainingすることで対処します、みたいな話らしい。

[Paper Note] Unveiling the Power of Source: Source-based Minimum Bayes Risk Decoding for Neural Machine Translation, Boxuan Lyu+, ACL'25

Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #NLP #LanguageModel #ACL Issue Date: 2025-07-20 GPT Summary- ソースベースのMBRデコーディング（sMBR）を提案し、パラフレーズや逆翻訳から生成された準ソースを「サポート仮説」として利用。参照なしの品質推定メトリックを効用関数として用いる新しいアプローチで、実験によりsMBRがQE再ランキングおよび標準MBRを上回る性能を示した。sMBRはNMTデコーディングにおいて有望な手法である。 Comment

元ポスト:

Loading…

[Paper Note] Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions, Jaeyeon Kim+, ICML'25

Paper/Blog Link My Issue
#Analysis #Pretraining #DiffusionModel #ICML Issue Date: 2025-07-15 GPT Summary- マスク付き拡散モデル（MDMs）は、自己回帰モデル（ARMs）と比較してトレーニングの複雑さと推論の柔軟性をトレードオフする新しい生成モデルです。本研究では、MDMsが自己回帰モデルよりも計算上解決不可能なサブ問題に取り組むことを示し、適応的なトークンデコード戦略がMDMsの性能を向上させることを実証しました。数独の論理パズルにおいて、適応的推論により解決精度が$<7$%から$\approx 90$%に向上し、教師強制でトレーニングされたMDMsがARMsを上回ることを示しました。 Comment

openreview: https://openreview.net/forum?id=DjJmre5IkP

ICML'25 outstanding papers

日本語解説:

Loading…

[Paper Note] Faster Cascades via Speculative Decoding, Harikrishna Narasimhan+, ICLR'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ICLR #Test-Time Scaling #Verification #SpeculativeDecoding #Reference Collection Issue Date: 2025-05-13 GPT Summary- カスケードと推測デコーディングは、言語モデルの推論効率を向上させる手法であり、異なるメカニズムを持つ。カスケードは難しい入力に対して大きなモデルを遅延的に使用し、推測デコーディングは並行検証で大きなモデルを活用する。新たに提案する推測カスケーディング技術は、両者の利点を組み合わせ、最適な遅延ルールを特定する。実験結果は、提案手法がカスケードおよび推測デコーディングのベースラインよりも優れたコスト品質トレードオフを実現することを示した。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=vo9t20wsmd

[Paper Note] Non-Determinism of "Deterministic" LLM Settings, Berk Atil+, Eval4NLP'25, 2024.08

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #ACL #Selected Papers/Blogs #Workshop #Non-Determinism #In-Depth Notes #KeyPoint Notes Issue Date: 2025-04-14 GPT Summary- 本研究では、5つの決定論的LLMにおける非決定性を8つのタスクで調査し、最大15%の精度変動と70%のパフォーマンスギャップを観察。全てのタスクで一貫した精度を提供できないことが明らかになり、非決定性が計算リソースの効率的使用に寄与している可能性が示唆された。出力の合意率を示す新たなメトリクスTARr@NとTARa@Nを導入し、研究結果を定量化。コードとデータは公開されている。 Comment

- 論文中で利用されているベンチマーク:
- [Paper Note] Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, arXiv'22, 2022.06
- [Paper Note] Measuring Massive Multitask Language Understanding, Dan Hendrycks+, arXiv'20, 2020.09

同じモデルに対して、seedを固定し、temperatureを0に設定し、同じ計算機環境に対して、同じinputを入力したら理論上はLLMの出力はdeterministicになるはずだが、deterministicにならず、ベンチマーク上の性能とそもそものraw response自体も試行ごとに大きく変化する、という話。
ただし、これはプロプライエタリLLMや、何らかのinferenceの高速化を実施したInferenceEngine（本研究ではTogetherと呼ばれる実装を使っていそう。vLLM/SGLangだとどうなるのかが気になる）を用いてinferenceを実施した場合での実験結果であり、後述の通り計算の高速化のためのさまざまな実装無しで、deterministicな設定でOpenLLMでinferenceすると出力はdeterministicになる、という点には注意。

GPTやLlama、Mixtralに対して上記ベンチマークを用いてzero-shot/few-shotの設定で実験している。Reasoningモデルは実験に含まれていない。

LLMのraw_response/multiple choiceのparse結果（i.e., 問題に対する解答部分を抽出した結果）の一致（TARr@N, TARa@N; Nはinferenceの試行回数）も理論上は100%になるはずなのに、ならないことが報告されている。

correlation analysisによって、応答の長さと TAR{r, a}が強い負の相関を示しており、応答が長くなればなるほど不安定さは増すことが分析されている。このため、ontput tokenの最大値を制限することで出力の安定性が増すことを考察している。また、few-shotにおいて高いAcc.の場合は出力がdeterministicになるわけではないが、性能が安定する傾向とのこと。また、OpenAIプラットフォーム上でGPTのfinetuningを実施し実験したが、安定性に寄与はしたが、こちらもdeterministicになるわけではないとのこと。

deterministicにならない原因として、まずmulti gpu環境について検討しているが、multi-gpu環境ではある程度のランダム性が生じることがNvidiaの研究によって報告されているが、これはseedを固定すれば決定論的にできるため問題にならないとのこと。
続いて、inferenceを高速化するための実装上の工夫（e.g., Chunk Prefilling, Prefix Caching, Continuous Batching）などの実装がdeterministicなハイパーパラメータでもdeterministicにならない原因であると考察しており、**実際にlocalマシン上でこれらinferenceを高速化するための最適化を何も実施しない状態でLlama-8Bでinferenceを実施したところ、outputはdeterministicになったとのこと。**

論文中に記載がなかったため、どのようなInferenceEngineを利用したか公開されているgithubを見ると下記が利用されていた:

- Together: https://github.com/togethercomputer/together-python?tab=readme-ov-file

Togetherが内部的にどのような処理をしているかまでは追えていないのだが、異なるInferenceEngineを利用した場合に、どの程度outputの不安定さに差が出るのか（あるいは出ないのか）は気になる。たとえば、transformers/vLLM/SGLangを利用した場合などである。

論文中でも報告されている通り、昔管理人がtransformersを用いて、deterministicな設定でzephyrを用いてinferenceをしたときは、出力はdeterministicになっていたと記憶している（スループットは絶望的だったが...)。

あと個人的には現実的な速度でオフラインでinference engineを利用した時にdeterministicにはせめてなって欲しいなあという気はするので、何が原因なのかを実装レベルで突き詰めてくれるととても嬉しい（KV Cacheが怪しい気がするけど）。

たとえば最近SLMだったらKVCacheしてVRAM食うより計算し直した方が効率良いよ、みたいな研究があったような。そういうことをしたらlocal llmでdeterministicにならないのだろうか。

- Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09

においてvLLMを用いた場合にDeterministicな推論をするための解決方法が提案されている。

[Paper Note] Adaptive Decoding via Latent Preference Optimization, Shehzaad Dhuliawala+, arXiv'24

Paper/Blog Link My Issue
#NLP #LanguageModel #SamplingParams #Author Thread-Post Issue Date: 2024-11-15 GPT Summary- Adaptive Decodingを導入し、推論時にトークンや例ごとに動的にサンプリング温度を選択することで、言語モデルのパフォーマンスを最適化。Latent Preference Optimization（LPO）を用いて温度選択を学習し、UltraFeedbackやCreative Story Writing、GSM8Kなどのタスクで固定温度を超える性能を達成。 Comment

著者ポスト:

Loading…

[Paper Note] Self-Evaluation Guided Beam Search for Reasoning, Yuxi Xie+, NeurIPS'23, 2023.05

Paper/Blog Link My Issue
#BeamSearch #NLP #LanguageModel #Reasoning #SelfCorrection #NeurIPS #KeyPoint Notes Issue Date: 2025-10-01 GPT Summary- LLMの推論プロセスを改善するために、段階的自己評価メカニズムを導入し、確率的ビームサーチを用いたデコーディングアルゴリズムを提案。これにより、推論の不確実性を軽減し、GSM8K、AQuA、StrategyQAでの精度を向上。Llama-2を用いた実験でも効率性が示され、自己評価ガイダンスが論理的な失敗を特定し、一貫性を高めることが確認された。 Comment

pj page: https://guideddecoding.github.io

openreview: https://openreview.net/forum?id=Bw82hwg5Q3

非常にざっくり言うと、reasoning chain（＝複数トークンのsequence)をトークンとみなした場合の（確率的）beam searchを提案している。多様なreasoning chainをサンプリングし、その中から良いものをビーム幅kで保持し生成することで、最終的に良いデコーディング結果を得る。reasoning chainのランダム性を高めるためにtemperatureを設定するが、アニーリングをすることでchainにおけるエラーが蓄積することを防ぐ。これにより、最初は多様性を重視した生成がされるが、エラーが蓄積され発散することを防ぐ。

reasoning chainの良さを判断するために、chainの尤度だけでなく、self-evaluationによるreasoning chainの正しさに関するconfidenceスコアも導入する（reasoning chainのconfidenceスコアによって重みづけられたchainの尤度を最大化するような定式化になる（式3))。
self-evaluationと生成はともに同じLLMによって実現されるが、self-evaluationについては評価用のfew-shot promptingを実施する。promptingでは、これまでのreasoning chainと、新たなreasoning chainがgivenなときに、それが(A)correct/(B)incorrectなのかをmultiple choice questionで判定し、選択肢Aが生成される確率をスコアとする。

[Paper Note] Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation, Xuefei Ning+, arXiv'23, 2023.07

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ICLR #One-Line Notes #Parallel Issue Date: 2023-08-08 GPT Summary- 本研究は、巨大言語モデル（LLMs）の生成遅延を低減するため、Skeleton-of-Thought（SoT）を提案。SoTは、まず回答のスケルトンを生成し、次に並列デコードを実行して内容を完成。12種のLLMでスピードアップと回答品質向上を実現。データ中心の最適化による効率的な推論を目指す。 Comment

最初に回答の枠組みだけ生成して、それぞれの内容を並列で出力させることでデコーディングを高速化しましょう、という話。

openreview: https://openreview.net/forum?id=mqVgBbNCm9

[Paper Note] The Curious Case of Neural Text Degeneration, Ari Holtzman+, ICLR'20

Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #Diversity #Selected Papers/Blogs Issue Date: 2025-04-14 GPT Summary- 深層ニューラル言語モデルは高品質なテキスト生成において課題が残る。尤度の使用がモデルの性能に影響を与え、人間のテキストと機械のテキストの間に分布の違いがあることを示す。デコーディング戦略が生成テキストの質に大きな影響を与えることが明らかになり、ニュークリアスsamplingを提案。これにより、多様性を保ちながら信頼性の低い部分を排除し、人間のテキストに近い質を実現する。 Comment

現在のLLMで主流なNucleus (top-p) Samplingを提案した研究