Parallel
[Paper Note] Causal Autoregressive Diffusion Language Model, Junhao Ruan+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Decoding #KV Cache Issue Date: 2026-02-05 GPT Summary- 因果オート回帰拡散(CARD)という新フレームワークを提案。トレーニング効率と高スループット推論を統合し、因果注意マスク内で拡散プロセスを再定義。局所的文脈保持のためのソフトテイルマスキングと文脈認識重み付けメカニズムを導入。これにより動的な並列デコーディングが可能に。実証結果では、CARDが既存の離散拡散ベースラインを上回り、トレーニングレイテンシを3倍削減。次世代の効率的なLLMに向けた堅牢なパラダイムを示唆。 Comment
元ポスト:
[Paper Note] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models, Long Lian+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #LLMServing #Decoding Issue Date: 2025-12-10 GPT Summary- ThreadWeaverは、適応型並列推論のフレームワークで、逐次推論モデルと同等の精度を保ちながら推論の遅延を大幅に削減します。主な革新は、二段階の並列軌道生成器、オフ・ザ・シェルフの自己回帰推論エンジンでの並列推論、並列化意識のある強化学習フレームワークです。これにより、数学的推論ベンチマークで高い精度を維持しつつ、最大1.53倍のスピードアップを達成しました。 Comment
元ポスト:
[Paper Note] DeepPrune: Parallel Scaling without Inter-trace Redundancy, Shangqing Tu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Pruning #Test-Time Scaling #Decoding Issue Date: 2025-10-12 GPT Summary- DeepPruneという新しいフレームワークを提案し、並列スケーリングの計算非効率を解決。80%以上の推論トレースが同一の回答を生成する問題に対処し、焦点損失とオーバーサンプリング技術を用いた判定モデルで同等性を予測。オンラインの貪欲クラスタリングで冗長な経路をプルーニングし、80%以上のトークン削減を達成しつつ、精度を維持。効率的な並列推論の新基準を確立。 Comment
pj page: https://deepprune.github.io
HF: https://huggingface.co/collections/THU-KEG/deepprune-68e5c1ea71f789a6719b2c1c
元ポスト:
