Parallel
[Paper Note] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models, Long Lian+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #LLMServing #Decoding Issue Date: 2025-12-10 GPT Summary- ThreadWeaverは、適応型並列推論のフレームワークで、逐次推論モデルと同等の精度を保ちながら推論の遅延を大幅に削減します。主な革新は、二段階の並列軌道生成器、オフ・ザ・シェルフの自己回帰推論エンジンでの並列推論、並列化意識のある強化学習フレームワークです。これにより、数学的推論ベンチマークで高い精度を維持しつつ、最大1.53倍のスピードアップを達成しました。 Comment
元ポスト:
[Paper Note] DeepPrune: Parallel Scaling without Inter-trace Redundancy, Shangqing Tu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Pruning #Test-Time Scaling #Decoding Issue Date: 2025-10-12 GPT Summary- DeepPruneという新しいフレームワークを提案し、並列スケーリングの計算非効率を解決。80%以上の推論トレースが同一の回答を生成する問題に対処し、焦点損失とオーバーサンプリング技術を用いた判定モデルで同等性を予測。オンラインの貪欲クラスタリングで冗長な経路をプルーニングし、80%以上のトークン削減を達成しつつ、精度を維持。効率的な並列推論の新基準を確立。 Comment
pj page: https://deepprune.github.io
HF: https://huggingface.co/collections/THU-KEG/deepprune-68e5c1ea71f789a6719b2c1c
元ポスト: