MLSys


Paper/Blog Link My Issue
#EfficiencyImprovement #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- LEANNは、動的に再計算することでストレージ効率の高いベクトル検索を実現する新しいインデックス。元データ一部のみで高品質な検索を提供し、従来のインデックスに対して最大50倍のサイズ削減を達成。RAGアプリケーションでの高精度と同等のレイテンシを維持。 Comment

元ポスト:

Loading…

github: https://github.com/yichuan-w/LEANN](https://t.co/QwkYx1t0oa




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Training-Free #Selected Papers/Blogs #reading #One-Line Notes #SparseAttention #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- BLASSTは、LLMsの文脈での推論能力向上のために提案された動的スパースアテンション機構である。固定スカラー閾値を用いて計算を加速し、トレーニング要件を排除、既存フレームワークと容易に統合可能。自動閾値キャリブレーション手法により、最適閾値と文脈長の逆比例関係が明らかにされ、前計算とデコードそれぞれに単一の閾値を利用。現代GPU上でのベンチマークにおいて、前計算とデコードがそれぞれ1.52倍、1.48倍の速度向上を示し、精度を維持した。 Comment

元ポスト:

Loading…

training-freeで単一のスカラー閾値による制御によって、スキップ可能なattention blockをスキップするSparse Attentionとのこと。

image

非常に使い勝手が良さそうで、50%程度のSparsityにしてもベースラインとなるDense Attentionに対してダウンストリームタスクの性能低下はなく(Table 4)、50%程度のSparsityの場合、prefillとdecode step方法において、Blackwell, Hopperアーキテクチャにおいて約1.3倍の高速化を実現できる(Table5)。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SpeculativeDecoding #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- 推測的デコード(SD)の実世界での有効性を評価するため、実際の推論エンジンvLLMを用いて初めての体系的研究を実施。複数のSD変種をさまざまな条件下で比較し、推論速度向上の理論的上限を定量化。結果は、モデルの検証が実行を支配し、受入長がさまざまな要因によって変化することを示唆。性能と理論的境界の間のギャップが大きく、新たな研究機会を明らかに。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Quantization #EdgeDevices Issue Date: 2025-07-21 GPT Summary- Activation-aware Weight Quantization(AWQ)を提案し、LLMの低ビット重み量子化を効率化。顕著な重みチャネルを保護することで量子化誤差を削減し、異なるドメインに一般化可能。AWQは言語モデリングやドメイン特化型ベンチマークで優れた性能を示し、4ビットのオンデバイスLLM/VLM向け推論フレームワークTinyChatを実装。これにより、デスクトップおよびモバイルGPUでの処理速度を3倍以上向上させ、70B Llama-2モデルの展開を容易にする。 Comment

日本語解説: https://qiita.com/kyad/items/96a4a2bdec3f0dc09d23