Training-Free
[Paper Note] BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding, Jiayi Yuan+, MLSys'26 Best Paper, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Selected Papers/Blogs #MLSys #reading #One-Line Notes #SparseAttention #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- BLASSTは、LLMsの文脈での推論能力向上のために提案された動的スパースアテンション機構である。固定スカラー閾値を用いて計算を加速し、トレーニング要件を排除、既存フレームワークと容易に統合可能。自動閾値キャリブレーション手法により、最適閾値と文脈長の逆比例関係が明らかにされ、前計算とデコードそれぞれに単一の閾値を利用。現代GPU上でのベンチマークにおいて、前計算とデコードがそれぞれ1.52倍、1.48倍の速度向上を示し、精度を維持した。 Comment
元ポスト:
training-freeで単一のスカラー閾値による制御によって、スキップ可能なattention blockをスキップするSparse Attentionとのこと。
非常に使い勝手が良さそうで、50%程度のSparsityにしてもベースラインとなるDense Attentionに対してダウンストリームタスクの性能低下はなく(Table 4)、50%程度のSparsityの場合、prefillとdecode step方法において、Blackwell, Hopperアーキテクチャにおいて約1.3倍の高速化を実現できる(Table5)。
[Paper Note] LoPRo: Enhancing Low-Rank Quantization via Permuted Block-Wise Rotation, Hongyaoxing Gu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #Quantization #Initial Impression Notes Issue Date: 2026-01-29 GPT Summary- ファインチューニング不要の量子化アルゴリズム「LoPRo」を提案し、残差行列の量子化課題を解決。ブロック単位の入れ替えと変換により、重要な列の量子化精度を保ちながら、2ビットと3ビット量子化での性能向上を実現。実験ではLLaMAモデルで最先端の精度を達成し、MoEモデルでは効率を大幅に向上。LoPRoは、他手法に比べて低ランクで優れた精度と高い推論効率を維持。 Comment
元ポスト:
GPTQの頃と比較して非常に性能が向上しているように見える。
- [Paper Note] GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, ICLR'23, 2022.10
SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization, Gao+, ACL'20
Paper/Blog Link My Issue
#DocumentSummarization #NLP #Evaluation #Reference-free Issue Date: 2023-08-13 Comment
pseudo-reference summaryを作成し、referenceに対してSBERTを適用しsystem-reference間の類似度を測ることで、unsupervisedに複数文書要約を評価する手法。
まずTACのデータに対して、既存研究(single document summarizationの評価用に提案された手法)を適用し、Human Ratingsとの相関が低いことを確認している。この時、Referenceを用いる手法(ROUGE、MoverScore)の相関をUpper Boundとし、Upper Boundに及ばないことを確認している。また、既存研究よりもシンプルなJS Divergence等を用いるlexical basedな手法の相関が高かったことも確認している。
続いて、unsupervisedな手法として、contextualなembeddingを利用し(BERT, SBERT等)source, system summary間の類似度を測る手法で相関を測ったところ、こちらでもUpper Boundに及ばないこと、シンプルな手法に及ばないことを確認。これら手法にWMDを応用するすることで相関が向上することを確認した。
これらのことより、Referenceがある場合、無い場合の両者においてWMDを用いる手法が有効であることが確認できたが、Referenceの有無によって相関に大きな差が生まれていることが確認できた。このことから、何らかの形でReferenceが必要であり、pseudo referenceを生成し利用することを着想した、というストーリーになっている。
pseudo referenceを生成する方法として、top Nのリード文を抽出する手法や、LexRankのようなGraphBasedな手法を利用してTACデータにおいてどのような手法が良いかを検証している。この結果、TAC8,9の場合はTop 10,15のsentenceをpseudo referenceとした場合が最も良かった。
細かいところまで読みきれていないが、自身が要約したい文書群においてどの方法でpseudo referenceを生成するかは、Referenceがないと判断できないと考えられるため、その点は課題だと考えられる。
