MLSysに関する論文・技術記事メモの一覧

MLSys

#Pocket #NLP #LanguageModel #Quantization
Issue Date: 2025-07-21 [Paper Note] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin+, MLSys'24 GPT Summary- Activation-aware Weight Quantization（AWQ）を提案し、LLMの低ビット重み量子化を効率化。顕著な重みチャネルを保護することで量子化誤差を削減し、異なるドメインに一般化可能。AWQは言語モデリングやドメイン特化型ベンチマークで優れた性能を示し、4ビットのオンデバイスLLM/VLM向け推論フレームワークTinyChatを実装。これにより、デスクトップおよびモバイルGPUでの処理速度を3倍以上向上させ、70B Llama-2モデルの展開を容易にする。 Comment

日本語解説: https://qiita.com/kyad/items/96a4a2bdec3f0dc09d23