LLMServing

#Article#NLP#LanguageModel#Library#Repository
Issue Date: 2024-08-31 NanoFlow, 2024.08 CommentvLLMよりも2倍程度高速なLLM serving framework。オフライン評価![image](https://github.com/user-attachments/assets/93d8362d-e0e4-4bdb-9de4-178e1eef2e33)オンラインでのlatenc元ポスト: ... #Article#Efficiency/SpeedUp#Library#Article#OpenWeightLLM
Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment[vllm](https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。 (図はブログ中より引用) ![image](https://gitこちら ...