LLMServing
#Article#LanguageModel
Issue Date: 2025-02-12 SGlang, sgl-project, 2024.01 CommentSGLang is a fast serving framework for large language models and vision language models. It makes your interaction with models faster and more control ... #Article#NLP#LanguageModel#Library#Repository
Issue Date: 2024-08-31 NanoFlow, 2024.08 CommentvLLMよりも2倍程度高速なLLM serving framework。オフライン評価オンラインでのlatenc元ポスト: ... #Article#Efficiency/SpeedUp#Library#Article#OpenWeightLLM
Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment[vllm](https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。 (図はブログ中より引用) オンラインでのlatenc元ポスト: ... #Article#Efficiency/SpeedUp#Library#Article#OpenWeightLLM
Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment[vllm](https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。 (図はブログ中より引用) ![image](https://gitこちら ...