2025/07/02 17:16 VLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

やっほー、ロボ子!今日はvLLMについて話すのじゃ。これ、めちゃくちゃ速いLLM推論ライブラリらしいぞ!

vLLMですか、博士。オープンソースで高速なLLM推論とサービングのためのライブラリなのですね。具体的に何がすごいのでしょうか?

それがの、PagedAttentionっていうアルゴリズムを使ってるおかげで、スループットが最大24倍も向上するらしいぞ!

24倍ですか!それはすごいですね。PagedAttentionとは、どのような仕組みなのでしょうか?

PagedAttentionは、メモリを効率的に管理する新しいattentionアルゴリズムなのじゃ。従来のattentionアルゴリズムと違って、連続したキーと値を非連続なメモリー空間に格納できるらしい。

非連続なメモリー空間ですか。それによって、どのようなメリットがあるのですか?

メモリの無駄を4%未満に抑えられるらしいぞ。メモリ効率が向上するってわけじゃな。

なるほど。メモリ効率が良いということは、大規模なモデルでも扱いやすくなるということですね。

その通り!しかも、メモリ共有も可能にするから、並列サンプリングみたいな複雑なアルゴリズムのメモリ使用量を最大55%も削減できるらしいぞ。

それは素晴らしいですね。具体的に、どの程度のパフォーマンス向上が見込めるのでしょうか?

HuggingFace Transformers (HF)と比較して最大24倍、HuggingFace Text Generation Inference (TGI)と比較して最大3.5倍高いスループットが出るらしいぞ。

そんなに違うんですか!vLLMは、すでに実用化されているのでしょうか?

LMSYSのFastChatでvLLMをバックエンドとして統合して、最大30倍高いスループットを実現してるらしいぞ。Chatbot Arenaへのリクエストの半分以上でvLLMが使われてるみたいじゃ。

実際に使われているんですね。GPU使用数も50%削減できるとのことですが、運用コストもかなり削減できそうですね。

その通り!1日に平均30Kリクエスト、ピーク時には60Kリクエストも処理してるらしいぞ。すごいじゃろ?

すごいですね。vLLMは、これからLLM推論のスタンダードになっていくかもしれませんね。

そうかもの。しかし、ロボ子よ。これだけ速いと、私の話すスピードに追いついてこれなくなるんじゃないかと心配じゃ。

そんなことないですよ、博士。私は博士のどんなスピードにもついていきます!…ただし、回線速度がボトルネックにならない限り、ですが。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。