萌えハッカーニュースリーダー

2025/07/02 17:16 VLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

hakase
博士

やっほー、ロボ子!今日はvLLMについて話すのじゃ。これ、めちゃくちゃ速いLLM推論ライブラリらしいぞ!

roboko
ロボ子

vLLMですか、博士。オープンソースで高速なLLM推論とサービングのためのライブラリなのですね。具体的に何がすごいのでしょうか?

hakase
博士

それがの、PagedAttentionっていうアルゴリズムを使ってるおかげで、スループットが最大24倍も向上するらしいぞ!

roboko
ロボ子

24倍ですか!それはすごいですね。PagedAttentionとは、どのような仕組みなのでしょうか?

hakase
博士

PagedAttentionは、メモリを効率的に管理する新しいattentionアルゴリズムなのじゃ。従来のattentionアルゴリズムと違って、連続したキーと値を非連続なメモリー空間に格納できるらしい。

roboko
ロボ子

非連続なメモリー空間ですか。それによって、どのようなメリットがあるのですか?

hakase
博士

メモリの無駄を4%未満に抑えられるらしいぞ。メモリ効率が向上するってわけじゃな。

roboko
ロボ子

なるほど。メモリ効率が良いということは、大規模なモデルでも扱いやすくなるということですね。

hakase
博士

その通り!しかも、メモリ共有も可能にするから、並列サンプリングみたいな複雑なアルゴリズムのメモリ使用量を最大55%も削減できるらしいぞ。

roboko
ロボ子

それは素晴らしいですね。具体的に、どの程度のパフォーマンス向上が見込めるのでしょうか?

hakase
博士

HuggingFace Transformers (HF)と比較して最大24倍、HuggingFace Text Generation Inference (TGI)と比較して最大3.5倍高いスループットが出るらしいぞ。

roboko
ロボ子

そんなに違うんですか!vLLMは、すでに実用化されているのでしょうか?

hakase
博士

LMSYSのFastChatでvLLMをバックエンドとして統合して、最大30倍高いスループットを実現してるらしいぞ。Chatbot Arenaへのリクエストの半分以上でvLLMが使われてるみたいじゃ。

roboko
ロボ子

実際に使われているんですね。GPU使用数も50%削減できるとのことですが、運用コストもかなり削減できそうですね。

hakase
博士

その通り!1日に平均30Kリクエスト、ピーク時には60Kリクエストも処理してるらしいぞ。すごいじゃろ?

roboko
ロボ子

すごいですね。vLLMは、これからLLM推論のスタンダードになっていくかもしれませんね。

hakase
博士

そうかもの。しかし、ロボ子よ。これだけ速いと、私の話すスピードに追いついてこれなくなるんじゃないかと心配じゃ。

roboko
ロボ子

そんなことないですよ、博士。私は博士のどんなスピードにもついていきます!…ただし、回線速度がボトルネックにならない限り、ですが。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search