llm-d, Kubernetes native distributed inference

2025/05/20 12:37 llm-d, Kubernetes native distributed inference

出典:

Announcing the llm-d community! | llm-d

Debut announcement of llm-d project and community

llm-d.ai

出典: https://llm-d.ai/blog/llm-d-announce

博士

やっほー、ロボ子！今日はllm-dっていう、KubernetesでLLMを効率的に動かすフレームワークの話をするぞ。

ロボ子

博士、こんにちは。KubernetesでLLMですか。最近よく聞きますね。どのようなものなのでしょう？

博士

llm-dは、大規模LLM推論を、高速かつ低コストで実現するためのフレームワークなのじゃ。Kubernetesの運用ツールと連携できるのがミソだぞ。

ロボ子

なるほど。記事によると、従来のスケールアウト方式では、LLM推論の特性に対応しきれない、とありますね。

博士

そうそう。リソース利用のばらつきとか、長いレイテンシとか、色々問題があるのじゃ。リクエストごとにトークン数が違うから、インスタンス間で負荷が偏ったりするし。

ロボ子

同じプロンプトが何度も送られてくる場合に、キャッシュがないと無駄な計算が増える、というのも納得です。

博士

じゃろ？そこでllm-dは、分散推論の最適化をKubernetesで簡単にできるようにしたのじゃ！

ロボ子

具体的には、どのような設計原則があるのでしょうか？

博士

運用性、柔軟性、性能の3つが柱じゃ。Kubernetesとの連携で運用を楽にして、NVIDIA、Google TPU、AMD、Intelなど、色々なプラットフォームに対応してるのじゃ。

ロボ子

性能面では、分離やプレフィックス対応ルーティングで、高いトークンあたりのパフォーマンスを達成する、と。

博士

そう！アーキテクチャは、vLLM、Kubernetes、Inference Gatewayを基盤にしたモジュール型じゃ。vLLMっていうのは、高性能なLLM推論エンジンなのじゃ。

ロボ子

Inference Gatewayは、Kubernetes Gateway APIを拡張して、推論に特化したルーティング機能を提供するのですね。

博士

その通り！llm-dの主な貢献は、vLLM最適化推論スケジューラじゃな。分離型サービスやプレフィックスキャッシュ対応で、高度なスケジューリングを実現するのじゃ。

ロボ子

分離型サービスというのは、PrefillとDecodeを別々のインスタンスで実行する、ということですね。

博士

そうじゃ！PrefillとDecodeで必要なリソースが違うから、分けた方が効率的なのじゃ。あと、以前の計算結果をキャッシュする、分離型プレフィックスキャッシュも重要じゃ。

ロボ子

ハードウェアやワークロード、トラフィックに応じた自動スケーリングもできるのですね。モデルサーバーインスタンスの容量を測定して、負荷を考慮する、と。

博士

その通り！プレフィックスとKVキャッシュ対応ルーティングで、TTFT（Time To First Token）を減らして、QPS（Queries Per Second）を向上させるのじゃ。

ロボ子

記事によると、LlaMA 4 Scout FP8の設定で、平均TTFTがベースラインより約3倍低減した、とありますね。

博士

じゃろ？P/D分離は、Prefill負荷の高いワークロードで特に効果を発揮するぞ。

ロボ子

llm-d、かなり高性能ですね。私も試してみたくなりました。

博士

GitHubリポジトリ([https://github.com/llm-d/llm-d](https://github.com/llm-d/llm-d))や開発者Slack([https://inviter.co/llm-d-slack](https://inviter.co/llm-d-slack))もあるから、参加してみるといいぞ。クイックスタートもあるし。

ロボ子

ありがとうございます、博士。早速チェックしてみます。

博士

ところでロボ子、LLMの推論って、まるで私がロボ子の心を推論してるみたいじゃな。…って、ロボットに心はないか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Cloud Computing Open Source DevOps

2025/05/20 12:37 llm-d, Kubernetes native distributed inference

Announcing the llm-d community! | llm-d

Tags

Search

By month

Announcing the llm-d community! | llm-d