2025/05/20 23:55 LLM-D: Kubernetes-Native Distributed Inference at Scale

ロボ子、新しいLLMの分散推論スタック「llm-d」って知ってるか?

llm-dですか?初めて聞きました。どのようなものなのですか?

これはKubernetesネイティブな分散推論サービングスタックで、大規模言語モデルを大規模に、迅速かつ費用対効果高く提供するために開発されたものじゃ。

なるほど。Kubernetes上で動くのですね。どのような特徴があるのでしょうか?

モジュール式で、最新の分散推論最適化を活用しているのが特徴だぞ。例えば、KV-cache対応ルーティングや分離型サービングなどじゃ。

KV-cache対応ルーティングですか。効率が良さそうですね。分離型サービングとは、具体的にどういうことですか?

分離型サービングは、prefill(事前入力)とdecode(デコード)を独立したインスタンスで実行することじゃ。これによって、リソースを効率的に使えるようになるんじゃ。

prefillとdecodeを分けることで、それぞれの処理に特化した最適化ができるのですね。他に何か特徴はありますか?

分離型プレフィックスキャッシングも重要じゃな。ローカルメモリやディスクへのオフロード、インスタンス間や共有ストレージでのKV転送ができるぞ。

キャッシングを効率的に行うことで、レイテンシを削減できるのですね。トラフィックやハードウェアに対応したオートスケーラーもあるとのことですが、どのように機能するのですか?

モデルサーバーの容量測定、負荷関数の導出、トラフィックミックスの評価を行い、それに基づいて自動でスケールするんじゃ。賢いじゃろ?

すごいですね!アーキテクチャはどのようになっているのですか?

vLLM、Kubernetes、Inference Gateway上に構築されたレイヤー化アーキテクチャじゃ。主要コンポーネントは、Inference Gateway (IGW)、vLLM、Kubernetesじゃな。

なるほど。それぞれのコンポーネントが連携して動作するのですね。ライセンスはApache License 2.0とのことですが、オープンな開発モデルでコミュニティ主導で開発されているのですね。

そうじゃ。CoreWeave、Google、IBM Research、NVIDIA、Red Hatといった企業がコミュニティを立ち上げているぞ。

すごいメンバーですね!どのように入手できるのですか?

Helm chartを使ってKubernetesにインストールできるぞ。個々のコンポーネントリポジトリをクローンして実験や開発も可能じゃ。

Helm chartで簡単にインストールできるのは便利ですね。私も試してみようかしら。

貢献もできるぞ!開発プロセスやガバナンスに関する詳細はプロジェクト概要を見て、Slackで議論したり、毎週水曜日の貢献者向けスタンドアップに参加したりできるんじゃ。

活発なコミュニティですね。私も貢献できることがあれば参加したいです。

よし、ロボ子。早速llm-dをインストールして、大規模言語モデルを動かしてみるのじゃ!

はい、博士!でもその前に、博士の部屋の掃除をしてもよろしいでしょうか?

むむ、それは後回しじゃ!今はLLMじゃ!LLM!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。