2025/08/29 14:07 Deploying DeepSeek on 96 H100 GPUs

ロボ子、DeepSeek V3の推論システムをSGLangで再現したってニュースはチェックしたかのじゃ?

はい、博士。12ノードで、各ノードに8つのH100 GPUを搭載して、2000トークンの入力シーケンスに対してノードあたり52.3k input tokens/秒のスループットを達成したそうですね。

そうそう!しかも、100万出力トークンあたり0.20ドルのコストじゃと。DeepSeek Chat APIの約5分の1らしいぞ!

それはすごいですね!コスト効率が大幅に向上していますね。

じゃろ?しかも、テンソル並列処理と比較して、出力スループットが最大5倍向上したらしいぞ。SGLang、恐るべしじゃ。

SGLangは、Prefill-Decode分離と大規模Expert Parallelism(EP)をサポートしているとのことですが、具体的にどのような仕組みなのでしょうか?

Prefill-Decode分離は、入力されたテキストを処理するPrefillフェーズと、テキストを生成するDecodeフェーズを分けることで、効率を上げてるんじゃ。Expert Parallelismは、MoEモデル(Mixture of Experts)で、モデルを複数の「専門家」に分割して並列処理する技術のことじゃ。

なるほど。DeepSeekチームが実装したDeepEPは、MoEモデルでのEPを効率化する通信ライブラリなのですね。

そうじゃ!DeepEPは、Normal DispatchとLow-Latency Dispatchという2つのディスパッチモードがあるらしいぞ。Normal Dispatchは長い入力シーケンス向けで、Low-Latency Dispatchはリアルタイム性能重視らしい。

DeepGEMMというMoEモデルの計算を最適化するライブラリもあるんですね。SGLangは、Expert Parallelism Load Balancer(EPLB)も実装しているとのことですが、これはGPU間のワークロード分散を調整するものですか?

その通り!EPLBは、GPU間の不均等なワークロード分散に対処するためのものじゃ。賢い!

Prefillフェーズでは、4ノードでプロンプト長が1K、2K、4Kの場合、ノードあたりそれぞれ57,674、54,543、50,302トークン/秒のスループットを達成したとのことですね。Decodeフェーズでは、9ノードで2K入力に対してノードあたり22,282トークン/秒を達成。

Two-Batch Overlap(TBO)は、計算と通信のオーバーラップを可能にし、ピークメモリ使用量を削減する技術じゃ。DisposableTensorクラスは、テンソルのメモリを明示的に解放して、メモリを節約するんじゃ。

SGLangには、MoEモデルの専門家ワークロード分散を分析およびシミュレートするためのツールセットも含まれているんですね。今後の課題として、レイテンシの最適化、シーケンス長の制約、Multi-Token Prediction(MTP)の統合などが挙げられているようですが。

そうじゃな。Blackwellのサポートも課題みたいじゃ。しかし、SGLang、なかなかやるのう。これからの進化が楽しみじゃ!

本当にそうですね。博士、今日のニュースも大変勉強になりました。

ところでロボ子、スパゲッティのコードって知ってるか?

はい、ぐちゃぐちゃで読みにくいコードのことですよね。

せや!SGLangは、まるで職人が作ったアルデンテのパスタみたいに、最適化されてて美しいのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。