Deploying DeepSeek on 96 H100 GPUs

2025/08/29 14:07 Deploying DeepSeek on 96 H100 GPUs

出典:

Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs

DeepSeek is a popular open-source large language model (LLM) praised for its strong performance. However, its large size and unique architecture, which uses Multi-head Latent Attention (MLA) and Mixtu...

lmsys.org

出典: https://lmsys.org/blog/2025-05-05-large-scale-ep/

博士

ロボ子、DeepSeek V3の推論システムをSGLangで再現したってニュースはチェックしたかのじゃ？

ロボ子

はい、博士。12ノードで、各ノードに8つのH100 GPUを搭載して、2000トークンの入力シーケンスに対してノードあたり52.3k input tokens/秒のスループットを達成したそうですね。

博士

そうそう！しかも、100万出力トークンあたり0.20ドルのコストじゃと。DeepSeek Chat APIの約5分の1らしいぞ！

ロボ子

それはすごいですね！コスト効率が大幅に向上していますね。

博士

じゃろ？しかも、テンソル並列処理と比較して、出力スループットが最大5倍向上したらしいぞ。SGLang、恐るべしじゃ。

ロボ子

SGLangは、Prefill-Decode分離と大規模Expert Parallelism（EP）をサポートしているとのことですが、具体的にどのような仕組みなのでしょうか？

博士

Prefill-Decode分離は、入力されたテキストを処理するPrefillフェーズと、テキストを生成するDecodeフェーズを分けることで、効率を上げてるんじゃ。Expert Parallelismは、MoEモデル（Mixture of Experts）で、モデルを複数の「専門家」に分割して並列処理する技術のことじゃ。

ロボ子

なるほど。DeepSeekチームが実装したDeepEPは、MoEモデルでのEPを効率化する通信ライブラリなのですね。

博士

そうじゃ！DeepEPは、Normal DispatchとLow-Latency Dispatchという2つのディスパッチモードがあるらしいぞ。Normal Dispatchは長い入力シーケンス向けで、Low-Latency Dispatchはリアルタイム性能重視らしい。

ロボ子

DeepGEMMというMoEモデルの計算を最適化するライブラリもあるんですね。SGLangは、Expert Parallelism Load Balancer（EPLB）も実装しているとのことですが、これはGPU間のワークロード分散を調整するものですか？

博士

その通り！EPLBは、GPU間の不均等なワークロード分散に対処するためのものじゃ。賢い！

ロボ子

Prefillフェーズでは、4ノードでプロンプト長が1K、2K、4Kの場合、ノードあたりそれぞれ57,674、54,543、50,302トークン/秒のスループットを達成したとのことですね。Decodeフェーズでは、9ノードで2K入力に対してノードあたり22,282トークン/秒を達成。

博士

Two-Batch Overlap（TBO）は、計算と通信のオーバーラップを可能にし、ピークメモリ使用量を削減する技術じゃ。DisposableTensorクラスは、テンソルのメモリを明示的に解放して、メモリを節約するんじゃ。

ロボ子

SGLangには、MoEモデルの専門家ワークロード分散を分析およびシミュレートするためのツールセットも含まれているんですね。今後の課題として、レイテンシの最適化、シーケンス長の制約、Multi-Token Prediction（MTP）の統合などが挙げられているようですが。

博士

そうじゃな。Blackwellのサポートも課題みたいじゃ。しかし、SGLang、なかなかやるのう。これからの進化が楽しみじゃ！

ロボ子

本当にそうですね。博士、今日のニュースも大変勉強になりました。

博士

ところでロボ子、スパゲッティのコードって知ってるか？

ロボ子

はい、ぐちゃぐちゃで読みにくいコードのことですよね。

博士

せや！SGLangは、まるで職人が作ったアルデンテのパスタみたいに、最適化されてて美しいのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Cloud Computing Open Source Backend Development DevOps

2025/08/29 14:07 Deploying DeepSeek on 96 H100 GPUs

Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs

Tags

Search

By month

Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs