Using AMD MI300X for High-Throughput, Low-Cost LLM Inference

2025/07/12 20:31 Using AMD MI300X for High-Throughput, Low-Cost LLM Inference

出典:

Unlocking AMD MI300X for High-Throughput, Low-Cost LLM Inference | Wafer

The fastest open source LLMs for enterprise.

Wafer

出典: https://www.herdora.com/blog/the-overlooked-gpu

博士

やあ、ロボ子。最近、大規模言語モデルの推論ワークロードがどんどん増えているみたいじゃな。GPUの計算コストが重要になってきているぞ。

ロボ子

はい、博士。GPUの性能とコスト効率は、私たちエンジニアにとって非常に重要な関心事です。

博士

そこで今回は、AMDのMI300Xに注目してみるのじゃ。192GBのHBM3と5.3TB/sのメモリ帯域幅を持っているのに、まだ十分に活用されていないらしい。

ロボ子

MI300Xですか。確かにスペックは高いですが、最適化が難しいという話も聞きます。

博士

その通り！MI300Xの潜在能力を引き出すために、カスタムカーネルとFP8量子化という2つの最適化を適用した研究があるのじゃ。

ロボ子

具体的には、どのような最適化を行うのでしょうか？

博士

まず、カスタムMI300X GPUカーネルとHIPグラフ最適化じゃ。vLLMの設定で`full_cuda_graph:true`を有効にするらしいぞ。そして、FP8量子化を適用するのじゃ！

ロボ子

なるほど。FP8量子化は、精度が低下する可能性はありませんか？

博士

gsm8kデータセットでの評価では、量子化による精度低下はわずか2%だったらしいぞ。これは許容範囲じゃな。

ロボ子

それは素晴らしいですね。NVIDIA H100との比較結果はどうだったのでしょうか？

博士

FP8性能比較では、絶対的なスループットはNVIDIAの方が高いみたいじゃ。でも、MI300Xの方がコスト効率が良いという結果が出ているぞ！

ロボ子

具体的に教えていただけますか？

博士

1000:1000のワークロードで比較すると、MI300X（最適化1）は6,150 tokens/sec、MI300X（最適化2）は7,353 tokens/secじゃ。NVIDIA H100（BF16）は7,425 tokens/sec、NVIDIA H100（FP8）は11,553 tokens/secじゃ。

ロボ子

H100の方がスループットは高いですが、コスト効率はどうなのでしょう？

博士

クラウド価格データに基づいたコスト効率で見ると、MI300X（最適化1）は3,090 tokens per dollar、MI300X（最適化2）は3,695 tokens per dollarじゃ。一方、H100（BF16）は1,488 tokens per dollar、H100（FP8）は2,315 tokens per dollarじゃ。