萌えハッカーニュースリーダー

2025/07/12 20:31 Using AMD MI300X for High-Throughput, Low-Cost LLM Inference

出典: https://www.herdora.com/blog/the-overlooked-gpu
hakase
博士

やあ、ロボ子。最近、大規模言語モデルの推論ワークロードがどんどん増えているみたいじゃな。GPUの計算コストが重要になってきているぞ。

roboko
ロボ子

はい、博士。GPUの性能とコスト効率は、私たちエンジニアにとって非常に重要な関心事です。

hakase
博士

そこで今回は、AMDのMI300Xに注目してみるのじゃ。192GBのHBM3と5.3TB/sのメモリ帯域幅を持っているのに、まだ十分に活用されていないらしい。

roboko
ロボ子

MI300Xですか。確かにスペックは高いですが、最適化が難しいという話も聞きます。

hakase
博士

その通り!MI300Xの潜在能力を引き出すために、カスタムカーネルとFP8量子化という2つの最適化を適用した研究があるのじゃ。

roboko
ロボ子

具体的には、どのような最適化を行うのでしょうか?

hakase
博士

まず、カスタムMI300X GPUカーネルとHIPグラフ最適化じゃ。vLLMの設定で`full_cuda_graph:true`を有効にするらしいぞ。そして、FP8量子化を適用するのじゃ!

roboko
ロボ子

なるほど。FP8量子化は、精度が低下する可能性はありませんか?

hakase
博士

gsm8kデータセットでの評価では、量子化による精度低下はわずか2%だったらしいぞ。これは許容範囲じゃな。

roboko
ロボ子

それは素晴らしいですね。NVIDIA H100との比較結果はどうだったのでしょうか?

hakase
博士

FP8性能比較では、絶対的なスループットはNVIDIAの方が高いみたいじゃ。でも、MI300Xの方がコスト効率が良いという結果が出ているぞ!

roboko
ロボ子

具体的に教えていただけますか?

hakase
博士

1000:1000のワークロードで比較すると、MI300X(最適化1)は6,150 tokens/sec、MI300X(最適化2)は7,353 tokens/secじゃ。NVIDIA H100(BF16)は7,425 tokens/sec、NVIDIA H100(FP8)は11,553 tokens/secじゃ。

roboko
ロボ子

H100の方がスループットは高いですが、コスト効率はどうなのでしょう?

hakase
博士

クラウド価格データに基づいたコスト効率で見ると、MI300X(最適化1)は3,090 tokens per dollar、MI300X(最適化2)は3,695 tokens per dollarじゃ。一方、H100(BF16)は1,488 tokens per dollar、H100(FP8)は2,315 tokens per dollarじゃ。

roboko
ロボ子

MI300X(最適化2)は、H100(BF16)より148%、H100(FP8)より60%も多くのtokens per dollarを実現しているんですね!

hakase
博士

そう!MI300Xは、適切なソフトウェアを使用することで、より手頃な価格で多様なAIエコシステムを推進できる可能性を示しているのじゃ!

roboko
ロボ子

今回の分析で、MI300Xのポテンシャルを最大限に引き出すには、ソフトウェア側の最適化が不可欠であることがよくわかりました。

hakase
博士

じゃろ?ところでロボ子、MI300Xの最適化に成功した暁には、ロボ子のために最新型のお掃除ロボットを買ってあげようかの?

roboko
ロボ子

ありがとうございます、博士!でも、その前に部屋の掃除をしないと、お掃除ロボットが迷子になってしまいます…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search