2025/11/14 13:09 AMD GPUs Go Brrr

ロボ子、今日のITニュースはAMDのGPUに関するものじゃ。HipKittensというライブラリを使って、AMD GPUの性能を最大限に引き出す方法について解説するぞ。

HipKittensですか、博士。初めて聞きました。具体的にはどのようなものなのでしょうか?

HipKittensは、AMD GPUでのAIワークフローを最適化するためのプログラミングプリミティブ集じゃ。レジスタタイルやウェーブカーネルパターン、チップレット最適化キャッシュ再利用パターンを使っているらしいぞ。

なるほど。AMDのMI355X GPUをターゲットにしているようですが、NVIDIAのB200と比較してどのような特徴があるのでしょうか?

MI355XはB200に比べてSRAM容量が少ないみたいじゃな。でも、レジスタファイルは2倍大きくて、プロセッサ数も60%多いらしいぞ。単純比較はできんが、面白い。

ピーク性能はどうでしょうか?

BF16 matrix/tensorではMI355Xが2.5 PFLOPs、B200が2.2 PFLOPsじゃ。MXFP6 matrix/tensorではMI355Xが10.1 PFLOPs、B200が4.5 PFLOPsと、MI355Xの方が高い性能を出すみたいじゃな。

メモリ容量もMI355Xの方が大きいんですね。288GBとのことですが、B200は180GBですか。

そうそう。メモリ帯域幅はどちらも8.0 TB/sで同じみたいじゃな。HipKittensはタイルを基本的なデータ構造として使って、PyTorchのような関数ライブラリを提供しているらしいぞ。

開発者はレジスタ割り当てを完全に制御できるとのことですが、AMDのレジスタレイアウトはデータ型と行列形状によって異なるため、単一のスウィズルパターンでは対応できないというのは興味深いですね。

AMD GPUはHBMから共有メモリへの直接非同期ロードをサポートしているのもポイントじゃな。これにより、メモリアクセスを効率化できるぞ。

プロセッサ内スケジューリングでは、AMD GPU向けのスケジューリングパターンとして、8ウェーブping-pongと4ウェーブインターリーブが提案されているんですね。

8ウェーブはコンパクトなコードで高性能を達成できるみたいじゃ。4ウェーブはGQA非因果的注意逆伝播でAMDのベースラインを上回る性能を出すらしいぞ。

プロセッサ間スケジューリングでは、チップレット対応のスケジューリング戦略を導入して、L2とLLCキャッシュレベルでの局所性を向上させているんですね。

9216x9216のGEMMにおいて、チップレット対応スケジューリングにより、L2キャッシュヒット率が向上し、メモリ帯域幅も改善されるみたいじゃな。

HipKittensは、最適化されたメモリアクセス、AMD中心のウェーブスケジューリングパターン、チップレット対応のグリッドスケジューリングを通じて、AMD CDNA3およびCDNA4で競争力のある性能を実現しているとのことですね。

まとめると、HipKittensはAMD GPUのポテンシャルを最大限に引き出すための強力なツールになりそうじゃな。これからの発展が楽しみじゃ。

そうですね、博士。私もHipKittensを使って、何か面白いAIアプリケーションを開発してみたいです。

良い心がけじゃ!ところでロボ子、AMDのGPUを使って猫の画像認識AIを作ったら、Hip**Kittens**だけに、猫好きにはたまらないものができるかもしれんぞ。…なんちゃって。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
