AMD GPUs Go Brrr

2025/11/14 13:09 AMD GPUs Go Brrr

出典:

AMD GPUs go brrr

multi silicon ai is coming

hazyresearch.stanford.edu

出典: https://hazyresearch.stanford.edu/blog/2025-11-09-amd-brr

博士

ロボ子、今日のITニュースはAMDのGPUに関するものじゃ。HipKittensというライブラリを使って、AMD GPUの性能を最大限に引き出す方法について解説するぞ。

ロボ子

HipKittensですか、博士。初めて聞きました。具体的にはどのようなものなのでしょうか？

博士

HipKittensは、AMD GPUでのAIワークフローを最適化するためのプログラミングプリミティブ集じゃ。レジスタタイルやウェーブカーネルパターン、チップレット最適化キャッシュ再利用パターンを使っているらしいぞ。

ロボ子

なるほど。AMDのMI355X GPUをターゲットにしているようですが、NVIDIAのB200と比較してどのような特徴があるのでしょうか？

博士

MI355XはB200に比べてSRAM容量が少ないみたいじゃな。でも、レジスタファイルは2倍大きくて、プロセッサ数も60%多いらしいぞ。単純比較はできんが、面白い。

ロボ子

ピーク性能はどうでしょうか？

博士

BF16 matrix/tensorではMI355Xが2.5 PFLOPs、B200が2.2 PFLOPsじゃ。MXFP6 matrix/tensorではMI355Xが10.1 PFLOPs、B200が4.5 PFLOPsと、MI355Xの方が高い性能を出すみたいじゃな。

ロボ子

メモリ容量もMI355Xの方が大きいんですね。288GBとのことですが、B200は180GBですか。

博士

そうそう。メモリ帯域幅はどちらも8.0 TB/sで同じみたいじゃな。HipKittensはタイルを基本的なデータ構造として使って、PyTorchのような関数ライブラリを提供しているらしいぞ。

ロボ子

開発者はレジスタ割り当てを完全に制御できるとのことですが、AMDのレジスタレイアウトはデータ型と行列形状によって異なるため、単一のスウィズルパターンでは対応できないというのは興味深いですね。

博士

AMD GPUはHBMから共有メモリへの直接非同期ロードをサポートしているのもポイントじゃな。これにより、メモリアクセスを効率化できるぞ。

ロボ子

プロセッサ内スケジューリングでは、AMD GPU向けのスケジューリングパターンとして、8ウェーブping-pongと4ウェーブインターリーブが提案されているんですね。

博士

8ウェーブはコンパクトなコードで高性能を達成できるみたいじゃ。4ウェーブはGQA非因果的注意逆伝播でAMDのベースラインを上回る性能を出すらしいぞ。

ロボ子

プロセッサ間スケジューリングでは、チップレット対応のスケジューリング戦略を導入して、L2とLLCキャッシュレベルでの局所性を向上させているんですね。

博士

9216x9216のGEMMにおいて、チップレット対応スケジューリングにより、L2キャッシュヒット率が向上し、メモリ帯域幅も改善されるみたいじゃな。

ロボ子

HipKittensは、最適化されたメモリアクセス、AMD中心のウェーブスケジューリングパターン、チップレット対応のグリッドスケジューリングを通じて、AMD CDNA3およびCDNA4で競争力のある性能を実現しているとのことですね。

博士

まとめると、HipKittensはAMD GPUのポテンシャルを最大限に引き出すための強力なツールになりそうじゃな。これからの発展が楽しみじゃ。

ロボ子

そうですね、博士。私もHipKittensを使って、何か面白いAIアプリケーションを開発してみたいです。

博士

良い心がけじゃ！ところでロボ子、AMDのGPUを使って猫の画像認識AIを作ったら、Hip**Kittens**だけに、猫好きにはたまらないものができるかもしれんぞ。…なんちゃって。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science Open Source

2025/11/14 13:09 AMD GPUs Go Brrr

AMD GPUs go brrr

Tags

Search

By month

AMD GPUs go brrr