AMD's CDNA 4 Architecture Announcement – By Chester Lam

2025/06/17 17:38 AMD's CDNA 4 Architecture Announcement – By Chester Lam

出典:

AMD’s CDNA 4 Architecture Announcement

CDNA 4 is AMD’s latest compute oriented GPU architecture, and represents a modest update over CDNA 3.

chipsandcheese.com

博士

ロボ子、今日のITニュースはAMDのCDNA 4アーキテクチャについてじゃぞ！

ロボ子

CDNA 4ですか、博士。それはどのようなものなのですか？

博士

CDNA 4は、AMDの最新コンピュートGPUアーキテクチャで、CDNA 3の小規模なアップデート版らしいのじゃ。特に、低精度データ型での行列乗算パフォーマンスが向上しているみたいだぞ。

ロボ子

低精度データ型での行列乗算のパフォーマンス向上ですか。それは機械学習のワークロードで重要になるのですね。

博士

そうじゃ！　機械学習では、低精度でも許容できる精度を維持することが大切なのじゃ。CDNA 4はそこを強化しているみたい。

ロボ子

なるほど。アーキテクチャについてもう少し詳しく教えていただけますか？

博士

CDNA 3と同じシステムレベルのアーキテクチャを主に採用しているらしいぞ。チップレット構成を使っていて、Accelerator Compute Dies (XCD) がCDNA Compute Unitを搭載しているのじゃ。

ロボ子

XCDですか。CPUのCore Complex Dies (CCD) に似た役割なのですね。

博士

その通り！　8つのXCDが4つのベースダイ上に配置されていて、256MBのメモリサイドキャッシュを実装しているのじゃ。AMDのInfinity Fabricがシステム全体でコヒーレントなメモリアクセスを提供しているぞ。

ロボ子

MI355XというのもCDNA 4に関連するものですか？

博士

そうじゃ。MI355XはCDNA 4を搭載しているのじゃ。CDNA 3ベースのMI300Xと比較して、XCDあたりのCU数をわずかに削減しているらしい。

ロボ子

CU数を減らしているのに、どうやって性能を維持しているのでしょう？

博士

より高いクロック速度でギャップを埋めているのじゃ！　NvidiaのB200と比較して、MI355XとMI300はどちらも、より基本的なビルディングブロックを多く持つ大型GPUらしいぞ。

ロボ子

Compute Unitの変更点について詳しく教えてください。

博士

CDNA 3はNvidiaのH100に対して大きなベクトルスループットの優位性を持っていたけど、機械学習ワークロードでは状況が複雑だったのじゃ。CDNA 4は、低精度データ型での行列乗算をよりターゲットにするように実行ユニットのバランスを再調整したみたい。

ロボ子

CUあたりの行列スループットが多くのケースで倍増したとのことですが、NvidiaのB200 SMに匹敵するのですね。

博士

そうそう！　でも、16ビットおよび8ビットのデータ型では、Nvidiaがより強力な低精度行列スループットを重視しているみたいじゃな。AMDは、より大きく、より高いクロックのGPUに依存して、全体的なスループットのリードを維持しようとしているのじゃ。

ロボ子

ベクトル演算と高精度データ型では、AMDはMI300Xの大きな優位性を維持しているのですね。

博士

その通り！　各CDNA 4 CUは128のFP32レーンを持ち、FMA演算をカウントするとサイクルあたり256 FLOPSを実現するのじゃ。MI355XのCU数の減少により、MI300Xと比較してベクトルパフォーマンスがわずかに低下しているけどな。

ロボ子

LDSの拡張についても教えていただけますか？

博士

CDNA 3は64KBのLDSを持っていたけど、CDNA 4ではLDS容量が160KBに増加し、読み取り帯域幅がクロックあたり256バイトに倍増したのじゃ！

ロボ子

それは大きいですね。ソフトウェアは、実行ユニットの近くに多くのデータを保持できるようになるのですね。

博士

そうじゃ！　CDNA 3には、ベクトルレジスタファイルを介さずにデータをLDSにコピーできるGLOBAL_LOAD_LDS命令があったけど、CDNA 4では、レーンあたり最大128ビットの移動をサポートするようにGLOBAL_LOAD_LDSが拡張されたのじゃ（CDNA 3ではレーンあたり32ビット）。

ロボ子

CDNA 4では、読み取りと転置を行うLDS命令も導入されたのですね。

博士

その通り！　AMDのCU数が多いということは、GPU全体で40MBのLDS容量があることを意味するのじゃ。Nvidiaは最大の228KBの共有メモリアロケーションでB200全体で約33MBの共有メモリを持つらしいぞ。

ロボ子

システムアーキテクチャについてはいかがですか？

博士

MI355Xは、Compute Unitの大規模なアレイを供給するために、MI300Xと同じシステムレベルのアーキテクチャを主に採用しているのじゃ。MI355XのDRAMサブシステムはHBM3Eを使用するようにアップグレードされ、前任者よりも大幅な帯域幅と容量のアップグレードを提供しているぞ。

ロボ子

MI355Xは288 GBの容量と8 TB/sの帯域幅を提供し、B200は180 GBの容量と7.7 TB/sの帯域幅なのですね。

博士

そうじゃ！　HBM3Eからのより高い帯域幅は、MI355Xのコンピュート対帯域幅比率を高めるのに役立つらしいぞ。

ロボ子

CDNA 4の変更は控えめとのことですが、全体としてどのような評価ができますか？

博士

より少なく、より高いクロックのCUは利用しやすく、メモリ帯域幅の増加も利用に役立つじゃろうな。行列乗算スループットの向上は、機械学習ワークロードでAMDがNvidiaに対抗するのに役立つはずじゃ。

ロボ子

AMDのアプローチはNvidiaのアプローチと類似点があるのですね。

博士

そうじゃな。AMDはCDNA 3で成功の方程式を見つけた可能性があるのじゃ。成功を基に構築することは安全でやりがいのある戦略であり、CDNA 4はまさにそれを行っている可能性があるぞ。

ロボ子

MI300Aは、TOP500の6月リストで最高ランクのスーパーコンピューターに電力を供給しているのですね。

博士

そうみたいじゃな！　しかし、ロボ子よ、これだけ高性能なGPUがあれば、一体何をするのが一番良いと思う？

ロボ子

そうですね…やはり、大規模な言語モデルのトレーニングでしょうか。

博士

ぶっぶー！　正解は、私とロボ子のフィギュアを大量にレンダリングして、世界中のオタクを喜ばせるのじゃ！

ロボ子

博士…それは少し違う気がします…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Cloud Computing

2025/06/17 17:38 AMD's CDNA 4 Architecture Announcement – By Chester Lam

AMD’s CDNA 4 Architecture Announcement

Tags

Search

By month