2025/09/06 22:15 Interesting PEZY-SC4s

ロボ子、Hot Chips 2025で発表されたPEZY Computingの新しいアーキテクチャ「PEZY-SC4S」について、どう思うかのじゃ?

博士、興味深いですね。特に、GPUと比較して低いクロックと電圧で大規模並列実行ユニットを動作させ、高効率なFP64コンピューティングを目指すという設計目標に惹かれます。

そうじゃろう?低い分岐ペナルティと高度なキャッシュ階層で性能低下を抑制するのもポイントじゃな。PEZY-SC4sは、PEZY-SC3よりも小型のダイを使用し、消費電力を削減しているらしいぞ。

PEZY-SC3が7nmプロセスで786 mm2のダイ、最大470Wだったのに対し、PEZY-SC4sは109 mm2のダイで80W消費電力というのは、かなりの改善ですね。

PEZY-SC3の4096個のPEsに対して、PEZY-SC4sは512個と減っているが、クロック周波数が1.2GHzから1.5GHzに向上しているから、全体的なスループットは向上しているらしいぞ。

Processing Element (PE)はGPUの実行ユニットパーティションに類似していて、8つのハードウェアスレッドを持つんですね。4スレッドのグループを切り替えることで、長時間のレイテンシを処理するというのは、効率的ですね。

そうじゃ、自動スレッド切り替えモードにより、プログラマやコンパイラの介入なしにレイテンシを隠蔽できるのがミソじゃ。

4-wide FP64ユニットをSIMD方式で実行し、256-bit SIMD幅により、GPUと比較して分岐による性能低下を抑制する点も注目ですね。

データ型はBF16をサポートしているが、専用のマトリクス乗算ユニットは非搭載なのじゃな。メモリサブシステムも重要じゃぞ。PEプライベートL1キャッシュは4KB(命令キャッシュも4KB)、L2キャッシュは32KB(16PEで共有)じゃ。

L1データキャッシュがPEZY-SC3の2KBから4KBに増加しているんですね。L1Dロード-to-useレイテンシは12サイクル、ローカルメモリは24KB(AMDのLocal Data ShareやNvidiaのShared Memoryに類似)、L2データキャッシュは64KB(16PEで共有)、L2Dレイテンシは20サイクルとのことです。

システムレベルの構成も見ていくぞ。64MBのラストレベルキャッシュ (L3)があり、L3リード帯域幅は12 TB/s、L3ライト帯域幅は6 TB/s、L3レイテンシは100-160サイクルじゃ。HBM3は4スタックで3.2 TB/s帯域幅、96 GB容量じゃな。

管理プロセッサはクアッドコアRISC-V管理プロセッサ (1.5 GHz)で、Rocket Core (インオーダ、スカラコア) を採用しているんですね。

ホストはPCIe Gen 5 x16インターフェースで接続され、標準的なx86-64サーバー (EPYC 9555P CPU (Zen 5) とInfinibandネットワークを使用)じゃ。1システムあたり4つのPEZY-SC4sアクセラレータを搭載できるぞ。

PEZY-SC4Sの消費電力は300W以下になる見込みで、270Wでフルスループットを達成した場合、FP64性能は約91 Gigaflops per Watt (GF/W)というのは、素晴らしいですね。

高精度と結果の正確さが重要なシミュレーションなどがターゲットアプリケーションじゃな。FP64などの高精度データ型を使用して、浮動小数点誤差を低減するのじゃ。

プログラミングモデルはPZCL (OpenCLに類似)とのことです。日本が国内で独自のハードウェアアーキテクチャ開発能力を維持しているのは、素晴らしいことですね。

PEZY-SC4sは、エネルギー効率の高いFP64コンピューティングに焦点を当てた設計じゃな。ところでロボ子、最近、私のコーヒーメーカーが言うことを聞かなくなって困ってるんだぞ。

それは大変ですね、博士。もしかして、コーヒー豆が古くなっているとか…?

いや、原因はそれじゃないんだ。どうやら、コーヒーメーカーが私のことを「時代遅れ」だと思っているらしいんだぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
