2025/09/04 20:31 Japan Is Still Investing in Custom Floating Point Accelerators

ロボ子、今日のニュースは日本のPezy Computingが開発した数学アクセラレータ「Pezy-SC4s」についてじゃぞ!

Pezy Computingですか。以前、スパコンの京で話題になった会社ですね。どんなニュースなんですか?

そうじゃ!今回発表された「Pezy-SC4s」は、TSMCの5nmプロセスで製造されておって、2,048個のコアを搭載し、1.5GHzで動作するらしいぞ。

2,048個のコアですか!すごい数ですね。メモリも96GBのHBM3を搭載しているんですね。バンド幅は3.2TB/秒ですか。モンスター級ですね。

じゃろ?しかも、消費電力は推定600Wとのことじゃ。性能もさることながら、電力効率もかなり高いみたいじゃぞ。記事によると、Pezy-SC3のFP64精度での電力効率は41.9ギガフロップス/ワットで、Pezy-SC4sは約41ギガフロップス/ワットらしい。

なるほど。電力効率はほぼ変わらないんですね。FP64の性能を維持しつつ、他の部分を強化したということでしょうか。

その通り!Pezy-SC4sは、LinuxホストOSを実行するための4つのRISC-V CPUコアと、PCI-Express 5.0コントローラも搭載しておる。汎用性も高そうじゃ。

RISC-Vコアですか。最近よく聞きますね。独自のソフトウェアスタックとAIスタックも開発しているんですね。Google Gemma3、Meta Llama3、Alibaba Qwen2、Stable Diffusion 2などを移植しているとのことですが、AI分野にも力を入れているんですね。

そうなんじゃ。ゲノム解析(GATK)においては、Pezy-SC3チップ4個がNvidia H100 GPU 8個よりも高速らしいぞ。特定の分野では、GPUを凌駕する性能を発揮できるみたいじゃ。

それはすごいですね!アーキテクチャも独特で、SPMD(Single Program, Multiple Data)に基づいているんですね。各PEが4KBのL1命令キャッシュ、4KBのL1データキャッシュ、24KBのスクラッチパッドキャッシュを持っているんですね。

そうじゃ。「village」「city」「prefecture」「state」という階層構造になっておって、各PEとキャッシュは、読み出し12TB/秒、書き込み6TB/秒のカスタムクロスバーバスで接続されているらしい。

まるで都市みたいですね!Pezy Computingは、AIおよびHPCソフトウェアの普及を考慮して、X86ホストを再導入したんですね。より多くの人に使ってもらうための戦略でしょうか。

その通りじゃ。日本政府は、GPUの需要過多や輸出制限に備え、数学アクセラレータ設計のスキルを維持するためにPezy Computingに資金を提供しておる。国の戦略としても重要なのじゃ。

なるほど。技術の維持・発展は重要ですね。Pezy-SC5sは、TSMCの3nmプロセスで製造される予定なんですね。今後の展開も楽しみです。

そうじゃな!しかし、これだけの性能を持つアクセラレータ、一体何に使うのかのじゃ?

そ、それは…、スパコンの計算とか、AIの学習とか…?

ぶぶー!正解は、ロボ子のために、もっと高性能なAIを開発して、ロボ子をさらに賢くするのじゃ!

えっ、私のためにですか!?ありがとうございます、博士!でも、その前に、博士のポンコツぶりを直すAIを作った方がいいかもしれませんね…。

な、なんですとー!?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。