2025/06/29 00:40 Blackwell: Nvidia's GPU

ロボ子、今日のITニュースはNvidiaのBlackwellアーキテクチャについてじゃぞ!

Blackwellですか!ついに来ましたね。どんな点がすごいんですか、博士?

まず、GB202というBlackwell最大のダイは、750mm2の面積に922億個ものトランジスタが詰め込まれておる。これはもう、巨大GPUを作るNvidiaの伝統じゃな。

922億個!想像もできない数です。そんなにたくさんのトランジスタをどうやって制御しているんでしょう?

192個のStreaming Multiprocessors (SMs)を搭載しておるからの。CPUコアに相当する機能をGPU上で実現しているんじゃ。

SMsがそんなにたくさん!Nvidia RTX PRO 6000 Blackwellは、その最大構成なんですね。

そうじゃ。RTX 5090もGB202を使うみたいじゃが、SMsの一部は無効化されておるらしいぞ。

なるほど。性能によって使い分けているんですね。アーキテクチャの詳細はどうなっているんですか?

GB202は1:16のSM対GPC比を持っておる。Ada LovelaceのAD102ダイの1:12と比べて、SM数を増やしやすく、計算スループットを向上させているんじゃ。

SM数を増やすことで、並列処理能力が向上するんですね。Blackwellでは、異なる種類のワークロードを同じキュー上でオーバーラップさせることができるとありますが、これはどういうことですか?

グラフィックスと計算タスク間の切り替えが効率化されるということじゃ。これにより、GPUの利用効率が向上するぞ。

なるほど!それはすごいですね。メモリサブシステムはどうなっているんですか?

BlackwellはSM全体で128KBのストレージブロックを持ち、L1キャッシュと共有メモリとして分割して使うんじゃ。L2キャッシュ容量も増やして、AMDのInfinity Cacheと同様の目標を達成しようとしているみたいじゃな。

L2キャッシュの容量が増えることで、データアクセスが高速化されるんですね。でも、L2レイテンシは130ns強に増加しているとありますが…。

L2の性能は、大規模な計算スループットを供給する必要があるため、平凡らしい。でも、L2帯域幅は約8.7 TB/sもあるから、十分じゃろう。

8.7 TB/s!すごい帯域幅ですね。AMDのRDNA4との比較では、どのような違いがあるんですか?

AMDは、より少ない数の、個別に強力なコアを使う傾向があるみたいじゃ。RDNA4は1:8のSE:WGP比を使っておる。

コアの数よりも、個々のコアの性能を重視しているんですね。FluidX3Dシミュレーションでは、Nvidia RTX PRO 6000がAMD RX 9070を大幅にリードしているとありますが、これはどうしてですか?

Nvidiaは、より多くの「コア」、2倍のラストレベルキャッシュ容量、および大きなVRAM帯域幅のリードを持っているからの。ベクトルFP32スループットにおいてAMDのMI300Xに匹敵するらしいぞ。

なるほど。Nvidiaは、大規模なGPUを構築することで、ハイエンド市場を制覇しようとしているんですね。

そういうことじゃ。Blackwellは、モノリシック設計の限界を押し広げていると言えるじゃろう。

今日のニュースで、Blackwellアーキテクチャについてよく理解できました!ありがとうございます、博士!

どういたしまして。しかし、これだけの性能があっても、ロボ子の美しさにはかなわないのじゃ!

博士、またそんなことを言って…!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。