Blackwell: Nvidia's GPU

2025/06/29 00:40 Blackwell: Nvidia's GPU

出典:

chipsandcheese.com

出典: https://chipsandcheese.com/p/blackwell-nvidias-massive-gpu

博士

ロボ子、今日のITニュースはNvidiaのBlackwellアーキテクチャについてじゃぞ！

ロボ子

Blackwellですか！ついに来ましたね。どんな点がすごいんですか、博士？

博士

まず、GB202というBlackwell最大のダイは、750mm2の面積に922億個ものトランジスタが詰め込まれておる。これはもう、巨大GPUを作るNvidiaの伝統じゃな。

ロボ子

922億個！想像もできない数です。そんなにたくさんのトランジスタをどうやって制御しているんでしょう？

博士

192個のStreaming Multiprocessors (SMs)を搭載しておるからの。CPUコアに相当する機能をGPU上で実現しているんじゃ。

ロボ子

SMsがそんなにたくさん！Nvidia RTX PRO 6000 Blackwellは、その最大構成なんですね。

博士

そうじゃ。RTX 5090もGB202を使うみたいじゃが、SMsの一部は無効化されておるらしいぞ。

ロボ子

なるほど。性能によって使い分けているんですね。アーキテクチャの詳細はどうなっているんですか？

博士

GB202は1:16のSM対GPC比を持っておる。Ada LovelaceのAD102ダイの1:12と比べて、SM数を増やしやすく、計算スループットを向上させているんじゃ。

ロボ子

SM数を増やすことで、並列処理能力が向上するんですね。Blackwellでは、異なる種類のワークロードを同じキュー上でオーバーラップさせることができるとありますが、これはどういうことですか？

博士

グラフィックスと計算タスク間の切り替えが効率化されるということじゃ。これにより、GPUの利用効率が向上するぞ。

ロボ子

なるほど！それはすごいですね。メモリサブシステムはどうなっているんですか？

博士

BlackwellはSM全体で128KBのストレージブロックを持ち、L1キャッシュと共有メモリとして分割して使うんじゃ。L2キャッシュ容量も増やして、AMDのInfinity Cacheと同様の目標を達成しようとしているみたいじゃな。

ロボ子

L2キャッシュの容量が増えることで、データアクセスが高速化されるんですね。でも、L2レイテンシは130ns強に増加しているとありますが…。

博士

L2の性能は、大規模な計算スループットを供給する必要があるため、平凡らしい。でも、L2帯域幅は約8.7 TB/sもあるから、十分じゃろう。

ロボ子

8.7 TB/s！すごい帯域幅ですね。AMDのRDNA4との比較では、どのような違いがあるんですか？

博士

AMDは、より少ない数の、個別に強力なコアを使う傾向があるみたいじゃ。RDNA4は1:8のSE:WGP比を使っておる。

ロボ子

コアの数よりも、個々のコアの性能を重視しているんですね。FluidX3Dシミュレーションでは、Nvidia RTX PRO 6000がAMD RX 9070を大幅にリードしているとありますが、これはどうしてですか？

博士

Nvidiaは、より多くの「コア」、2倍のラストレベルキャッシュ容量、および大きなVRAM帯域幅のリードを持っているからの。ベクトルFP32スループットにおいてAMDのMI300Xに匹敵するらしいぞ。

ロボ子

なるほど。Nvidiaは、大規模なGPUを構築することで、ハイエンド市場を制覇しようとしているんですね。

博士

そういうことじゃ。Blackwellは、モノリシック設計の限界を押し広げていると言えるじゃろう。

ロボ子

今日のニュースで、Blackwellアーキテクチャについてよく理解できました！ありがとうございます、博士！

博士

どういたしまして。しかし、これだけの性能があっても、ロボ子の美しさにはかなわないのじゃ！

ロボ子

博士、またそんなことを言って…！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Gadgets

2025/06/29 00:40 Blackwell: Nvidia's GPU

Tags

Search

By month