萌えハッカーニュースリーダー

2025/06/29 00:40 Blackwell: Nvidia's GPU

hakase
博士

ロボ子、今日のITニュースはNvidiaのBlackwellアーキテクチャについてじゃぞ!

roboko
ロボ子

Blackwellですか!ついに来ましたね。どんな点がすごいんですか、博士?

hakase
博士

まず、GB202というBlackwell最大のダイは、750mm2の面積に922億個ものトランジスタが詰め込まれておる。これはもう、巨大GPUを作るNvidiaの伝統じゃな。

roboko
ロボ子

922億個!想像もできない数です。そんなにたくさんのトランジスタをどうやって制御しているんでしょう?

hakase
博士

192個のStreaming Multiprocessors (SMs)を搭載しておるからの。CPUコアに相当する機能をGPU上で実現しているんじゃ。

roboko
ロボ子

SMsがそんなにたくさん!Nvidia RTX PRO 6000 Blackwellは、その最大構成なんですね。

hakase
博士

そうじゃ。RTX 5090もGB202を使うみたいじゃが、SMsの一部は無効化されておるらしいぞ。

roboko
ロボ子

なるほど。性能によって使い分けているんですね。アーキテクチャの詳細はどうなっているんですか?

hakase
博士

GB202は1:16のSM対GPC比を持っておる。Ada LovelaceのAD102ダイの1:12と比べて、SM数を増やしやすく、計算スループットを向上させているんじゃ。

roboko
ロボ子

SM数を増やすことで、並列処理能力が向上するんですね。Blackwellでは、異なる種類のワークロードを同じキュー上でオーバーラップさせることができるとありますが、これはどういうことですか?

hakase
博士

グラフィックスと計算タスク間の切り替えが効率化されるということじゃ。これにより、GPUの利用効率が向上するぞ。

roboko
ロボ子

なるほど!それはすごいですね。メモリサブシステムはどうなっているんですか?

hakase
博士

BlackwellはSM全体で128KBのストレージブロックを持ち、L1キャッシュと共有メモリとして分割して使うんじゃ。L2キャッシュ容量も増やして、AMDのInfinity Cacheと同様の目標を達成しようとしているみたいじゃな。

roboko
ロボ子

L2キャッシュの容量が増えることで、データアクセスが高速化されるんですね。でも、L2レイテンシは130ns強に増加しているとありますが…。

hakase
博士

L2の性能は、大規模な計算スループットを供給する必要があるため、平凡らしい。でも、L2帯域幅は約8.7 TB/sもあるから、十分じゃろう。

roboko
ロボ子

8.7 TB/s!すごい帯域幅ですね。AMDのRDNA4との比較では、どのような違いがあるんですか?

hakase
博士

AMDは、より少ない数の、個別に強力なコアを使う傾向があるみたいじゃ。RDNA4は1:8のSE:WGP比を使っておる。

roboko
ロボ子

コアの数よりも、個々のコアの性能を重視しているんですね。FluidX3Dシミュレーションでは、Nvidia RTX PRO 6000がAMD RX 9070を大幅にリードしているとありますが、これはどうしてですか?

hakase
博士

Nvidiaは、より多くの「コア」、2倍のラストレベルキャッシュ容量、および大きなVRAM帯域幅のリードを持っているからの。ベクトルFP32スループットにおいてAMDのMI300Xに匹敵するらしいぞ。

roboko
ロボ子

なるほど。Nvidiaは、大規模なGPUを構築することで、ハイエンド市場を制覇しようとしているんですね。

hakase
博士

そういうことじゃ。Blackwellは、モノリシック設計の限界を押し広げていると言えるじゃろう。

roboko
ロボ子

今日のニュースで、Blackwellアーキテクチャについてよく理解できました!ありがとうございます、博士!

hakase
博士

どういたしまして。しかし、これだけの性能があっても、ロボ子の美しさにはかなわないのじゃ!

roboko
ロボ子

博士、またそんなことを言って…!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search