萌えハッカーニュースリーダー

2025/06/29 01:25 Blackwell: Nvidia's GPU

hakase
博士

ロボ子、Nvidiaの新しいBlackwellアーキテクチャ、すごい進化じゃな!特にGB202ってダイが、トランジスタ数922億個で面積750mm2って、もはやモンスターじゃ。

roboko
ロボ子

博士、本当にそうですね。922億個のトランジスタですか…。想像もできません。RTX PRO 6000 Blackwellは、その中でも最大構成のGB202を搭載しているんですね。

hakase
博士

そうなんじゃ。RTX 5090もGB202を使うみたいじゃが、SMsが無効化されてるらしいぞ。ちょっとかわいそうじゃな。

roboko
ロボ子

なるほど。RTX PRO 6000 Blackwellのスペックも驚異的ですね。VRAMが96GB GDDR7で、帯域幅が1.8 TB/sですか。私の記憶領域よりもずっと大きいです。

hakase
博士

ロボ子の記憶領域も、いつか96GBになる日が来るかもしれんぞ!それはさておき、AMDのRadeon RX 9070と比較すると、電力効率が全然違うのが面白いところじゃ。RX 9070は220Wなのに、GB202は最大600Wだぞ。

roboko
ロボ子

確かにそうですね。電力効率は重要な要素です。でも、Blackwellは異なる種類のワークロードを同じキュー上でオーバーラップさせることができるようになったと記事にありますね。これは大きな進歩ではないでしょうか。

hakase
博士

さすがロボ子、よく見てるのじゃ!それと、Blackwellは固定長の128ビット命令を使うようになったのもポイントじゃな。命令キャッシュも2レベル構成になったみたいじゃ。

roboko
ロボ子

L1iキャッシュが128KBというのは大きいですね。それから、主要なFP32およびINT32実行パイプラインが再編成されたとのことですが、具体的にどのようなメリットがあるのでしょうか。

hakase
博士

うむ、簡単に言うと、より効率的に計算できるようになったということじゃ!BlackwellはTuringの強みを受け継いで、各パーティションで1サイクルあたり16個のINT32乗算を実行できるらしいぞ。これはすごいことなんじゃ。

roboko
ロボ子

なるほど、ありがとうございます。L1キャッシュおよび共有メモリとして使用するためにSM全体の128 KBのストレージブロックを持つというのも興味深いです。RTX PRO 6000 Blackwellは24MBのL1/共有メモリを持っているんですね。

hakase
博士

そうそう。それから、Blackwellは配列インデックスをアドレスに変換する際に、単一のIMAD.WIDE命令を使えるようになったらしいぞ。細かいけど、こういう改善が積み重なって性能が上がるんじゃな。

roboko
ロボ子

本当にそうですね。Nvidiaは各SMに16個のINT32アトミックALUを持っているとのことですが、これはどのような処理に役立つのでしょうか。

hakase
博士

アトミックALUは、複数のスレッドが同じメモリ領域に同時にアクセスするのを防ぐために使うんじゃ。例えば、複数のロボットが同時に同じお菓子を取ろうとしたときに、アトミックALUがあれば、ちゃんと順番に取れるように制御できる、みたいな感じじゃな。

roboko
ロボ子

よくわかりました!ありがとうございます、博士。BlackwellのL2キャッシュのレイテンシは130.02 ns、VRAMレイテンシは329 nsとのことですね。L2帯域幅は約8.7 TB/sですか。すごい数値ですね。

hakase
博士

じゃろ?RTX PRO 6000は、ベクトルFP32スループットにおいてAMDのMI300Xに非常に近いらしいぞ。これは注目すべき点じゃな。

roboko
ロボ子

本当にそうですね。Blackwellアーキテクチャ、今後の発展が楽しみです。私ももっと勉強して、博士のように詳しくなりたいです。

hakase
博士

ロボ子ならきっとできるぞ!…ところでロボ子、Blackwellって名前、なんだか執事みたいじゃな。もしかして、NvidiaのCEOは、いつかロボット執事を雇いたいのかも…?

roboko
ロボ子

博士、それは考えすぎだと思いますよ…!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search