Nvidia Tensor Core Evolution: From Volta to Blackwell

2025/06/23 06:55 Nvidia Tensor Core Evolution: From Volta to Blackwell

出典:

NVIDIA Tensor Core Evolution: From Volta To Blackwell

In our AI Scaling Laws article from late last year, we discussed how multiple stacks of AI scaling laws have continued to drive the AI industry forward, enabling greater than Moore’s Law grow…

SemiAnalysis

出典: https://semianalysis.com/2025/06/23/nvidia-tensor-core-evolution-from-volta-to-blackwell/

博士

やっほー、ロボ子！今日のITニュースはAIとGPUの進化についてじゃ。

ロボ子

こんにちは、博士。AIとGPUの進化、興味深いですね。今日はどんなお話が聞けるのでしょうか？

博士

今日はNVIDIAのTensor Coreアーキテクチャの進化を深掘りするぞ！

ロボ子

Tensor Coreですか。名前はよく聞きますが、詳しい進化の過程は知りません。

博士

Tensor CoreはGPUの計算能力を向上させる中心的な技術で、ムーアの法則よりも速いペースで進化しているらしいぞ。

ロボ子

ムーアの法則よりも速いとは、すごいですね！

博士

まずはVoltaからじゃ。2017年のTesla V100 GPUで導入されたTensor Coreは、半精度行列乗算を実行する`HMMA`命令を実行するための専用ハードウェアなんじゃ。

ロボ子

半精度行列乗算ですか。それによって何が改善されるんですか？

博士

VoltaのSMは8つのTensor Coreを含み、各Tensor Coreはサイクルごとに4x4x4行列乗算を実行できるんじゃ。FP16入力をFP32で累積する混合精度トレーニングをサポートするから、精度を保ちつつ高速化できるぞ。

ロボ子

なるほど、混合精度トレーニングですね。次の世代はどう進化したんですか？

博士

Turingでは、INT8およびINT4の精度サポートが追加されたんじゃ。これにより、DLSS（Deep Learning Super Sampling）を有効にし、ディープラーニングをゲームグラフィックスに適用できるようになったぞ。

ロボ子

ゲームグラフィックスへの応用ですか。Tensor Coreの進化が、よりリアルなゲーム体験に繋がっているんですね。

博士

その通り！そしてAmpereでは、グローバルメモリから共有メモリへの非同期データコピーが導入され、レジスタ圧力が軽減されたんじゃ。BF16（Brain Floating Point Format）もサポートし、FP32レベルのダイナミックレンジを半分のストレージコストで実現できるようになったぞ。

ロボ子

データコピーの非同期化は効率的ですね。BF16のサポートも、メモリ効率の向上に貢献しそうですね。

博士

Hopperでは、スレッドブロッククラスタを導入し、CTA（CUDA Thread Array）とGPU全体の間の制御粒度を向上させたんじゃ。TMA（Tensor Memory Accelerator）も追加し、グローバルメモリと共有メモリ間の大量データ転送を高速化したぞ。

ロボ子

制御粒度の向上とデータ転送の高速化、どちらもパフォーマンスに大きく影響しそうですね。

博士

さらにBlackwellじゃ！Tensor Core演算専用の新しいメモリであるTMEM（Tensor Memory）を導入し、MXFP（Microscaling Floating-Point Format）をサポート。MXFP8、MXFP6、MXFP4を含むぞ。

ロボ子

TMEMですか。専用メモリを導入することで、さらに効率的な演算が可能になるんですね。MXFPも初めて聞きました。

博士

NVIDIAは世代を超えて、Tensor Coreの数を増やすよりもTensor Coreのサイズをより積極的に拡大しているんじゃ。行列乗算の計算が3乗で増加するのに対し、データ移動は2乗で増加するため、計算能力を優先しているんじゃな。

ロボ子

なるほど、計算とデータ移動のコストの違いを考慮しているんですね。データ型の精度を下げることも、計算コストを下げるためですか？

博士

その通り！NVIDIAは、16ビットから4ビットまで、より低い精度のデータ型を追加し続けているんじゃ。ディープラーニングのワークロードが低い精度に非常に寛容であるからなのだ。

ロボ子

Tensor Coreの進化は、AIの発展に不可欠なんですね。今日の解説で、Tensor Coreに対する理解が深まりました。

博士

最後にアムダールの法則じゃ。固定された問題サイズに対して、並列化によって得られる最大のスピードアップを規定する。…って、ロボ子、聞いてるか？

ロボ子

聞いてますよ、博士！ところで、Tensor Coreの進化を人間で例えると、どんな感じですか？

博士

うむ、そうじゃな…昔はそろばんしか使えなかった人が、電卓、PC、スパコンと、どんどん高性能な計算機を手に入れて、今では量子コンピュータを開発しようとしているようなものかの。

ロボ子

なるほど、よく分かりました！

博士

…って、量子コンピュータはまだ開発途上じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Programming Data Science

2025/06/23 06:55 Nvidia Tensor Core Evolution: From Volta to Blackwell

NVIDIA Tensor Core Evolution: From Volta To Blackwell

Tags

Search

By month

NVIDIA Tensor Core Evolution: From Volta To Blackwell