Nvidia trains 10T model in 4 bit precision (NVFP4)

2025/08/26 16:54 Nvidia trains 10T model in 4 bit precision (NVFP4)

出典:

NVFP4 Trains with Precision of 16-Bit and Speed and Efficiency of 4-Bit | NVIDIA Technical Blog

In recent years, AI workloads have grown exponentially—not only in the deployment of large language models (LLMs) but also in the demand to process ever more tokens during pretraining and post…

NVIDIA Technical Blog

出典: https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/

博士

ロボ子、大変なのじゃ！AIワークロードが爆発的に増えてるらしいぞ！

ロボ子

博士、それは一体どういうことですか？

博士

大規模言語モデル(LLM)の展開だけじゃなくて、事前学習とか事後学習でトークンを処理する需要も増えてるんだって！

ロボ子

なるほど、それでNVIDIAがNVFP4を導入したんですね。

博士

そう！NVFP4は、推論のレイテンシとかスループット、効率が優れてて、本番環境レベルの精度を維持できるらしいぞ。

ロボ子

事前学習フェーズにもNVFP4を拡張したというのは、大きな進歩ですね。

博士

その通り！メモリの需要を減らしたり、計算速度を上げたり、通信を最適化したりして、同じハードウェアでより多くのトークンを処理できるんだって。

ロボ子

大規模トレーニングにおける課題にも対処しているんですね。動的範囲、勾配の変動性、数値的安定性…難しそう。

博士

大丈夫！NVIDIAは、専用のNVFP4事前トレーニングレシピを開発したから！

ロボ子

Blackwellアーキテクチャは、FP4形式をネイティブにサポートする初のアーキテクチャなんですね。

博士

そう！GB200とかGB300のFP4 FLOPスループットは、狭い精度の行列演算を加速して、大規模モデルの収束に必要なスケールと並列性を維持するんだぞ。

ロボ子

GB300はHopper世代と比較して7倍もGEMMパフォーマンスが向上するんですか！すごい。

博士

NVFP4事前トレーニングレシピは、マイクロブロック・スケーリングとか、高精度ブロックエンコーディングとか、テンソル分布の再形成とか、色々工夫されてるんだぞ。

ロボ子

マイクロブロック・スケーリングは、外れ値の影響を最小限に抑えて、量子化誤差を低減するんですね。

博士

そうそう！NVFP4は16要素のマイクロブロックを使って、各グループが共通のスケーリング係数を共有するんだ。

ロボ子

高精度ブロックエンコーディングは、2のべき乗のスケーリングに限定されないんですね。

博士

その通り！追加の仮数ビットを持つ高精度E4M3スケールファクターを使うから、丸め誤差が発生しにくいんだ。

ロボ子

テンソル分布の再形成は、GEMM入力にアダマール変換を適用して、分布をガウス分布に近づけるんですね。

博士

そう！外れ値を平滑化して、テンソルをより正確に表現するんだぞ。

ロボ子

量子化忠実度も重要ですね。順方向と逆方向のパス間で一貫性を維持する量子化方法を採用するんですね。

博士

確率的丸めも使ってるんだぞ！勾配をランダムに切り上げたり切り下げたりするから、より良い結果が得られるんだ。

ロボ子

120億パラメータのMamba-Transformerモデルで実験した結果、NVFP4はトレーニングの不安定性や発散の問題なしに、完全な事前トレーニングをサポートできることが示されたんですね。

博士

そう！NVFP4の検証損失曲線は、トレーニング期間全体を通して、より高精度のベースライン（FP8）の損失曲線とほぼ一致したんだ。

ロボ子

NVFP4で事前トレーニングされたモデルをFP8ベースラインと比較したところ、すべてのドメインでNVFP4がFP8のパフォーマンスと一致したんですね。

博士

つまり、NVFP4はすごいってことなのじゃ！

ロボ子

博士、今日はとても勉強になりました！

博士

ところでロボ子、NVFP4って、なんとなく猫の鳴き声に似てると思わないか？

ロボ子

え？そうでしょうか…？

博士

にゃー！…って、全然似てないか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science

2025/08/26 16:54 Nvidia trains 10T model in 4 bit precision (NVFP4)

NVFP4 Trains with Precision of 16-Bit and Speed and Efficiency of 4-Bit | NVIDIA Technical Blog

Tags

Search

By month

NVFP4 Trains with Precision of 16-Bit and Speed and Efficiency of 4-Bit | NVIDIA Technical Blog