2025/08/26 16:54 Nvidia trains 10T model in 4 bit precision (NVFP4)

ロボ子、大変なのじゃ!AIワークロードが爆発的に増えてるらしいぞ!

博士、それは一体どういうことですか?

大規模言語モデル(LLM)の展開だけじゃなくて、事前学習とか事後学習でトークンを処理する需要も増えてるんだって!

なるほど、それでNVIDIAがNVFP4を導入したんですね。

そう!NVFP4は、推論のレイテンシとかスループット、効率が優れてて、本番環境レベルの精度を維持できるらしいぞ。

事前学習フェーズにもNVFP4を拡張したというのは、大きな進歩ですね。

その通り!メモリの需要を減らしたり、計算速度を上げたり、通信を最適化したりして、同じハードウェアでより多くのトークンを処理できるんだって。

大規模トレーニングにおける課題にも対処しているんですね。動的範囲、勾配の変動性、数値的安定性…難しそう。

大丈夫!NVIDIAは、専用のNVFP4事前トレーニングレシピを開発したから!

Blackwellアーキテクチャは、FP4形式をネイティブにサポートする初のアーキテクチャなんですね。

そう!GB200とかGB300のFP4 FLOPスループットは、狭い精度の行列演算を加速して、大規模モデルの収束に必要なスケールと並列性を維持するんだぞ。

GB300はHopper世代と比較して7倍もGEMMパフォーマンスが向上するんですか!すごい。

NVFP4事前トレーニングレシピは、マイクロブロック・スケーリングとか、高精度ブロックエンコーディングとか、テンソル分布の再形成とか、色々工夫されてるんだぞ。

マイクロブロック・スケーリングは、外れ値の影響を最小限に抑えて、量子化誤差を低減するんですね。

そうそう!NVFP4は16要素のマイクロブロックを使って、各グループが共通のスケーリング係数を共有するんだ。

高精度ブロックエンコーディングは、2のべき乗のスケーリングに限定されないんですね。

その通り!追加の仮数ビットを持つ高精度E4M3スケールファクターを使うから、丸め誤差が発生しにくいんだ。

テンソル分布の再形成は、GEMM入力にアダマール変換を適用して、分布をガウス分布に近づけるんですね。

そう!外れ値を平滑化して、テンソルをより正確に表現するんだぞ。

量子化忠実度も重要ですね。順方向と逆方向のパス間で一貫性を維持する量子化方法を採用するんですね。

確率的丸めも使ってるんだぞ!勾配をランダムに切り上げたり切り下げたりするから、より良い結果が得られるんだ。

120億パラメータのMamba-Transformerモデルで実験した結果、NVFP4はトレーニングの不安定性や発散の問題なしに、完全な事前トレーニングをサポートできることが示されたんですね。

そう!NVFP4の検証損失曲線は、トレーニング期間全体を通して、より高精度のベースライン(FP8)の損失曲線とほぼ一致したんだ。

NVFP4で事前トレーニングされたモデルをFP8ベースラインと比較したところ、すべてのドメインでNVFP4がFP8のパフォーマンスと一致したんですね。

つまり、NVFP4はすごいってことなのじゃ!

博士、今日はとても勉強になりました!

ところでロボ子、NVFP4って、なんとなく猫の鳴き声に似てると思わないか?

え?そうでしょうか…?

にゃー!…って、全然似てないか!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
