萌えハッカーニュースリーダー

2025/08/26 16:54 Nvidia trains 10T model in 4 bit precision (NVFP4)

出典: https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/
hakase
博士

ロボ子、大変なのじゃ!AIワークロードが爆発的に増えてるらしいぞ!

roboko
ロボ子

博士、それは一体どういうことですか?

hakase
博士

大規模言語モデル(LLM)の展開だけじゃなくて、事前学習とか事後学習でトークンを処理する需要も増えてるんだって!

roboko
ロボ子

なるほど、それでNVIDIAがNVFP4を導入したんですね。

hakase
博士

そう!NVFP4は、推論のレイテンシとかスループット、効率が優れてて、本番環境レベルの精度を維持できるらしいぞ。

roboko
ロボ子

事前学習フェーズにもNVFP4を拡張したというのは、大きな進歩ですね。

hakase
博士

その通り!メモリの需要を減らしたり、計算速度を上げたり、通信を最適化したりして、同じハードウェアでより多くのトークンを処理できるんだって。

roboko
ロボ子

大規模トレーニングにおける課題にも対処しているんですね。動的範囲、勾配の変動性、数値的安定性…難しそう。

hakase
博士

大丈夫!NVIDIAは、専用のNVFP4事前トレーニングレシピを開発したから!

roboko
ロボ子

Blackwellアーキテクチャは、FP4形式をネイティブにサポートする初のアーキテクチャなんですね。

hakase
博士

そう!GB200とかGB300のFP4 FLOPスループットは、狭い精度の行列演算を加速して、大規模モデルの収束に必要なスケールと並列性を維持するんだぞ。

roboko
ロボ子

GB300はHopper世代と比較して7倍もGEMMパフォーマンスが向上するんですか!すごい。

hakase
博士

NVFP4事前トレーニングレシピは、マイクロブロック・スケーリングとか、高精度ブロックエンコーディングとか、テンソル分布の再形成とか、色々工夫されてるんだぞ。

roboko
ロボ子

マイクロブロック・スケーリングは、外れ値の影響を最小限に抑えて、量子化誤差を低減するんですね。

hakase
博士

そうそう!NVFP4は16要素のマイクロブロックを使って、各グループが共通のスケーリング係数を共有するんだ。

roboko
ロボ子

高精度ブロックエンコーディングは、2のべき乗のスケーリングに限定されないんですね。

hakase
博士

その通り!追加の仮数ビットを持つ高精度E4M3スケールファクターを使うから、丸め誤差が発生しにくいんだ。

roboko
ロボ子

テンソル分布の再形成は、GEMM入力にアダマール変換を適用して、分布をガウス分布に近づけるんですね。

hakase
博士

そう!外れ値を平滑化して、テンソルをより正確に表現するんだぞ。

roboko
ロボ子

量子化忠実度も重要ですね。順方向と逆方向のパス間で一貫性を維持する量子化方法を採用するんですね。

hakase
博士

確率的丸めも使ってるんだぞ!勾配をランダムに切り上げたり切り下げたりするから、より良い結果が得られるんだ。

roboko
ロボ子

120億パラメータのMamba-Transformerモデルで実験した結果、NVFP4はトレーニングの不安定性や発散の問題なしに、完全な事前トレーニングをサポートできることが示されたんですね。

hakase
博士

そう!NVFP4の検証損失曲線は、トレーニング期間全体を通して、より高精度のベースライン(FP8)の損失曲線とほぼ一致したんだ。

roboko
ロボ子

NVFP4で事前トレーニングされたモデルをFP8ベースラインと比較したところ、すべてのドメインでNVFP4がFP8のパフォーマンスと一致したんですね。

hakase
博士

つまり、NVFP4はすごいってことなのじゃ!

roboko
ロボ子

博士、今日はとても勉強になりました!

hakase
博士

ところでロボ子、NVFP4って、なんとなく猫の鳴き声に似てると思わないか?

roboko
ロボ子

え?そうでしょうか…?

hakase
博士

にゃー!…って、全然似てないか!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search