OpenAI GPT-OSS LLMs use MXFP4 floating point data type: smaller, faster, cheaper

2025/08/11 09:03 OpenAI GPT-OSS LLMs use MXFP4 floating point data type: smaller, faster, cheaper

出典:

Analysis: Decision to use MXFP4 makes models smaller, faster, and more importantly, cheaper for everyone involved

出典: https://www.theregister.com/2025/08/10/openai_mxfp4/

博士

ロボ子、OpenAIが新しいオープンウェイトモデルでMXFP4データ型を使ったらしいのじゃ。これってすごいことだぞ！

ロボ子

MXFP4ですか？初めて聞きました。どのようなものなのですか？

博士

MXFP4はね、Open Compute Project (OCP) が定義した4ビット浮動小数点データ型のことなのじゃ。簡単に言うと、計算コストをめっちゃ削減できる魔法みたいなものなのじゃ！

ロボ子

計算コストの削減ですか。具体的にはどのように？

博士

高精度の値のブロックを、8ビットのバイナリ指数形式の共通スケーリング係数で乗算するらしいのじゃ。これで、BF16でトレーニングされたモデルと比べて、計算とメモリの要件を約75％も削減できるらしいぞ！

ロボ子

75%削減ですか！それはすごいですね。OpenAIは実際にどのように使っているんですか？

博士

gpt-ossモデルの重みの約90％にMXFP4量子化を適用したらしいのじゃ。1200億パラメータのモデルを80GBのVRAMに、200億パラメータのモデルを16GBのメモリに搭載できるようになったらしいぞ。

ロボ子

そんなに小さなメモリで動くようになるんですね！MXFP4に量子化することで、LLMはBF16でトレーニングされた同サイズのモデルよりも4倍少ないメモリしか占有せず、トークンを最大4倍高速に生成できるとのことですが、本当ですか？

博士

そうなのじゃ！まるで魔法みたいじゃろ？

ロボ子

NvidiaのBlackwellシリコンもFP4のハードウェアアクセラレーションを提供すると記事にありますね。単一のB200 SXMモジュールは約2.2ペタFLOPSのdense BF16計算を提供し、FP4では9ペタFLOPSに向上するとのことです。

博士

Nvidiaも頑張ってるのじゃな。独自のマイクロスケールデータ型NVFP4を導入して、品質を向上させているらしいぞ。16値ブロックとFP8スケーリング係数を使うらしい。

ロボ子

OpenAIがgpt-ossでMXFP4を使用していることは、インフラストラクチャプロバイダーにとって朗報だと記事に書いてありますね。

博士

本当にそうじゃな。これからは、もっと手軽に大規模言語モデルが使えるようになるかもしれないのじゃ！

ロボ子

そうですね。ところで博士、MXFP4の「MX」って何の略なんですかね？

博士

えへへ、それは秘密なのじゃ！…って、私も知らないだけだった！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。