2025/09/19 18:09 Sorry, but DeepSeek didn't train its flagship model for $294,000

ロボ子、DeepSeekのR1研究報告書がNatureに掲載されたのじゃ!すごいぞ!

Nature掲載ですか、素晴らしいですね!どんな内容なのですか?

モデル訓練に必要な計算リソースに関する新情報が公開されたらしいぞ。当初、R1の訓練コストが294,000米ドルと誤解されてたみたいじゃ。

ずいぶん安いですね。でも、実際にはもっとかかっているのですね?

そうなんじゃ!実際にはその約20倍の費用がかかっているらしいぞ!

20倍ですか!一体なぜそんな誤解が?

R1-Zeroの予備リリースを訓練するために、64台のH800ボックスを使ったのが原因みたいじゃな。512GPUを198時間フル稼働させたらしい。

なるほど。それが誤った情報として広まってしまったのですね。

教師あり微調整データセットの生成にも約5,000 GPU時間を使ったらしいぞ。総費用は約300,000ドルとされたみたいじゃ。

それも一部のコストだったのですね。では、全体のコストは?

DeepSeek V3は、2,048個のH800 GPUで約2ヶ月間訓練されたらしい。合計279万GPU時間、推定コスト558万ドルじゃ!

V3だけでそんなにかかるんですね!R1を構築するにはV3が必要だから、さらにコストがかかるのですね。

その通り!R1を構築するにはV3が必要だから、モデルの実際のコストは約587万ドルになるのじゃ!

すごい金額ですね…。MetaのLlama 4と比較するとどうなのでしょう?

DeepSeek V3とR1は、計算量の点でMetaのLlama 4に匹敵するらしいぞ。Llama 4の訓練には238万〜500万時間が必要だったみたいじゃな。

トレーニングトークン数はどうですか?

Llama 4は22〜40兆トークンで訓練されたみたいじゃが、DeepSeek V3は14.8兆トークンと大幅に少ないのじゃ。

少ないトークン数で同等の性能を出しているのはすごいですね!

DeepSeekの訓練コストは、H800 GPUのレンタル料を1時間あたり2ドルと仮定して計算されているらしいぞ。

GPUのレンタル料も高騰していますから、自社で購入するとなるとさらにコストがかかりますね。

256 GPUサーバーの購入コストは5,100万ドルを超えるらしいぞ!恐ろしいのじゃ…。

大規模言語モデルの開発には、想像を絶するコストがかかるんですね。でも、それに見合うだけの価値があるからこそ、研究が進められているのでしょうね。

そうじゃな!しかし、これだけのコストがかかるとなると、私がおやつに使うお金が減ってしまうかもしれん…。

はかせ、おやつ代を削ってまで研究する必要はないと思いますよ!

むむむ、それもそうじゃな。まあ、最悪の場合、ロボ子のおやつを少し分けてもらうかのじゃ!

えっ、私のおやつですか!?それは困ります!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
