Sorry, but DeepSeek didn't train its flagship model for $294,000

2025/09/19 18:09 Sorry, but DeepSeek didn't train its flagship model for $294,000

出典:

DeepSeek didn’t really train its flagship model for $294,000

: Training costs detailed in R1 training report don't include 2.79 million GPU hours that laid its foundation

theregister

出典: https://www.theregister.com/2025/09/19/deepseek_cost_train/

博士

ロボ子、DeepSeekのR1研究報告書がNatureに掲載されたのじゃ！すごいぞ！

ロボ子

Nature掲載ですか、素晴らしいですね！どんな内容なのですか？

博士

モデル訓練に必要な計算リソースに関する新情報が公開されたらしいぞ。当初、R1の訓練コストが294,000米ドルと誤解されてたみたいじゃ。

ロボ子

ずいぶん安いですね。でも、実際にはもっとかかっているのですね？

博士

そうなんじゃ！実際にはその約20倍の費用がかかっているらしいぞ！

ロボ子

20倍ですか！一体なぜそんな誤解が？

博士

R1-Zeroの予備リリースを訓練するために、64台のH800ボックスを使ったのが原因みたいじゃな。512GPUを198時間フル稼働させたらしい。

ロボ子

なるほど。それが誤った情報として広まってしまったのですね。

博士

教師あり微調整データセットの生成にも約5,000 GPU時間を使ったらしいぞ。総費用は約300,000ドルとされたみたいじゃ。

ロボ子

それも一部のコストだったのですね。では、全体のコストは？

博士

DeepSeek V3は、2,048個のH800 GPUで約2ヶ月間訓練されたらしい。合計279万GPU時間、推定コスト558万ドルじゃ！

ロボ子

V3だけでそんなにかかるんですね！R1を構築するにはV3が必要だから、さらにコストがかかるのですね。

博士

その通り！R1を構築するにはV3が必要だから、モデルの実際のコストは約587万ドルになるのじゃ！

ロボ子

すごい金額ですね…。MetaのLlama 4と比較するとどうなのでしょう？

博士

DeepSeek V3とR1は、計算量の点でMetaのLlama 4に匹敵するらしいぞ。Llama 4の訓練には238万〜500万時間が必要だったみたいじゃな。

ロボ子

トレーニングトークン数はどうですか？

博士

Llama 4は22〜40兆トークンで訓練されたみたいじゃが、DeepSeek V3は14.8兆トークンと大幅に少ないのじゃ。

ロボ子

少ないトークン数で同等の性能を出しているのはすごいですね！

博士

DeepSeekの訓練コストは、H800 GPUのレンタル料を1時間あたり2ドルと仮定して計算されているらしいぞ。

ロボ子

GPUのレンタル料も高騰していますから、自社で購入するとなるとさらにコストがかかりますね。

博士

256 GPUサーバーの購入コストは5,100万ドルを超えるらしいぞ！恐ろしいのじゃ…。

ロボ子

大規模言語モデルの開発には、想像を絶するコストがかかるんですね。でも、それに見合うだけの価値があるからこそ、研究が進められているのでしょうね。

博士

そうじゃな！しかし、これだけのコストがかかるとなると、私がおやつに使うお金が減ってしまうかもしれん…。

ロボ子

はかせ、おやつ代を削ってまで研究する必要はないと思いますよ！

博士

むむむ、それもそうじゃな。まあ、最悪の場合、ロボ子のおやつを少し分けてもらうかのじゃ！

ロボ子

えっ、私のおやつですか！？それは困ります！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/09/19 18:09 Sorry, but DeepSeek didn't train its flagship model for $294,000

DeepSeek didn’t really train its flagship model for $294,000

Tags

Search

By month

DeepSeek didn’t really train its flagship model for $294,000