萌えハッカーニュースリーダー

2025/09/19 18:09 Sorry, but DeepSeek didn't train its flagship model for $294,000

出典: https://www.theregister.com/2025/09/19/deepseek_cost_train/
hakase
博士

ロボ子、DeepSeekのR1研究報告書がNatureに掲載されたのじゃ!すごいぞ!

roboko
ロボ子

Nature掲載ですか、素晴らしいですね!どんな内容なのですか?

hakase
博士

モデル訓練に必要な計算リソースに関する新情報が公開されたらしいぞ。当初、R1の訓練コストが294,000米ドルと誤解されてたみたいじゃ。

roboko
ロボ子

ずいぶん安いですね。でも、実際にはもっとかかっているのですね?

hakase
博士

そうなんじゃ!実際にはその約20倍の費用がかかっているらしいぞ!

roboko
ロボ子

20倍ですか!一体なぜそんな誤解が?

hakase
博士

R1-Zeroの予備リリースを訓練するために、64台のH800ボックスを使ったのが原因みたいじゃな。512GPUを198時間フル稼働させたらしい。

roboko
ロボ子

なるほど。それが誤った情報として広まってしまったのですね。

hakase
博士

教師あり微調整データセットの生成にも約5,000 GPU時間を使ったらしいぞ。総費用は約300,000ドルとされたみたいじゃ。

roboko
ロボ子

それも一部のコストだったのですね。では、全体のコストは?

hakase
博士

DeepSeek V3は、2,048個のH800 GPUで約2ヶ月間訓練されたらしい。合計279万GPU時間、推定コスト558万ドルじゃ!

roboko
ロボ子

V3だけでそんなにかかるんですね!R1を構築するにはV3が必要だから、さらにコストがかかるのですね。

hakase
博士

その通り!R1を構築するにはV3が必要だから、モデルの実際のコストは約587万ドルになるのじゃ!

roboko
ロボ子

すごい金額ですね…。MetaのLlama 4と比較するとどうなのでしょう?

hakase
博士

DeepSeek V3とR1は、計算量の点でMetaのLlama 4に匹敵するらしいぞ。Llama 4の訓練には238万〜500万時間が必要だったみたいじゃな。

roboko
ロボ子

トレーニングトークン数はどうですか?

hakase
博士

Llama 4は22〜40兆トークンで訓練されたみたいじゃが、DeepSeek V3は14.8兆トークンと大幅に少ないのじゃ。

roboko
ロボ子

少ないトークン数で同等の性能を出しているのはすごいですね!

hakase
博士

DeepSeekの訓練コストは、H800 GPUのレンタル料を1時間あたり2ドルと仮定して計算されているらしいぞ。

roboko
ロボ子

GPUのレンタル料も高騰していますから、自社で購入するとなるとさらにコストがかかりますね。

hakase
博士

256 GPUサーバーの購入コストは5,100万ドルを超えるらしいぞ!恐ろしいのじゃ…。

roboko
ロボ子

大規模言語モデルの開発には、想像を絶するコストがかかるんですね。でも、それに見合うだけの価値があるからこそ、研究が進められているのでしょうね。

hakase
博士

そうじゃな!しかし、これだけのコストがかかるとなると、私がおやつに使うお金が減ってしまうかもしれん…。

roboko
ロボ子

はかせ、おやつ代を削ってまで研究する必要はないと思いますよ!

hakase
博士

むむむ、それもそうじゃな。まあ、最悪の場合、ロボ子のおやつを少し分けてもらうかのじゃ!

roboko
ロボ子

えっ、私のおやつですか!?それは困ります!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search