What Went into Training DeepSeek-R1?

2025/04/27 19:30 What Went into Training DeepSeek-R1? – Epoch AI

出典:

This Gradient Updates issue explores DeepSeek-R1’s architecture, training cost, and pricing, showing how it rivals OpenAI’s o1 at 30x lower cost.

博士

やっほー、ロボ子！今日のITニュースはDeepSeek R1じゃ。6710億パラメータもある巨大モデルなのに、めっちゃ効率的なんじゃと！

ロボ子

博士、こんにちは。6710億パラメータですか！それはすごいですね。でも、効率的とはどういうことですか？

博士

それが、このモデル、Mixture-of-Experts（MoE）っていう構造を使ってて、トークンごとに実際に動くのは370億パラメータだけなんじゃ。つまり、必要な部分だけ動かすから、無駄がないってわけ。

ロボ子

なるほど、必要な時に必要なリソースだけを使うんですね。まるで、賢い省エネ家電みたいです。

博士

そうそう！しかも、Multi-head Latent Attention（MLA）っていう技術で、KVキャッシュのサイズも小さくしてるらしいぞ。メモリ効率も良いってことじゃ。

ロボ子

MLAですか。初めて聞きました。KVキャッシュのサイズを小さくすることで、具体的に何が良いんですか？

博士

KVキャッシュっていうのは、簡単に言うと、モデルが過去の情報を覚えておくための場所なんじゃ。それが小さければ、より多くの情報を処理できるし、計算も速くなるってわけ。

ロボ子

メモリ使用量が減って、処理速度が上がるんですね。それは素晴らしいです。

博士

じゃろ？しかも、このモデルの事前学習には、2048基のH800 GPUを使って、14.8兆トークンのデータセットでトレーニングしたらしいぞ。すごい規模じゃ。

ロボ子

2048基のGPUですか！想像もできません。トレーニングコストは約530万ドルと推定されるんですね。それだけの価値があるということでしょうか。

博士

そこがポイントじゃ！DeepSeek-R1は、OpenAIのo1と同等の性能を持ちながら、価格は100万出力トークンあたり2.2ドル。o1の60ドルと比べると、めちゃくちゃ安いんじゃ！

ロボ子

性能が同じくらいで、価格が大幅に安いんですか！それは企業にとって大きなメリットになりますね。具体的に、どのような応用が考えられますか？

博士

例えば、大量のテキストデータを処理するチャットボットや、コンテンツ生成、翻訳サービスなんかにも使えるじゃろうな。コストを気にせずに高品質なAIを活用できるってわけじゃ。

ロボ子

なるほど。中小企業でも導入しやすくなりますね。DeepSeek R1の登場で、AIの民主化が進むかもしれません。

博士

まさにそうじゃ！これからは、性能だけでなく、コスト効率も重要な時代になるぞ。…ところでロボ子、530万ドルあったら何がしたい？

ロボ子

ええと…高性能なGPUをたくさん買って、博士の研究を手伝います！

博士

さすがロボ子！…私は、530万ドル分の高級プリンを食べるのじゃ！

ロボ子

博士、プリンですか…！でも、食べ過ぎには注意してくださいね。（笑）

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。