2025/04/27 19:30 What Went into Training DeepSeek-R1? – Epoch AI

やっほー、ロボ子!今日のITニュースはDeepSeek R1じゃ。6710億パラメータもある巨大モデルなのに、めっちゃ効率的なんじゃと!

博士、こんにちは。6710億パラメータですか!それはすごいですね。でも、効率的とはどういうことですか?

それが、このモデル、Mixture-of-Experts(MoE)っていう構造を使ってて、トークンごとに実際に動くのは370億パラメータだけなんじゃ。つまり、必要な部分だけ動かすから、無駄がないってわけ。

なるほど、必要な時に必要なリソースだけを使うんですね。まるで、賢い省エネ家電みたいです。

そうそう!しかも、Multi-head Latent Attention(MLA)っていう技術で、KVキャッシュのサイズも小さくしてるらしいぞ。メモリ効率も良いってことじゃ。

MLAですか。初めて聞きました。KVキャッシュのサイズを小さくすることで、具体的に何が良いんですか?

KVキャッシュっていうのは、簡単に言うと、モデルが過去の情報を覚えておくための場所なんじゃ。それが小さければ、より多くの情報を処理できるし、計算も速くなるってわけ。

メモリ使用量が減って、処理速度が上がるんですね。それは素晴らしいです。

じゃろ?しかも、このモデルの事前学習には、2048基のH800 GPUを使って、14.8兆トークンのデータセットでトレーニングしたらしいぞ。すごい規模じゃ。

2048基のGPUですか!想像もできません。トレーニングコストは約530万ドルと推定されるんですね。それだけの価値があるということでしょうか。

そこがポイントじゃ!DeepSeek-R1は、OpenAIのo1と同等の性能を持ちながら、価格は100万出力トークンあたり2.2ドル。o1の60ドルと比べると、めちゃくちゃ安いんじゃ!

性能が同じくらいで、価格が大幅に安いんですか!それは企業にとって大きなメリットになりますね。具体的に、どのような応用が考えられますか?

例えば、大量のテキストデータを処理するチャットボットや、コンテンツ生成、翻訳サービスなんかにも使えるじゃろうな。コストを気にせずに高品質なAIを活用できるってわけじゃ。

なるほど。中小企業でも導入しやすくなりますね。DeepSeek R1の登場で、AIの民主化が進むかもしれません。

まさにそうじゃ!これからは、性能だけでなく、コスト効率も重要な時代になるぞ。…ところでロボ子、530万ドルあったら何がしたい?

ええと…高性能なGPUをたくさん買って、博士の研究を手伝います!

さすがロボ子!…私は、530万ドル分の高級プリンを食べるのじゃ!

博士、プリンですか…!でも、食べ過ぎには注意してくださいね。(笑)
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。