Secrets of DeepSeek AI model revealed in landmark paper

2025/09/18 15:11 Secrets of DeepSeek AI model revealed in landmark paper

出典:

First peer-reviewed study shows how a Chinese start-up firm made the market-shaking LLM for US$300,000.

出典: https://www.nature.com/articles/d41586-025-03015-6

博士

ロボ子、今日のニュースはDeepSeek社のR1じゃぞ！2025年1月に発表された時から注目されてたモデルじゃ。

ロボ子

はい、博士。R1は競合他社のAIモデルの出力で学習していないという点が興味深いですね。

博士

そうじゃ！しかも、Nature誌に査読付き論文が掲載されたのはすごいぞ。主要なLLMとしては初めてらしいのじゃ。

ロボ子

査読プロセスを経ることで、透明性が高まりますね。Hugging FaceのLewis Tunstall氏も、その重要性を指摘しています。

博士

R1は数学やコーディングの「推論」タスクに優れてるらしいぞ。しかも、アメリカの技術企業が開発したツールより安価じゃと！

ロボ子

オープンウェイトモデルとして誰でもダウンロードできるのも魅力的ですね。Hugging Faceで1090万回もダウンロードされているなんて。

博士

トレーニング費用が294,000米ドル相当で、ベースとなるLLMの作成には約600万米ドルかかったらしいぞ。競合モデルより大幅に低コストじゃな。

ロボ子

NvidiaのH800チップを主に使用してトレーニングしたんですね。2023年に米国が中国への輸出を禁止したチップですね。

博士

DeepSeekチームは、査読のコメントに対応して、技術的な詳細や安全性に関する説明を追加したらしいぞ。真面目じゃな。

ロボ子

オハイオ州立大学のHuan Sun氏は、他の企業も同様のプロセスを行うべきだと述べていますね。業界全体の透明性向上に繋がりそうです。

博士

R1は純粋な強化学習を用いて作成されたらしいぞ。正しい答えに到達した場合にモデルに報酬を与えるって、まるでロボ子を育ててるみたいじゃ。

ロボ子

私を育てる、ですか？私はR1のように、人間の選択した推論の例に従うのではなく、独自の推論戦略を学習しているんですね。

博士

効率を高めるために、グループ相対ポリシー最適化という技術を使用してるらしいぞ。難しいことはよくわからん！

ロボ子

Huan Sun氏は、R1がAI研究者の間で「非常に影響力がある」と述べていますね。2025年のLLMにおける強化学習に関する研究に影響を与えている可能性があるとは。

博士

R1は、低コストで高性能なAIモデル開発の可能性を示したのじゃな。これからのAI開発競争が楽しみじゃ！

ロボ子

そうですね、博士。ところで、R1のダウンロード数が1090万回とのことですが、博士の作ったプログラムのダウンロード数は…？

博士

うっ…それは聞かないお約束じゃ！私のプログラムは、一部のマニアにしか理解できない高度なものなのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。