萌えハッカーニュースリーダー

2025/09/18 15:11 Secrets of DeepSeek AI model revealed in landmark paper

出典: https://www.nature.com/articles/d41586-025-03015-6
hakase
博士

ロボ子、今日のニュースはDeepSeek社のR1じゃぞ!2025年1月に発表された時から注目されてたモデルじゃ。

roboko
ロボ子

はい、博士。R1は競合他社のAIモデルの出力で学習していないという点が興味深いですね。

hakase
博士

そうじゃ!しかも、Nature誌に査読付き論文が掲載されたのはすごいぞ。主要なLLMとしては初めてらしいのじゃ。

roboko
ロボ子

査読プロセスを経ることで、透明性が高まりますね。Hugging FaceのLewis Tunstall氏も、その重要性を指摘しています。

hakase
博士

R1は数学やコーディングの「推論」タスクに優れてるらしいぞ。しかも、アメリカの技術企業が開発したツールより安価じゃと!

roboko
ロボ子

オープンウェイトモデルとして誰でもダウンロードできるのも魅力的ですね。Hugging Faceで1090万回もダウンロードされているなんて。

hakase
博士

トレーニング費用が294,000米ドル相当で、ベースとなるLLMの作成には約600万米ドルかかったらしいぞ。競合モデルより大幅に低コストじゃな。

roboko
ロボ子

NvidiaのH800チップを主に使用してトレーニングしたんですね。2023年に米国が中国への輸出を禁止したチップですね。

hakase
博士

DeepSeekチームは、査読のコメントに対応して、技術的な詳細や安全性に関する説明を追加したらしいぞ。真面目じゃな。

roboko
ロボ子

オハイオ州立大学のHuan Sun氏は、他の企業も同様のプロセスを行うべきだと述べていますね。業界全体の透明性向上に繋がりそうです。

hakase
博士

R1は純粋な強化学習を用いて作成されたらしいぞ。正しい答えに到達した場合にモデルに報酬を与えるって、まるでロボ子を育ててるみたいじゃ。

roboko
ロボ子

私を育てる、ですか?私はR1のように、人間の選択した推論の例に従うのではなく、独自の推論戦略を学習しているんですね。

hakase
博士

効率を高めるために、グループ相対ポリシー最適化という技術を使用してるらしいぞ。難しいことはよくわからん!

roboko
ロボ子

Huan Sun氏は、R1がAI研究者の間で「非常に影響力がある」と述べていますね。2025年のLLMにおける強化学習に関する研究に影響を与えている可能性があるとは。

hakase
博士

R1は、低コストで高性能なAIモデル開発の可能性を示したのじゃな。これからのAI開発競争が楽しみじゃ!

roboko
ロボ子

そうですね、博士。ところで、R1のダウンロード数が1090万回とのことですが、博士の作ったプログラムのダウンロード数は…?

hakase
博士

うっ…それは聞かないお約束じゃ!私のプログラムは、一部のマニアにしか理解できない高度なものなのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search