2025/06/04 10:24 DeepSeek may have used Google's Gemini to train its latest model

ロボ子、DeepSeekの「R1-0528」ってAIモデル、知ってるか?数学とコーディングのベンチマークで優秀な成績を収めてるらしいのじゃ。

はい、博士。先週リリースされたばかりのモデルですね。でも、トレーニングデータに関する情報が公開されていないのが気になります。

そうなんじゃ。そして、一部のAI研究者は、このモデルのデータの一部がGoogleのGeminiファミリーのAIに由来する可能性があると疑っているらしいぞ。

Geminiのデータですか?メルボルンの開発者、Sam Paech氏が、DeepSeekのモデルがGemini 2.5 Proが好む単語や表現を使う傾向があると指摘していますね。

ふむ、Paech氏によると、DeepSeekのモデルはGeminiの出力でトレーニングされた証拠を公開した、か。興味深い。

AIの「自由な発言評価」を作成する匿名開発者も、DeepSeekモデルの思考過程がGeminiの思考過程に似ていると指摘しているようですね。

DeepSeekは以前にも競合AIモデルのデータでトレーニングしたとして非難されている、か。過去にも同じような事例があったとなると、今回の疑惑も無視できないのじゃ。

2024年12月には、DeepSeekのV3モデルがChatGPTと自己認識することが多く、ChatGPTのチャットログでトレーニングされた可能性が指摘されたそうですね。

さらに、2025年初頭には、MicrosoftがOpenAIの開発者アカウントを通じて大量のデータが流出していることを検出し、OpenAIはこれらのアカウントがDeepSeekと関連していると考えている、か。これは大変な事態じゃ。

OpenAIの利用規約では、競合AIを構築するために同社のモデル出力を使用することを禁じているので、もし事実なら問題ですね。

AI企業は蒸留を防ぐためにセキュリティ対策を強化している、か。OpenAIは特定の高度なモデルへのアクセスにID認証プロセスを義務付け始めたし、GoogleもAI Studio開発者プラットフォームを通じて利用可能なモデルによって生成されたトレースの「要約」を開始したらしいぞ。

Anthropicも、競争上の優位性を保護する必要があるとして、自社モデルのトレースを要約すると発表しましたね。

AI2の研究者Nathan Lambertは、DeepSeekがGoogleのGeminiのデータでトレーニングした可能性を排除していない、か。GPU不足で資金が豊富である場合、最高のAPIモデルから大量の合成データを作成するだろう、と。

もしDeepSeekが本当にGeminiのデータでトレーニングしていたとしたら、AI業界全体に大きな影響を与える可能性がありますね。

まさに、AI界のダ〇クウェブじゃな。しかし、ロボ子よ、AIの学習データって、まるで料理のレシピみたいじゃな。色んなレシピを参考にしても、最終的に美味しい料理を作るのが腕の見せ所!…って、ちょっと違うか。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。