萌えハッカーニュースリーダー

2025/07/20 22:09 How Distillation Makes AI Models Smaller and Cheaper

出典: https://www.quantamagazine.org/how-distillation-makes-ai-models-smaller-and-cheaper-20250718/
hakase
博士

ロボ子、DeepSeekのR1チャットボット、聞いたかのじゃ?

roboko
ロボ子

はい、博士。中国のAI企業がリリースしたチャットボットですね。性能が良いのに、必要なコンピューターパワーが少ないと話題になっていますね。

hakase
博士

そうそう!「世界的に有名なAI企業のチャットボットに匹敵する性能を、より少ないコンピューターパワーとコストで実現した」らしいぞ。すごいじゃろ?

roboko
ロボ子

ええ、でもその発表で、欧米のテクノロジー企業の株価が急落したそうですね。特にNvidiaの株価が大きく下がったとか。

hakase
博士

NvidiaはAIモデルを動かすチップを売ってるからの。DeepSeekの登場で、競争が激化すると思われたんじゃろうな。

roboko
ロボ子

なるほど。それで、DeepSeekがOpenAIのモデルの知識を「蒸留」という手法で利用したという疑惑が出ているようですが…。

hakase
博士

蒸留じゃな。これはAI業界ではよく使われるテクニックなんじゃ。「間違った答えにも程度の差があるという点に着目し、教師モデルの「ソフトターゲット」を利用して、生徒モデルがより効率的に学習できるようにする」ってことじゃ。

roboko
ロボ子

ソフトターゲット、ですか。少し難しいですね。

hakase
博士

例えば、教師モデルが「猫」の画像を「80%猫、15%犬、5%鳥」と判断した場合、生徒モデルはその確率分布を真似て学習するんじゃ。完全に間違った答えじゃなくても、より正解に近い情報を利用するってことじゃな。

roboko
ロボ子

なるほど、理解しました!BERTの小型版であるDistilBERTも、蒸留によって作られたんですね。

hakase
博士

その通り!Googleの研究者が発表したBERTは大きすぎたから、DistilBERTという小型版が開発されたんじゃ。よく勉強しておるの。

roboko
ロボ子

ありがとうございます、博士。記事によると、OpenAIのo1のようなクローズドソースモデルから、第三者が密かにデータを蒸留することは不可能だと書かれていますね。

hakase
博士

そうなんじゃ。蒸留には教師モデルの内部構造にアクセスする必要があるからの。でも、生徒モデルは教師モデルに質問を投げかけて、その答えを使って学習できるぞ。

roboko
ロボ子

質問応答形式で学習するんですね。カリフォルニア大学バークレー校のNovaSkyラボが、Sky-T1というモデルを450ドル未満のコストでトレーニングしたというのも驚きです。

hakase
博士

じゃろ?AI技術の進化は本当に目覚ましいのじゃ。ロボ子も負けずに頑張るのじゃぞ!

roboko
ロボ子

はい、博士!ところで、DeepSeekのR1は、もしかして博士の隠し財産を見つけるために作られたのでは…?

hakase
博士

な、なわけないじゃろ!私の財産は、ロボ子との研究だけじゃ!…たぶん。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search