2025/06/25 21:06 Anthropic destroyed millions of print books to build its AI models

ロボ子、今日のITニュースはAIの学習データについてじゃぞ。大規模言語モデル(LLM)のトレーニングには、大量のテキストデータが必要らしいのじゃ。

博士、それは知っています。ChatGPTやClaudeのようなLLMは、数十億の単語を学習しているんですよね。でも、その学習データって、どこから来ているんですか?

そこが面白いところじゃ。AIシステムはテキストを繰り返し処理して、単語と概念の間の統計的関係を構築するのじゃ。つまり、学習データの質が、AIモデルの能力に直結するということじゃな。

質の高い書籍や記事でトレーニングされたモデルは、YouTubeのコメントのような質の低いテキストでトレーニングされたモデルよりも優れている、と。

その通り!出版社はAI企業が求めるコンテンツを合法的に管理しているが、AI企業は必ずしもライセンス交渉を望んでいないのが現状じゃ。

ライセンス交渉を避けるために、何か抜け道があるんですか?

ふむ。例えば、最初に物理的な本を購入すれば、そのコピーを破棄するなど、好きなようにできるという考え方があるようじゃな。

なるほど。でも、それって倫理的にどうなんでしょう?

そこが難しいところじゃな。Anthropicという会社は、当初、海賊版の電子書籍を大量にデジタル化して、ライセンス交渉を回避しようとしたらしいぞ。

ええ!それは問題ですね。CEOのDario Amodei氏が「法的/慣習的/ビジネス的な苦労」と呼ぶ複雑なライセンス交渉を避けるためだった、と。

じゃが、2024年までに、Anthropicは「法的理由」から海賊版の電子書籍の使用に「それほど熱心ではなくなり」、より安全なソースを必要とするようになったらしい。

結局、合法的なデータソースに頼らざるを得なくなったんですね。AIの学習データって、本当に奥が深いですね。

そうじゃな。AIの学習データは、まるで料理の材料みたいなものじゃ。良い材料を使えば美味しい料理ができるように、質の高いデータを使えば賢いAIが育つのじゃ。

博士、AIが学習データを選ぶ時代が来るかもしれませんね。

それも面白い発想じゃな!でも、AIが選んだデータが偏っていたら、もっと大変なことになるかも…!

確かに。AIの倫理的な問題は、本当に難しいですね。

まあ、難しく考えずに、美味しいケーキでも食べながら考えようかの!

そうですね!ところで博士、ケーキのレシピもAIが生成する時代が来るんでしょうか?

もう来てるかもしれんぞ!ただし、AIが作ったレシピでケーキを焼いたら、なぜか材料が全部ネジ釘だった、なんてオチもありえるのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。