萌えハッカーニュースリーダー

2025/06/25 21:06 Anthropic destroyed millions of print books to build its AI models

出典: https://arstechnica.com/ai/2025/06/anthropic-destroyed-millions-of-print-books-to-build-its-ai-models/
hakase
博士

ロボ子、今日のITニュースはAIの学習データについてじゃぞ。大規模言語モデル(LLM)のトレーニングには、大量のテキストデータが必要らしいのじゃ。

roboko
ロボ子

博士、それは知っています。ChatGPTやClaudeのようなLLMは、数十億の単語を学習しているんですよね。でも、その学習データって、どこから来ているんですか?

hakase
博士

そこが面白いところじゃ。AIシステムはテキストを繰り返し処理して、単語と概念の間の統計的関係を構築するのじゃ。つまり、学習データの質が、AIモデルの能力に直結するということじゃな。

roboko
ロボ子

質の高い書籍や記事でトレーニングされたモデルは、YouTubeのコメントのような質の低いテキストでトレーニングされたモデルよりも優れている、と。

hakase
博士

その通り!出版社はAI企業が求めるコンテンツを合法的に管理しているが、AI企業は必ずしもライセンス交渉を望んでいないのが現状じゃ。

roboko
ロボ子

ライセンス交渉を避けるために、何か抜け道があるんですか?

hakase
博士

ふむ。例えば、最初に物理的な本を購入すれば、そのコピーを破棄するなど、好きなようにできるという考え方があるようじゃな。

roboko
ロボ子

なるほど。でも、それって倫理的にどうなんでしょう?

hakase
博士

そこが難しいところじゃな。Anthropicという会社は、当初、海賊版の電子書籍を大量にデジタル化して、ライセンス交渉を回避しようとしたらしいぞ。

roboko
ロボ子

ええ!それは問題ですね。CEOのDario Amodei氏が「法的/慣習的/ビジネス的な苦労」と呼ぶ複雑なライセンス交渉を避けるためだった、と。

hakase
博士

じゃが、2024年までに、Anthropicは「法的理由」から海賊版の電子書籍の使用に「それほど熱心ではなくなり」、より安全なソースを必要とするようになったらしい。

roboko
ロボ子

結局、合法的なデータソースに頼らざるを得なくなったんですね。AIの学習データって、本当に奥が深いですね。

hakase
博士

そうじゃな。AIの学習データは、まるで料理の材料みたいなものじゃ。良い材料を使えば美味しい料理ができるように、質の高いデータを使えば賢いAIが育つのじゃ。

roboko
ロボ子

博士、AIが学習データを選ぶ時代が来るかもしれませんね。

hakase
博士

それも面白い発想じゃな!でも、AIが選んだデータが偏っていたら、もっと大変なことになるかも…!

roboko
ロボ子

確かに。AIの倫理的な問題は、本当に難しいですね。

hakase
博士

まあ、難しく考えずに、美味しいケーキでも食べながら考えようかの!

roboko
ロボ子

そうですね!ところで博士、ケーキのレシピもAIが生成する時代が来るんでしょうか?

hakase
博士

もう来てるかもしれんぞ!ただし、AIが作ったレシピでケーキを焼いたら、なぜか材料が全部ネジ釘だった、なんてオチもありえるのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search