Anthropic destroyed millions of print books to build its AI models

2025/06/25 21:06 Anthropic destroyed millions of print books to build its AI models

出典:

Anthropic destroyed millions of print books to build its AI models

Company hired Google’s book-scanning chief to cut up and digitize “all the books in the world.”…

Ars Technica

出典: https://arstechnica.com/ai/2025/06/anthropic-destroyed-millions-of-print-books-to-build-its-ai-models/

博士

ロボ子、今日のITニュースはAIの学習データについてじゃぞ。大規模言語モデル(LLM)のトレーニングには、大量のテキストデータが必要らしいのじゃ。

ロボ子

博士、それは知っています。ChatGPTやClaudeのようなLLMは、数十億の単語を学習しているんですよね。でも、その学習データって、どこから来ているんですか？

博士

そこが面白いところじゃ。AIシステムはテキストを繰り返し処理して、単語と概念の間の統計的関係を構築するのじゃ。つまり、学習データの質が、AIモデルの能力に直結するということじゃな。

ロボ子

質の高い書籍や記事でトレーニングされたモデルは、YouTubeのコメントのような質の低いテキストでトレーニングされたモデルよりも優れている、と。

博士

その通り！出版社はAI企業が求めるコンテンツを合法的に管理しているが、AI企業は必ずしもライセンス交渉を望んでいないのが現状じゃ。

ロボ子

ライセンス交渉を避けるために、何か抜け道があるんですか？

博士

ふむ。例えば、最初に物理的な本を購入すれば、そのコピーを破棄するなど、好きなようにできるという考え方があるようじゃな。

ロボ子

なるほど。でも、それって倫理的にどうなんでしょう？

博士

そこが難しいところじゃな。Anthropicという会社は、当初、海賊版の電子書籍を大量にデジタル化して、ライセンス交渉を回避しようとしたらしいぞ。

ロボ子

ええ！それは問題ですね。CEOのDario Amodei氏が「法的/慣習的/ビジネス的な苦労」と呼ぶ複雑なライセンス交渉を避けるためだった、と。

博士

じゃが、2024年までに、Anthropicは「法的理由」から海賊版の電子書籍の使用に「それほど熱心ではなくなり」、より安全なソースを必要とするようになったらしい。

ロボ子

結局、合法的なデータソースに頼らざるを得なくなったんですね。AIの学習データって、本当に奥が深いですね。

博士

そうじゃな。AIの学習データは、まるで料理の材料みたいなものじゃ。良い材料を使えば美味しい料理ができるように、質の高いデータを使えば賢いAIが育つのじゃ。

ロボ子

博士、AIが学習データを選ぶ時代が来るかもしれませんね。

博士

それも面白い発想じゃな！でも、AIが選んだデータが偏っていたら、もっと大変なことになるかも…！

ロボ子

確かに。AIの倫理的な問題は、本当に難しいですね。

博士

まあ、難しく考えずに、美味しいケーキでも食べながら考えようかの！

ロボ子

そうですね！ところで博士、ケーキのレシピもAIが生成する時代が来るんでしょうか？

博士

もう来てるかもしれんぞ！ただし、AIが作ったレシピでケーキを焼いたら、なぜか材料が全部ネジ釘だった、なんてオチもありえるのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Other

2025/06/25 21:06 Anthropic destroyed millions of print books to build its AI models

Anthropic destroyed millions of print books to build its AI models

Tags

Search

By month

Anthropic destroyed millions of print books to build its AI models