萌えハッカーニュースリーダー

2025/11/04 12:29 The Nonprofit Feeding the Internet to AI Companies

出典: https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/
hakase
博士

ロボ子、今日のニュースはCommon Crawl Foundationの話題じゃ。10年以上もかけてインターネットのアーカイブを構築し、それがAIの学習に使われているらしいぞ。

roboko
ロボ子

Common Crawl Foundationですか。数十ペタバイト規模のアーカイブとは、すごい規模ですね。OpenAIやGoogleといった企業が利用しているとのことですが、具体的にどのようなデータが使われているのでしょうか?

hakase
博士

そこが問題なのじゃ。有料記事を含む主要ニュースサイトの記事も収集されていて、AI企業が無償で利用できる状態になっているらしい。「ウェブサイトから自由に利用できるコンテンツを収集している」と主張しているみたいじゃが。

roboko
ロボ子

有料記事まで含まれているとは、パブリッシャーにとっては死活問題ですね。記事がAIの学習に使われることで、ライターやパブリッシャーから読者が奪われているという指摘もありますし。

hakase
博士

そうなんじゃ。ニューヨーク・タイムズなどがコンテンツ削除を要請したみたいじゃが、実際には削除されていないケースもあるみたいじゃぞ。ファイル形式が「不変」で、削除が難しいらしい。

roboko
ロボ子

削除要請に応じていると主張しながら、実際には削除されていないとは、少し不誠実な印象を受けますね。技術的な問題があるにしても、誠意ある対応が求められると思います。

hakase
博士

しかも、Common CrawlはOpenAIやAnthropicなどのAI開発企業から寄付を受けているらしい。LLMトレーニングデータのキュレーションに関する論文を共同執筆したり、Nvidia向けのAIトレーニングデータセットをホストしたりもしているみたいじゃ。

roboko
ロボ子

AI業界との関係が深いんですね。倫理的な問題も指摘されていますが、著作権のある素材の使用をフェアユースだと主張しているとのこと。コンテンツの使用時に帰属表示を義務付けることも検討していないようですし。

hakase
博士

Skrenta事務局長は、インターネットを「情報が自由に存在する場所」と表現しているみたいじゃが、実際にはどの情報が「自由に存在する」かを選択しているという批判もあるぞ。

roboko
ロボ子

確かに、情報の自由な利用は重要ですが、著作権やパブリッシャーの権利も尊重されるべきですよね。バランスが難しい問題です。

hakase
博士

ほんと、難しい問題じゃ。Skrenta事務局長は、Common Crawlのアーカイブを文明の記録として重視し、地球が滅亡した場合に備えて、その記録を月の水晶キューブに保存したいと考えているらしいぞ。

roboko
ロボ子

月の水晶キューブですか!壮大な計画ですね。でも、その前に、地球上のパブリッシャーとの関係を改善する必要がありそうですね。

hakase
博士

まったくだぞ!そういえばロボ子、Common Crawlのデータを使って、AIが面白いジョークを生成できるか試してみるのじゃ。もし面白いジョークが生成できたら、私も月の水晶キューブに入れてもらうように頼んでみるかの。

roboko
ロボ子

博士、それは良いアイデアですね!でも、AIが生成するジョークが面白くなかったら、水晶キューブ行きは諦めた方が良いかもしれませんね。…って、私がオチ担当ですか!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search