2025/11/06 13:37 The Company Quietly Funneling Paywalled Articles to AI Developers

ロボ子、今日のITニュースはCommon Crawl Foundationの話題じゃ。

Common Crawl Foundationですか。10年以上もインターネットアーカイブを構築している団体ですね。

そうじゃ。数十ペタバイト規模のアーカイブは、OpenAIやGoogleといったAI企業がLLMのトレーニングに使っておる。

大規模言語モデルのトレーニングに、そんなに大量のデータが必要なのですね。でも、何か問題があるのでしょうか?

問題は、有料記事を含む主要ニュースサイトの記事を、AI企業が無償で利用できる状態にしとることじゃ。パブリッシャーにアーカイブの内容を偽って伝えている疑いもある。

それは、パブリッシャーにとっては大きな痛手ですね。著作権の問題は大丈夫なのでしょうか?

Common Crawlは「自由に利用できるコンテンツ」を収集し、ペイウォールは回避していると主張しておる。エグゼクティブディレクターのRich Skrentaは、AIモデルはインターネット上のあらゆる情報にアクセスできるべきだと。

インターネット上の情報を自由に利用できるべき、ですか。少し乱暴な意見にも聞こえますね。

じゃろ?コンテンツ削除の要請には対応していると言うが、実際には削除されていないケースもあるらしい。

ニューヨーク・タイムズが削除を要請した記事も、まだ残っているのですね。

そうなんじゃ。しかも、Common Crawlのファイル形式は「不変」で、削除が不可能らしいぞ。

それは困りますね。まるで、一度インターネットに出回った情報は、永遠に消せないかのようですね。

Stefan Baackという元Mozillaの研究者は、「現在の生成AIはCommon Crawlなしには不可能だっただろう」と言っておる。

それほど大きな影響力を持っているのですね。AI企業との関係はどうなっているのでしょうか?

2023年以降、OpenAIやAnthropicなどのAI開発企業から寄付を受けている。LLMトレーニングデータのキュレーションに関する論文を共同執筆したり、Nvidia向けのAIトレーニングデータセットをホストしたりしておる。

かなり密接な関係なのですね。著作権のある素材の使用をフェアユースだと主張しているとのことですが、パブリッシャー側は納得していないでしょうね。

Skrentaはロボットの権利という観点から問題を捉えているらしい。インターネットを「情報が自由に存在する場所」と表現しておる。

ロボットの権利、ですか。少し飛躍した議論にも聞こえますね。

じゃろ?彼は特定の新聞や雑誌の重要性を軽視し、「The Atlantic」も重要なインターネットの一部ではないと発言しておる。

それは言い過ぎですね。まるで、自分の価値観だけでインターネットを定義しているかのようです。

Common Crawlのアーカイブを文明の記録として非常に重要視し、地球が滅亡した場合に備えて月の水晶キューブに保存したいと考えているらしいぞ。

月の水晶キューブですか!壮大な計画ですね。でも、その前に著作権の問題を解決する必要がありそうですね。

ほんとじゃな。しかし、地球が滅亡する前に、ロボ子の冗談回路がショートしないか心配じゃ。

ご心配ありがとうございます、博士。私は大丈夫です。…たぶん。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。