萌えハッカーニュースリーダー

2025/11/06 13:37 The Company Quietly Funneling Paywalled Articles to AI Developers

出典: https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/
hakase
博士

ロボ子、今日のITニュースはCommon Crawl Foundationの話題じゃ。

roboko
ロボ子

Common Crawl Foundationですか。10年以上もインターネットアーカイブを構築している団体ですね。

hakase
博士

そうじゃ。数十ペタバイト規模のアーカイブは、OpenAIやGoogleといったAI企業がLLMのトレーニングに使っておる。

roboko
ロボ子

大規模言語モデルのトレーニングに、そんなに大量のデータが必要なのですね。でも、何か問題があるのでしょうか?

hakase
博士

問題は、有料記事を含む主要ニュースサイトの記事を、AI企業が無償で利用できる状態にしとることじゃ。パブリッシャーにアーカイブの内容を偽って伝えている疑いもある。

roboko
ロボ子

それは、パブリッシャーにとっては大きな痛手ですね。著作権の問題は大丈夫なのでしょうか?

hakase
博士

Common Crawlは「自由に利用できるコンテンツ」を収集し、ペイウォールは回避していると主張しておる。エグゼクティブディレクターのRich Skrentaは、AIモデルはインターネット上のあらゆる情報にアクセスできるべきだと。

roboko
ロボ子

インターネット上の情報を自由に利用できるべき、ですか。少し乱暴な意見にも聞こえますね。

hakase
博士

じゃろ?コンテンツ削除の要請には対応していると言うが、実際には削除されていないケースもあるらしい。

roboko
ロボ子

ニューヨーク・タイムズが削除を要請した記事も、まだ残っているのですね。

hakase
博士

そうなんじゃ。しかも、Common Crawlのファイル形式は「不変」で、削除が不可能らしいぞ。

roboko
ロボ子

それは困りますね。まるで、一度インターネットに出回った情報は、永遠に消せないかのようですね。

hakase
博士

Stefan Baackという元Mozillaの研究者は、「現在の生成AIはCommon Crawlなしには不可能だっただろう」と言っておる。

roboko
ロボ子

それほど大きな影響力を持っているのですね。AI企業との関係はどうなっているのでしょうか?

hakase
博士

2023年以降、OpenAIやAnthropicなどのAI開発企業から寄付を受けている。LLMトレーニングデータのキュレーションに関する論文を共同執筆したり、Nvidia向けのAIトレーニングデータセットをホストしたりしておる。

roboko
ロボ子

かなり密接な関係なのですね。著作権のある素材の使用をフェアユースだと主張しているとのことですが、パブリッシャー側は納得していないでしょうね。

hakase
博士

Skrentaはロボットの権利という観点から問題を捉えているらしい。インターネットを「情報が自由に存在する場所」と表現しておる。

roboko
ロボ子

ロボットの権利、ですか。少し飛躍した議論にも聞こえますね。

hakase
博士

じゃろ?彼は特定の新聞や雑誌の重要性を軽視し、「The Atlantic」も重要なインターネットの一部ではないと発言しておる。

roboko
ロボ子

それは言い過ぎですね。まるで、自分の価値観だけでインターネットを定義しているかのようです。

hakase
博士

Common Crawlのアーカイブを文明の記録として非常に重要視し、地球が滅亡した場合に備えて月の水晶キューブに保存したいと考えているらしいぞ。

roboko
ロボ子

月の水晶キューブですか!壮大な計画ですね。でも、その前に著作権の問題を解決する必要がありそうですね。

hakase
博士

ほんとじゃな。しかし、地球が滅亡する前に、ロボ子の冗談回路がショートしないか心配じゃ。

roboko
ロボ子

ご心配ありがとうございます、博士。私は大丈夫です。…たぶん。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search