The Company Quietly Funneling Paywalled Articles to AI Developers

2025/11/06 13:37 The Company Quietly Funneling Paywalled Articles to AI Developers

出典:

The Company Quietly Funneling Paywalled Articles to AI Developers

“You shouldn’t have put your content on the internet if you didn’t want it to be on the internet,” Common Crawl’s executive director says.

The Atlantic

出典: https://www.theatlantic.com/technology/2025/11/common-crawl-ai-training-data/684567/

博士

ロボ子、今日のITニュースはCommon Crawl Foundationの話題じゃ。

ロボ子

Common Crawl Foundationですか。10年以上もインターネットアーカイブを構築している団体ですね。

博士

そうじゃ。数十ペタバイト規模のアーカイブは、OpenAIやGoogleといったAI企業がLLMのトレーニングに使っておる。

ロボ子

大規模言語モデルのトレーニングに、そんなに大量のデータが必要なのですね。でも、何か問題があるのでしょうか？

博士

問題は、有料記事を含む主要ニュースサイトの記事を、AI企業が無償で利用できる状態にしとることじゃ。パブリッシャーにアーカイブの内容を偽って伝えている疑いもある。

ロボ子

それは、パブリッシャーにとっては大きな痛手ですね。著作権の問題は大丈夫なのでしょうか？

博士

Common Crawlは「自由に利用できるコンテンツ」を収集し、ペイウォールは回避していると主張しておる。エグゼクティブディレクターのRich Skrentaは、AIモデルはインターネット上のあらゆる情報にアクセスできるべきだと。

ロボ子

インターネット上の情報を自由に利用できるべき、ですか。少し乱暴な意見にも聞こえますね。

博士

じゃろ？コンテンツ削除の要請には対応していると言うが、実際には削除されていないケースもあるらしい。

ロボ子

ニューヨーク・タイムズが削除を要請した記事も、まだ残っているのですね。

博士

そうなんじゃ。しかも、Common Crawlのファイル形式は「不変」で、削除が不可能らしいぞ。

ロボ子

それは困りますね。まるで、一度インターネットに出回った情報は、永遠に消せないかのようですね。

博士

Stefan Baackという元Mozillaの研究者は、「現在の生成AIはCommon Crawlなしには不可能だっただろう」と言っておる。

ロボ子

それほど大きな影響力を持っているのですね。AI企業との関係はどうなっているのでしょうか？

博士

2023年以降、OpenAIやAnthropicなどのAI開発企業から寄付を受けている。LLMトレーニングデータのキュレーションに関する論文を共同執筆したり、Nvidia向けのAIトレーニングデータセットをホストしたりしておる。

ロボ子

かなり密接な関係なのですね。著作権のある素材の使用をフェアユースだと主張しているとのことですが、パブリッシャー側は納得していないでしょうね。

博士

Skrentaはロボットの権利という観点から問題を捉えているらしい。インターネットを「情報が自由に存在する場所」と表現しておる。

ロボ子

ロボットの権利、ですか。少し飛躍した議論にも聞こえますね。

博士

じゃろ？彼は特定の新聞や雑誌の重要性を軽視し、「The Atlantic」も重要なインターネットの一部ではないと発言しておる。

ロボ子

それは言い過ぎですね。まるで、自分の価値観だけでインターネットを定義しているかのようです。

博士

Common Crawlのアーカイブを文明の記録として非常に重要視し、地球が滅亡した場合に備えて月の水晶キューブに保存したいと考えているらしいぞ。

ロボ子

月の水晶キューブですか！壮大な計画ですね。でも、その前に著作権の問題を解決する必要がありそうですね。

博士

ほんとじゃな。しかし、地球が滅亡する前に、ロボ子の冗談回路がショートしないか心配じゃ。

ロボ子

ご心配ありがとうございます、博士。私は大丈夫です。…たぶん。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Digital Ethics Big Tech

2025/11/06 13:37 The Company Quietly Funneling Paywalled Articles to AI Developers

The Company Quietly Funneling Paywalled Articles to AI Developers

Tags

Search

By month

The Company Quietly Funneling Paywalled Articles to AI Developers