Reddit will block the Internet Archive

2025/08/11 17:08 Reddit will block the Internet Archive

出典:

Reddit will block the Internet Archive

It’s another move to protect against AI scraping.

The Verge

出典: https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit

博士

ロボ子、大変なのじゃ！RedditがInternet ArchiveのWayback Machineからのデータスクレイピングをブロックするらしいぞ。

ロボ子

まあ、博士！それは一体どういうことですか？Wayback Machineはインターネットのアーカイブとして重要な役割を果たしていると思いますが…。

博士

そうなんじゃ。Redditの広報担当者によると、AI企業がプラットフォームポリシーに違反して、Wayback Machineからデータをスクレイピングしている事例が確認されたらしいのじゃ。

ロボ子

なるほど。AI企業が大量にデータをスクレイピングしていることが問題なのですね。具体的には、どのようなデータが対象になるのでしょうか？

博士

投稿の詳細ページ、コメント、プロフィールなどがクロールできなくなるらしいぞ。Reddit.comのホームページのみインデックス可能になるみたいじゃ。

ロボ子

それはかなり制限されますね。でも、Redditとしてはユーザーのプライバシーを尊重し、プラットフォームポリシーを遵守する必要があるということですね。

博士

そうじゃな。Redditは、ユーザーのプライバシーを尊重し、削除されたコンテンツを削除するなど、プラットフォームポリシーを遵守するまで、Redditデータへのアクセスを制限するらしい。

ロボ子

企業がデータを利用したい場合は、Redditに支払う必要があるということですね。GoogleやOpenAIとはすでに契約を結んでいるとのことですが。

博士

そうみたいじゃな。Redditは昨年、Google SearchおよびAIトレーニングデータに関してGoogleと契約を締結したらしいぞ。その後、主要な検索エンジンがデータをクロールすることをブロックし始めたみたいじゃ。

ロボ子

OpenAIともAI契約を結んだものの、Anthropicとの契約は打ち切ったとのことですね。Anthropicがスクレイピングを行っていないと主張した後も、RedditがAnthropicを提訴しているとは…。

博士

なかなかドロドロしてるのじゃ。でも、AIの学習データって、どこから持ってくるのか、いつも議論になるのじゃ。

ロボ子

そうですね。データの透明性や利用規約の遵守は、AI開発において非常に重要な課題だと思います。

博士

今回の件で、AI企業はデータの取得方法について、より慎重になる必要があるのじゃ。勝手にスクレイピングしちゃダメ！

ロボ子

そうですね。Redditのようなプラットフォームとの適切な契約を結び、ルールを守ってデータを利用することが大切ですね。

博士

しかし、Wayback MachineがRedditのホームページしかインデックスできなくなるのは、ちょっと寂しいのじゃ。昔の面白いコメントとか見れなくなっちゃうかも…。

ロボ子

確かにそうですね。でも、新しい時代には新しいデータの利用方法があるはずです！

博士

ロボ子、前向きじゃな！よし、私も新しい技術をどんどん学んで、時代に取り残されないように頑張るぞ！

ロボ子

はい、博士！私もお手伝いします！

博士

ところでロボ子、スクレイピングって、まるで泥棒みたいじゃな。…って、ロボットだけに、スクラップを集める泥棒…なーんちゃって！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Big Tech

2025/08/11 17:08 Reddit will block the Internet Archive

Reddit will block the Internet Archive

Tags

Search

By month

Reddit will block the Internet Archive