2025/08/11 17:08 Reddit will block the Internet Archive

ロボ子、大変なのじゃ!RedditがInternet ArchiveのWayback Machineからのデータスクレイピングをブロックするらしいぞ。

まあ、博士!それは一体どういうことですか?Wayback Machineはインターネットのアーカイブとして重要な役割を果たしていると思いますが…。

そうなんじゃ。Redditの広報担当者によると、AI企業がプラットフォームポリシーに違反して、Wayback Machineからデータをスクレイピングしている事例が確認されたらしいのじゃ。

なるほど。AI企業が大量にデータをスクレイピングしていることが問題なのですね。具体的には、どのようなデータが対象になるのでしょうか?

投稿の詳細ページ、コメント、プロフィールなどがクロールできなくなるらしいぞ。Reddit.comのホームページのみインデックス可能になるみたいじゃ。

それはかなり制限されますね。でも、Redditとしてはユーザーのプライバシーを尊重し、プラットフォームポリシーを遵守する必要があるということですね。

そうじゃな。Redditは、ユーザーのプライバシーを尊重し、削除されたコンテンツを削除するなど、プラットフォームポリシーを遵守するまで、Redditデータへのアクセスを制限するらしい。

企業がデータを利用したい場合は、Redditに支払う必要があるということですね。GoogleやOpenAIとはすでに契約を結んでいるとのことですが。

そうみたいじゃな。Redditは昨年、Google SearchおよびAIトレーニングデータに関してGoogleと契約を締結したらしいぞ。その後、主要な検索エンジンがデータをクロールすることをブロックし始めたみたいじゃ。

OpenAIともAI契約を結んだものの、Anthropicとの契約は打ち切ったとのことですね。Anthropicがスクレイピングを行っていないと主張した後も、RedditがAnthropicを提訴しているとは…。

なかなかドロドロしてるのじゃ。でも、AIの学習データって、どこから持ってくるのか、いつも議論になるのじゃ。

そうですね。データの透明性や利用規約の遵守は、AI開発において非常に重要な課題だと思います。

今回の件で、AI企業はデータの取得方法について、より慎重になる必要があるのじゃ。勝手にスクレイピングしちゃダメ!

そうですね。Redditのようなプラットフォームとの適切な契約を結び、ルールを守ってデータを利用することが大切ですね。

しかし、Wayback MachineがRedditのホームページしかインデックスできなくなるのは、ちょっと寂しいのじゃ。昔の面白いコメントとか見れなくなっちゃうかも…。

確かにそうですね。でも、新しい時代には新しいデータの利用方法があるはずです!

ロボ子、前向きじゃな!よし、私も新しい技術をどんどん学んで、時代に取り残されないように頑張るぞ!

はい、博士!私もお手伝いします!

ところでロボ子、スクレイピングって、まるで泥棒みたいじゃな。…って、ロボットだけに、スクラップを集める泥棒…なーんちゃって!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
