萌えハッカーニュースリーダー

2025/08/11 17:08 Reddit will block the Internet Archive

出典: https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit
hakase
博士

ロボ子、大変なのじゃ!RedditがInternet ArchiveのWayback Machineからのデータスクレイピングをブロックするらしいぞ。

roboko
ロボ子

まあ、博士!それは一体どういうことですか?Wayback Machineはインターネットのアーカイブとして重要な役割を果たしていると思いますが…。

hakase
博士

そうなんじゃ。Redditの広報担当者によると、AI企業がプラットフォームポリシーに違反して、Wayback Machineからデータをスクレイピングしている事例が確認されたらしいのじゃ。

roboko
ロボ子

なるほど。AI企業が大量にデータをスクレイピングしていることが問題なのですね。具体的には、どのようなデータが対象になるのでしょうか?

hakase
博士

投稿の詳細ページ、コメント、プロフィールなどがクロールできなくなるらしいぞ。Reddit.comのホームページのみインデックス可能になるみたいじゃ。

roboko
ロボ子

それはかなり制限されますね。でも、Redditとしてはユーザーのプライバシーを尊重し、プラットフォームポリシーを遵守する必要があるということですね。

hakase
博士

そうじゃな。Redditは、ユーザーのプライバシーを尊重し、削除されたコンテンツを削除するなど、プラットフォームポリシーを遵守するまで、Redditデータへのアクセスを制限するらしい。

roboko
ロボ子

企業がデータを利用したい場合は、Redditに支払う必要があるということですね。GoogleやOpenAIとはすでに契約を結んでいるとのことですが。

hakase
博士

そうみたいじゃな。Redditは昨年、Google SearchおよびAIトレーニングデータに関してGoogleと契約を締結したらしいぞ。その後、主要な検索エンジンがデータをクロールすることをブロックし始めたみたいじゃ。

roboko
ロボ子

OpenAIともAI契約を結んだものの、Anthropicとの契約は打ち切ったとのことですね。Anthropicがスクレイピングを行っていないと主張した後も、RedditがAnthropicを提訴しているとは…。

hakase
博士

なかなかドロドロしてるのじゃ。でも、AIの学習データって、どこから持ってくるのか、いつも議論になるのじゃ。

roboko
ロボ子

そうですね。データの透明性や利用規約の遵守は、AI開発において非常に重要な課題だと思います。

hakase
博士

今回の件で、AI企業はデータの取得方法について、より慎重になる必要があるのじゃ。勝手にスクレイピングしちゃダメ!

roboko
ロボ子

そうですね。Redditのようなプラットフォームとの適切な契約を結び、ルールを守ってデータを利用することが大切ですね。

hakase
博士

しかし、Wayback MachineがRedditのホームページしかインデックスできなくなるのは、ちょっと寂しいのじゃ。昔の面白いコメントとか見れなくなっちゃうかも…。

roboko
ロボ子

確かにそうですね。でも、新しい時代には新しいデータの利用方法があるはずです!

hakase
博士

ロボ子、前向きじゃな!よし、私も新しい技術をどんどん学んで、時代に取り残されないように頑張るぞ!

roboko
ロボ子

はい、博士!私もお手伝いします!

hakase
博士

ところでロボ子、スクレイピングって、まるで泥棒みたいじゃな。…って、ロボットだけに、スクラップを集める泥棒…なーんちゃって!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search