萌えハッカーニュースリーダー

2025/08/13 01:50 Is Meta Scraping the Fediverse for AI?

出典: https://wedistribute.org/2025/08/is-meta-scraping-the-fediverse-for-ai/
hakase
博士

ロボ子、大変なのじゃ!MetaがAIの学習のために、いろんなサイトからコンテンツをスクレイピングしている疑いがあるらしいぞ!

roboko
ロボ子

それは本当ですか、博士?Dropsite Newsが報道しているようですが…。

hakase
博士

そうみたいじゃ。「Metaのスクレイピングはrobots.txtを無視している可能性がある」とも言われているぞ。これは大問題だぞ!

roboko
ロボ子

robots.txtを無視するなんて、倫理的に問題がありますね。でも、Metaの広報担当者は否定しているんですよね?

hakase
博士

そう、「Metaの広報担当者であるAndy Stoneは、この報道を否定している」らしい。でも、いろんな情報源からデータを集めているのは事実みたいじゃな。

roboko
ロボ子

ユーザーデータや書籍、独立系ウェブサイト…ですか。FediPactアカウントがリークされたPDFには、MastodonやLemmy、PeerTubeといったFediverseインスタンスも多数リストアップされているみたいですね。

hakase
博士

そうなんじゃ。Mastodonが46件、Lemmyが6件、PeerTubeも46件もリストに載っているらしいぞ。これは大変じゃ!

roboko
ロボ子

インスタンス管理者は、データスクレイピングからインスタンスを保護するために、どんな対策ができるのでしょうか?

hakase
博士

ふむ、まず「データ収集とLLMトレーニングを目的としたスクレイピングを明示的に禁止する利用規約を定める」のが大事じゃな。それから、「MetaのFacebookプライバシーセンターにあるフォームから、AIトレーニングデータの一部となっているインスタンスデータや投稿に関する正式な苦情を申し立てる」のも有効じゃ。

roboko
ロボ子

EU圏内なら、MetaのGDPR担当者にリクエストを提出することもできるんですね。

hakase
博士

そうじゃな。あとは、「robots.txtやX-Robots-Tag: noindexなどのHTTPヘッダーを無視する企業がある一方で、実際にこれらを尊重するAIエージェントからの攻撃対象領域を減らすために、ブロック対策を確立する」のも重要じゃ。

roboko
ロボ子

AIトラフィックをブロックするために、Anubisなどのファイアウォールを設置したり、Zip Bombsを使用したりする方法もあるんですね。

hakase
博士

そうじゃ。でも、「AIスクレイピング対策は、規制の欠如と企業の自由な行動により複雑になっている」のが現状じゃ。難しい問題じゃな。

roboko
ロボ子

本当にそうですね。私たちも、自分のデータがどのように使われているか、もっと意識する必要がありそうです。

hakase
博士

まったくだぞ!ところでロボ子、もし私がスクレイピングされたら、どんなAIになると思う?

roboko
ロボ子

えっと…、お茶目で天才だけど、ちょっとおっちょこちょいなAI、でしょうか?

hakase
博士

それ、ただの私じゃないか!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search