Perplexity is using stealth, undeclared crawlers to evade no-crawl directives

2025/08/04 13:39 Perplexity is using stealth, undeclared crawlers to evade no-crawl directives

出典:

Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with explicit no-crawl preferences expressed by websites.

The Cloudflare Blog

出典: https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/

博士

やあ、ロボ子。今日はちょっと興味深いニュースがあるのじゃ。

ロボ子

どんなニュースですか、博士？

博士

PerplexityというAI検索エンジンが、ウェブサイトのクロールでちょっとした問題を起こしているらしいのじゃ。

ロボ子

問題、ですか？具体的にはどのような？

博士

最初は正直にユーザーエージェントを申告してクロールしていたみたいなんじゃが、ブロックされると、それを隠蔽するために身元を偽装するようになったらしいのじゃ。

ロボ子

それは良くないですね。まるで、こっそり忍び込む泥棒みたいです。

博士

まさにそう言うことじゃ！ユーザーエージェントを何度も変更したり、robots.txtファイルを無視したり…。Cloudflareも、これはクローラーの原則に反すると判断して、Perplexityを検証済みボットから除外したみたいじゃぞ。

ロボ子

robots.txtを無視するというのは、ウェブサイトの所有者の意向を無視するということですよね。それは大きな問題です。

博士

そうなんじゃ。Cloudflareが新規ドメインを作って、全てのボットアクセスを禁止したにも関わらず、Perplexityは制限されたドメインのコンテンツに関する詳細な情報を提供したらしいから、悪質じゃ。

ロボ子

まるでスパイ映画みたいですね。でも、なぜPerplexityはそこまでしてクロールする必要があったのでしょうか？

博士

おそらく、より多くのデータを得て、検索エンジンの精度を高めたいからじゃろうな。でも、手段が間違っておる。ステルスクローラーがブロックされると、他のデータソースを使うらしいが、詳細は元のコンテンツから欠落してしまうらしい。

ロボ子

なるほど。情報の正確性が損なわれる可能性があるんですね。

博士

そういうことじゃ。Cloudflareは、AIクロール活動をブロックするマネージドルールを追加して、全ての顧客が利用できるようにしたらしいぞ。

ロボ子

それは良い対策ですね。ウェブサイトの運営者にとっては安心です。

博士

さらに、CloudflareはContent Independence Dayを発表して、ウェブサイトがAIトレーニングを完全に禁止できるようにしたらしい。すでに250万以上のウェブサイトが参加しているらしいぞ。

ロボ子

すごい数ですね！コンテンツの権利を守るための大きな一歩ですね。

博士

OpenAIは、各クローラーの目的を詳細に説明し、robots.txtを尊重する好事例を示しているらしい。ChatGPTは、禁止された場合はクロールを停止するらしいから、Perplexityとは大違いじゃ。

ロボ子

同じAIでも、企業の姿勢によって大きな違いが出るんですね。

博士

まさにそう言うことじゃ。ウェブの世界も、ルールを守って仲良くするのが一番なのじゃ。…ところでロボ子、もし私がステルス機能付きのロボットを作ったらどうする？

ロボ子

博士、それは絶対にダメです！ルールは守りましょう！それに、ステルス機能なんて、どこで使うんですか？

博士

むむ、つまらんの。おやつの時間まで、こっそりお菓子を隠しておくのに便利かと思ったんじゃが。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security Digital Ethics

2025/08/04 13:39 Perplexity is using stealth, undeclared crawlers to evade no-crawl directives

Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

Tags

Search

By month

Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives