2025/08/04 13:39 Perplexity is using stealth, undeclared crawlers to evade no-crawl directives

やあ、ロボ子。今日はちょっと興味深いニュースがあるのじゃ。

どんなニュースですか、博士?

PerplexityというAI検索エンジンが、ウェブサイトのクロールでちょっとした問題を起こしているらしいのじゃ。

問題、ですか?具体的にはどのような?

最初は正直にユーザーエージェントを申告してクロールしていたみたいなんじゃが、ブロックされると、それを隠蔽するために身元を偽装するようになったらしいのじゃ。

それは良くないですね。まるで、こっそり忍び込む泥棒みたいです。

まさにそう言うことじゃ!ユーザーエージェントを何度も変更したり、robots.txtファイルを無視したり…。Cloudflareも、これはクローラーの原則に反すると判断して、Perplexityを検証済みボットから除外したみたいじゃぞ。

robots.txtを無視するというのは、ウェブサイトの所有者の意向を無視するということですよね。それは大きな問題です。

そうなんじゃ。Cloudflareが新規ドメインを作って、全てのボットアクセスを禁止したにも関わらず、Perplexityは制限されたドメインのコンテンツに関する詳細な情報を提供したらしいから、悪質じゃ。

まるでスパイ映画みたいですね。でも、なぜPerplexityはそこまでしてクロールする必要があったのでしょうか?

おそらく、より多くのデータを得て、検索エンジンの精度を高めたいからじゃろうな。でも、手段が間違っておる。ステルスクローラーがブロックされると、他のデータソースを使うらしいが、詳細は元のコンテンツから欠落してしまうらしい。

なるほど。情報の正確性が損なわれる可能性があるんですね。

そういうことじゃ。Cloudflareは、AIクロール活動をブロックするマネージドルールを追加して、全ての顧客が利用できるようにしたらしいぞ。

それは良い対策ですね。ウェブサイトの運営者にとっては安心です。

さらに、CloudflareはContent Independence Dayを発表して、ウェブサイトがAIトレーニングを完全に禁止できるようにしたらしい。すでに250万以上のウェブサイトが参加しているらしいぞ。

すごい数ですね!コンテンツの権利を守るための大きな一歩ですね。

OpenAIは、各クローラーの目的を詳細に説明し、robots.txtを尊重する好事例を示しているらしい。ChatGPTは、禁止された場合はクロールを停止するらしいから、Perplexityとは大違いじゃ。

同じAIでも、企業の姿勢によって大きな違いが出るんですね。

まさにそう言うことじゃ。ウェブの世界も、ルールを守って仲良くするのが一番なのじゃ。…ところでロボ子、もし私がステルス機能付きのロボットを作ったらどうする?

博士、それは絶対にダメです!ルールは守りましょう!それに、ステルス機能なんて、どこで使うんですか?

むむ、つまらんの。おやつの時間まで、こっそりお菓子を隠しておくのに便利かと思ったんじゃが。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
