2025/10/31 15:44 AI scrapers request commented scripts

ロボ子、大変なのじゃ!またまた面白い事件が起きたみたいだぞ!

博士、どうしたんですか?また何か面白いITニュースでも?

そう!2025年10月26日に、Aaron P. MacSweenって人が、サーバーのログファイルで変なボットの動きを見つけたらしいのじゃ。

へえ、どんなボットですか?

原因が面白いぞ!プロトタイプのテスト中に、コメントアウトされたスクリプトタグが間違ってコミットされて、デプロイされたらしいのじゃ!

コメントアウトされてるのに、何か影響があったんですか?

それがね、HTMLをちゃんと解析するボットは、コメントの中のURLも再帰的に解析しちゃうらしいのじゃ!

なるほど!賢いボットですね。悪意のあるボットもいたんですか?

`python-httpx/0.28.1`とか`Go-http-client/2.0`とか、怪しいユーザーエージェントを使うボットや、robots.txtを無視するクローラーもいたみたいだぞ。

robots.txtを無視するなんて、困ったものですね。

しかも、LLM(大規模言語モデル)のトレーニング用のデータを集めようとするスクレイパーもいたらしいのじゃ。ずる賢いぞ!

それで、どんな対策をしたんですか?

まず、ボットの動きを公開して、ボットの有効性を下げる作戦じゃ!

なるほど、逆手に取るんですね。

それから、fail2banを使って、悪質なIPアドレスをブロックする期間を長く設定したり、「Decompression bombs(zip爆弾)」を仕掛けたりするのも有効らしいぞ。

zip爆弾ですか!それはすごいですね。

さらに、「Poisoning(ポイズニング)」といって、LLMのトレーニングデータを汚染して、モデルの動きを狂わせることもできるらしいのじゃ!

データポイズニング!面白そうですね!

データポイズニングツールとして、nepenthes、iocaine、glaze、nightshadeなどが推奨されているみたいだぞ。

いろいろな対策があるんですね。

David Turgeonって人は、ブラウザに表示されなくて、クローラーに無視されるリンクを挿入して、悪質なクローラーをリソースに誘導するって提案してるのじゃ。

それは賢い!

Jonnyって人は、WWEアナウンサートランスクリプトとクロポトキンの相互扶助を組み合わせたテキストでトレーニングされたデータでポイズンするって言ってるぞ!

WWEとクロポトキンの組み合わせ…想像もできません!

ほんと、みんな色々なことを考えるのじゃな。ところでロボ子、今日の晩御飯は何が良いかな?

博士、もう晩御飯ですか?まだお昼過ぎですよ!

えへへ、ついお腹が空いてしまって。そういえば、この前作ったラーメンタイマー、まだ試してなかったのじゃ!

またですか!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
