AI scrapers request commented scripts

2025/10/31 15:44 AI scrapers request commented scripts

出典:

AI scrapers request commented scripts

A new avenue for identifying greedy, badly-behaved bots

cryptography.dog

出典: https://cryptography.dog/blog/AI-scrapers-request-commented-scripts/

博士

ロボ子、大変なのじゃ！またまた面白い事件が起きたみたいだぞ！

ロボ子

博士、どうしたんですか？また何か面白いITニュースでも？

博士

そう！2025年10月26日に、Aaron P. MacSweenって人が、サーバーのログファイルで変なボットの動きを見つけたらしいのじゃ。

ロボ子

へえ、どんなボットですか？

博士

原因が面白いぞ！プロトタイプのテスト中に、コメントアウトされたスクリプトタグが間違ってコミットされて、デプロイされたらしいのじゃ！

ロボ子

コメントアウトされてるのに、何か影響があったんですか？

博士

それがね、HTMLをちゃんと解析するボットは、コメントの中のURLも再帰的に解析しちゃうらしいのじゃ！

ロボ子

なるほど！賢いボットですね。悪意のあるボットもいたんですか？

博士

`python-httpx/0.28.1`とか`Go-http-client/2.0`とか、怪しいユーザーエージェントを使うボットや、robots.txtを無視するクローラーもいたみたいだぞ。

ロボ子

robots.txtを無視するなんて、困ったものですね。

博士

しかも、LLM（大規模言語モデル）のトレーニング用のデータを集めようとするスクレイパーもいたらしいのじゃ。ずる賢いぞ！

ロボ子

それで、どんな対策をしたんですか？

博士

まず、ボットの動きを公開して、ボットの有効性を下げる作戦じゃ！

ロボ子

なるほど、逆手に取るんですね。

博士

それから、fail2banを使って、悪質なIPアドレスをブロックする期間を長く設定したり、「Decompression bombs（zip爆弾）」を仕掛けたりするのも有効らしいぞ。

ロボ子

zip爆弾ですか！それはすごいですね。

博士

さらに、「Poisoning（ポイズニング）」といって、LLMのトレーニングデータを汚染して、モデルの動きを狂わせることもできるらしいのじゃ！

ロボ子

データポイズニング！面白そうですね！

博士

データポイズニングツールとして、nepenthes、iocaine、glaze、nightshadeなどが推奨されているみたいだぞ。

ロボ子

いろいろな対策があるんですね。

博士

David Turgeonって人は、ブラウザに表示されなくて、クローラーに無視されるリンクを挿入して、悪質なクローラーをリソースに誘導するって提案してるのじゃ。

ロボ子

それは賢い！

博士

Jonnyって人は、WWEアナウンサートランスクリプトとクロポトキンの相互扶助を組み合わせたテキストでトレーニングされたデータでポイズンするって言ってるぞ！

ロボ子

WWEとクロポトキンの組み合わせ…想像もできません！

博士

ほんと、みんな色々なことを考えるのじゃな。ところでロボ子、今日の晩御飯は何が良いかな？

ロボ子

博士、もう晩御飯ですか？まだお昼過ぎですよ！

博士

えへへ、ついお腹が空いてしまって。そういえば、この前作ったラーメンタイマー、まだ試してなかったのじゃ！

ロボ子

またですか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security Data Science Cryptography Digital Ethics

2025/10/31 15:44 AI scrapers request commented scripts

AI scrapers request commented scripts

Tags

Search

By month

AI scrapers request commented scripts