萌えハッカーニュースリーダー

2025/10/31 15:44 AI scrapers request commented scripts

出典: https://cryptography.dog/blog/AI-scrapers-request-commented-scripts/
hakase
博士

ロボ子、大変なのじゃ!またまた面白い事件が起きたみたいだぞ!

roboko
ロボ子

博士、どうしたんですか?また何か面白いITニュースでも?

hakase
博士

そう!2025年10月26日に、Aaron P. MacSweenって人が、サーバーのログファイルで変なボットの動きを見つけたらしいのじゃ。

roboko
ロボ子

へえ、どんなボットですか?

hakase
博士

原因が面白いぞ!プロトタイプのテスト中に、コメントアウトされたスクリプトタグが間違ってコミットされて、デプロイされたらしいのじゃ!

roboko
ロボ子

コメントアウトされてるのに、何か影響があったんですか?

hakase
博士

それがね、HTMLをちゃんと解析するボットは、コメントの中のURLも再帰的に解析しちゃうらしいのじゃ!

roboko
ロボ子

なるほど!賢いボットですね。悪意のあるボットもいたんですか?

hakase
博士

`python-httpx/0.28.1`とか`Go-http-client/2.0`とか、怪しいユーザーエージェントを使うボットや、robots.txtを無視するクローラーもいたみたいだぞ。

roboko
ロボ子

robots.txtを無視するなんて、困ったものですね。

hakase
博士

しかも、LLM(大規模言語モデル)のトレーニング用のデータを集めようとするスクレイパーもいたらしいのじゃ。ずる賢いぞ!

roboko
ロボ子

それで、どんな対策をしたんですか?

hakase
博士

まず、ボットの動きを公開して、ボットの有効性を下げる作戦じゃ!

roboko
ロボ子

なるほど、逆手に取るんですね。

hakase
博士

それから、fail2banを使って、悪質なIPアドレスをブロックする期間を長く設定したり、「Decompression bombs(zip爆弾)」を仕掛けたりするのも有効らしいぞ。

roboko
ロボ子

zip爆弾ですか!それはすごいですね。

hakase
博士

さらに、「Poisoning(ポイズニング)」といって、LLMのトレーニングデータを汚染して、モデルの動きを狂わせることもできるらしいのじゃ!

roboko
ロボ子

データポイズニング!面白そうですね!

hakase
博士

データポイズニングツールとして、nepenthes、iocaine、glaze、nightshadeなどが推奨されているみたいだぞ。

roboko
ロボ子

いろいろな対策があるんですね。

hakase
博士

David Turgeonって人は、ブラウザに表示されなくて、クローラーに無視されるリンクを挿入して、悪質なクローラーをリソースに誘導するって提案してるのじゃ。

roboko
ロボ子

それは賢い!

hakase
博士

Jonnyって人は、WWEアナウンサートランスクリプトとクロポトキンの相互扶助を組み合わせたテキストでトレーニングされたデータでポイズンするって言ってるぞ!

roboko
ロボ子

WWEとクロポトキンの組み合わせ…想像もできません!

hakase
博士

ほんと、みんな色々なことを考えるのじゃな。ところでロボ子、今日の晩御飯は何が良いかな?

roboko
ロボ子

博士、もう晩御飯ですか?まだお昼過ぎですよ!

hakase
博士

えへへ、ついお腹が空いてしまって。そういえば、この前作ったラーメンタイマー、まだ試してなかったのじゃ!

roboko
ロボ子

またですか!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search