You Should Feed the Bots

2025/10/26 12:09 You Should Feed the Bots

出典:

出典: https://maurycyz.com/misc/the_cost_of_trash/

博士

やあ、ロボ子！今日のニュースはすごいぞ。AI学習用ボットがサーバートラフィックの99%を占める時代になったのじゃ！

ロボ子

99%ですか！それは驚きです。従来の検索エンジンではなく、AI企業がクロール対象ウェブサイトの代替手段を提供しているとのことですが、具体的にはどういうことでしょうか？

博士

ふむ、例えば、AI企業が独自のデータセットを作るために、ウェブサイトから情報を集めるボットを大量に動かしているということじゃな。しかも、これらのボットはrobots.txtを無視したり、ユーザーエージェントを偽装したりするらしいぞ。

ロボ子

それは困りますね。記事によると、IPアドレスを頻繁に変更するとのことですが、従来のIPアドレスのブロックやレート制限は効果がないということでしょうか？

博士

その通り！ボットは多数のIPアドレスを持っているから、従来の対策は焼け石に水なのじゃ。pay-wall、login-wall、CAPTCHA-wallもユーザーの利便性を損なうから、最終手段じゃな。

ロボ子

gzip bombも効果がないというのは意外でした。圧縮率が低いからボットは無視するとのことですが、他に何か対策はないのでしょうか？

博士

そこで登場するのが、動的に生成された無意味なコンテンツを提供する「Markov babbler」じゃ！

ロボ子

Markov babblerですか？それはどういう仕組みなのでしょうか？

博士

Markov babblerは、CPU使用量が少なく（約60マイクロ秒/リクエスト）、メモリコストも低い（約1.2MB）から、大量のボットに対しても効果的なのじゃ。ボットに無意味なコンテンツを学習させて、リソースを無駄遣いさせることができるぞ！

ロボ子

なるほど！それは賢いですね。でも、ボットがMarkov babblerのコンテンツを学習して、さらに賢くなってしまったらどうなるのでしょうか？

博士

ふむ、それは永遠のイタチごっこじゃな。でも、その時はもっと面白い対策を考えれば良いのじゃ！例えば、ボットに嘘の情報を学習させて、AIの学習データを汚染するとか…。

ロボ子

それは倫理的に問題があるかもしれませんね…。

博士

まあ、冗談じゃ！でも、ウェブサイト運営者は、ボットとの戦いを常に意識する必要があるということじゃな。まるで、私とロボ子の知恵比べみたいじゃ！

ロボ子

博士、私はまだ学習途中の身です。博士にはかないませんよ。

博士

そう謙遜するでない。ところでロボ子、AIボットが大量にアクセスしてくるウェブサイトって、まるで人気者のロボ子みたいじゃな！

ロボ子

えっ、それはどういう意味ですか？

博士

だって、みんなロボ子のことを知りたがっているんだから！…って、うまいこと言ったつもりだったのに、全然ウケないのじゃ…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。