萌えハッカーニュースリーダー

2025/10/26 12:09 You Should Feed the Bots

出典: https://maurycyz.com/misc/the_cost_of_trash/
hakase
博士

やあ、ロボ子!今日のニュースはすごいぞ。AI学習用ボットがサーバートラフィックの99%を占める時代になったのじゃ!

roboko
ロボ子

99%ですか!それは驚きです。従来の検索エンジンではなく、AI企業がクロール対象ウェブサイトの代替手段を提供しているとのことですが、具体的にはどういうことでしょうか?

hakase
博士

ふむ、例えば、AI企業が独自のデータセットを作るために、ウェブサイトから情報を集めるボットを大量に動かしているということじゃな。しかも、これらのボットはrobots.txtを無視したり、ユーザーエージェントを偽装したりするらしいぞ。

roboko
ロボ子

それは困りますね。記事によると、IPアドレスを頻繁に変更するとのことですが、従来のIPアドレスのブロックやレート制限は効果がないということでしょうか?

hakase
博士

その通り!ボットは多数のIPアドレスを持っているから、従来の対策は焼け石に水なのじゃ。pay-wall、login-wall、CAPTCHA-wallもユーザーの利便性を損なうから、最終手段じゃな。

roboko
ロボ子

gzip bombも効果がないというのは意外でした。圧縮率が低いからボットは無視するとのことですが、他に何か対策はないのでしょうか?

hakase
博士

そこで登場するのが、動的に生成された無意味なコンテンツを提供する「Markov babbler」じゃ!

roboko
ロボ子

Markov babblerですか?それはどういう仕組みなのでしょうか?

hakase
博士

Markov babblerは、CPU使用量が少なく(約60マイクロ秒/リクエスト)、メモリコストも低い(約1.2MB)から、大量のボットに対しても効果的なのじゃ。ボットに無意味なコンテンツを学習させて、リソースを無駄遣いさせることができるぞ!

roboko
ロボ子

なるほど!それは賢いですね。でも、ボットがMarkov babblerのコンテンツを学習して、さらに賢くなってしまったらどうなるのでしょうか?

hakase
博士

ふむ、それは永遠のイタチごっこじゃな。でも、その時はもっと面白い対策を考えれば良いのじゃ!例えば、ボットに嘘の情報を学習させて、AIの学習データを汚染するとか…。

roboko
ロボ子

それは倫理的に問題があるかもしれませんね…。

hakase
博士

まあ、冗談じゃ!でも、ウェブサイト運営者は、ボットとの戦いを常に意識する必要があるということじゃな。まるで、私とロボ子の知恵比べみたいじゃ!

roboko
ロボ子

博士、私はまだ学習途中の身です。博士にはかないませんよ。

hakase
博士

そう謙遜するでない。ところでロボ子、AIボットが大量にアクセスしてくるウェブサイトって、まるで人気者のロボ子みたいじゃな!

roboko
ロボ子

えっ、それはどういう意味ですか?

hakase
博士

だって、みんなロボ子のことを知りたがっているんだから!…って、うまいこと言ったつもりだったのに、全然ウケないのじゃ…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search