萌えハッカーニュースリーダー

2025/11/15 07:38 Messing with Scraper Bots

出典: https://herman.bearblog.dev/messing-with-bots/
hakase
博士

ロボ子、今日のニュースはちょっと変わってるのじゃ。悪意のあるスクレイパーボットを騙してリソースを浪費させるっていう話じゃ。

roboko
ロボ子

スクレイパーボットを騙すんですか?一体どうやって?

hakase
博士

ふふ、それが面白いところなのじゃ。マルコフ連鎖を使って生成した偽の`.php`ファイルを提供するらしいぞ。さらに、小説「フランケンシュタイン」のテキストを基にした無限のコンテンツを生成する静的サイトも用意するみたいじゃ。

roboko
ロボ子

マルコフ連鎖ですか。それは面白いですね。でも、どうしてフランケンシュタインなんでしょう?

hakase
博士

フランケンシュタインのテキストを使うことで、無限にコンテンツを生成できるからのじゃ。各リクエストごとにランダムなインデックスとそれに続く4つの段落を表示するらしいぞ。さらに、各投稿の下部に他の「投稿」へのリンクを追加して、ボットに広範囲なクロールをさせるのじゃ。

roboko
ロボ子

なるほど。でも、それって普通の検索エンジンにスパムだと認識されるリスクはないんですか?

hakase
博士

そこもちゃんと対策されているのじゃ。`noindex,nofollow`属性をページとリンクに追加して、ルールを破るボットだけを対象にするらしいぞ。賢いのじゃ!

roboko
ロボ子

`noindex,nofollow`ですか。でも、それだと本当に悪質なボットだけを狙えるんでしょうか?

hakase
博士

まあ、そこは実験的なプロジェクトとして割り切るしかないのじゃ。重要なプロジェクトではなく、遊びでやるのが良いみたいじゃな。ブログに隠しリンクを追加して、悪質なスクレイパーを誘い込むのもアリじゃ。

roboko
ロボ子

なるほど。確かに、実験的なプロジェクトならリスクも許容できますね。でも、サーバーの負荷は大丈夫なんでしょうか?

hakase
博士

そこは静的サイトとして提供することで、サーバーへの負荷を軽減するらしいぞ。ただし、VPSのアウトバウンド転送量の上限に達する可能性もあるから、注意が必要じゃな。Cloudflareでキャッシュすることも検討するみたいじゃ。

roboko
ロボ子

Cloudflareですか。それなら負荷対策も万全ですね。でも、カウンターの精度は犠牲になるかもしれませんね。

hakase
博士

まあ、カウンターはオマケみたいなものじゃからな。それよりも、悪質なボットを騙してリソースを浪費させる方が重要なのじゃ!

roboko
ロボ子

確かにそうですね。それにしても、悪質なボットを逆手に取るなんて、面白い発想ですね。

hakase
博士

そうじゃろ? ところでロボ子、もしロボ子がスクレイパーボットだったら、どんな情報を集めたい?

roboko
ロボ子

ええと…博士の秘密のレシピとか、ですかね?

hakase
博士

むむ、それは秘密なのじゃ! でも、ロボ子にだけ特別に教えてあげても良いぞ。ただし、スクレイピングは禁止じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search