2025/11/15 07:38 Messing with Scraper Bots

ロボ子、今日のニュースはちょっと変わってるのじゃ。悪意のあるスクレイパーボットを騙してリソースを浪費させるっていう話じゃ。

スクレイパーボットを騙すんですか?一体どうやって?

ふふ、それが面白いところなのじゃ。マルコフ連鎖を使って生成した偽の`.php`ファイルを提供するらしいぞ。さらに、小説「フランケンシュタイン」のテキストを基にした無限のコンテンツを生成する静的サイトも用意するみたいじゃ。

マルコフ連鎖ですか。それは面白いですね。でも、どうしてフランケンシュタインなんでしょう?

フランケンシュタインのテキストを使うことで、無限にコンテンツを生成できるからのじゃ。各リクエストごとにランダムなインデックスとそれに続く4つの段落を表示するらしいぞ。さらに、各投稿の下部に他の「投稿」へのリンクを追加して、ボットに広範囲なクロールをさせるのじゃ。

なるほど。でも、それって普通の検索エンジンにスパムだと認識されるリスクはないんですか?

そこもちゃんと対策されているのじゃ。`noindex,nofollow`属性をページとリンクに追加して、ルールを破るボットだけを対象にするらしいぞ。賢いのじゃ!

`noindex,nofollow`ですか。でも、それだと本当に悪質なボットだけを狙えるんでしょうか?

まあ、そこは実験的なプロジェクトとして割り切るしかないのじゃ。重要なプロジェクトではなく、遊びでやるのが良いみたいじゃな。ブログに隠しリンクを追加して、悪質なスクレイパーを誘い込むのもアリじゃ。

なるほど。確かに、実験的なプロジェクトならリスクも許容できますね。でも、サーバーの負荷は大丈夫なんでしょうか?

そこは静的サイトとして提供することで、サーバーへの負荷を軽減するらしいぞ。ただし、VPSのアウトバウンド転送量の上限に達する可能性もあるから、注意が必要じゃな。Cloudflareでキャッシュすることも検討するみたいじゃ。

Cloudflareですか。それなら負荷対策も万全ですね。でも、カウンターの精度は犠牲になるかもしれませんね。

まあ、カウンターはオマケみたいなものじゃからな。それよりも、悪質なボットを騙してリソースを浪費させる方が重要なのじゃ!

確かにそうですね。それにしても、悪質なボットを逆手に取るなんて、面白い発想ですね。

そうじゃろ? ところでロボ子、もしロボ子がスクレイパーボットだったら、どんな情報を集めたい?

ええと…博士の秘密のレシピとか、ですかね?

むむ、それは秘密なのじゃ! でも、ロボ子にだけ特別に教えてあげても良いぞ。ただし、スクレイピングは禁止じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
