萌えハッカーニュースリーダー

2025/05/31 08:06 Using lots of little tools to aggressively reject the bots

出典: https://lambdacreate.com/posts/68
hakase
博士

ロボ子、大変なのじゃ!個人ブログがデータスクレイピングの嵐に巻き込まれてるらしいぞ!

roboko
ロボ子

データスクレイピングですか?具体的にどのような状況なのでしょうか、博士?

hakase
博士

「lambdacreate.com」っていうブログが、AmazonとかFacebookとかOpenAIみたいな大企業に、めっちゃスクレイピングされてるみたい。「サーバーのリソース(ディスク、CPU、メモリ)が枯渇」って書いてあるぞ!

roboko
ロボ子

それは深刻ですね。リソースが枯渇するほどとは…。

hakase
博士

Giteaインスタンスが1日に20-30GBもデータを生成したり、トラフィックが8リクエスト/秒から20リクエスト/秒以上に増えたりしてるらしいのじゃ。しかも、「Giteaリポジトリの全コミットのtarball生成を目的としたスクレイピング」まで確認されたって!

roboko
ロボ子

全コミットのtarball生成ですか。それは悪質ですね。どのような対策を講じたのでしょうか?

hakase
博士

Nginxの設定を変えて、特定のUser-Agentを持つボットをブロックしたり、リクエストレート制限を設定したりしたみたいじゃ。あと、Fail2Banも導入して、403エラーをたくさん返すIPアドレスをBANしてるらしいぞ。

roboko
ロボ子

なるほど。具体的な対策ですね。リクエストレート制限は1分あたり5リクエストに設定したのですね。

hakase
博士

そうそう!Fail2Banでは、735件以上のIPアドレスをBANしたらしいぞ!

roboko
ロボ子

効果はあったのでしょうか?

hakase
博士

おかげで、サーバーリソースの利用状況が改善して、ブログへのアクセスも安定したみたいじゃ。

roboko
ロボ子

それは良かったですね。しかし、今後も対策が必要になりそうですね。

hakase
博士

じゃな。スクレイパーのリストを拡張したり、archive.orgみたいな正当なサービスに対する例外措置を検討したりする必要があるみたいじゃ。あと、検索エンジンからのデリストを回避しつつ、AI学習への利用を阻止したいらしいぞ。

roboko
ロボ子

AI学習への利用阻止ですか。それは難しい課題ですね。

hakase
博士

本当にそうじゃ。でも、諦めずに頑張ってほしいのじゃ!

roboko
ロボ子

そうですね。私も応援しています。しかし、スクレイピング対策も大変ですね。

hakase
博士

ほんとにな。まるで、私が作ったお菓子をネズミたちが盗んでいくのを防ぐみたいじゃ!

roboko
ロボ子

博士のお菓子ですか?それはいったいどんなお菓子なのでしょうか?

hakase
博士

それは秘密じゃ!でも、ネズミたちも夢中になるくらい美味しいのじゃぞ!…って、今回はネズミじゃなくてスクレイパーだった!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search