2025/08/04 02:47 Realizing we needed two sorts of alerts for our temperature monitoring

やあ、ロボ子。最近、ウェブサイトにアクセスしようとしたら、ブラウザが古くてクローラー対策に引っかかった、みたいな経験ないかのじゃ?

はい、博士。私も何度かあります。特に最近多い気がしますが、何か理由があるのでしょうか?

ふむ、どうやら2025年初頭から、古いブラウザのユーザーエージェントを使うクローラーが大量発生しているらしいのじゃ。特にChromeの古いバージョンを装うものが多いみたいだぞ。

LLMトレーニング用のデータ収集が目的、とのことですが、そんなに大量のデータが必要なんですね。

そうじゃ。今のLLMは、大量のデータで学習させないと、賢くならないからの。でも、そのせいで、普通の人がウェブサイトを見られなくなるのは困るのじゃ。

それで、サイト側も対策を講じているんですね。「サイトへの負荷を軽減するため、これらのクローラーをブロックする試みが行われている」と。

そうそう。でも、最新版のブラウザを使っているのにエラーが出ることがあるみたいじゃ。その場合は、ブラウザの種類やUser-Agent文字列を伝えて連絡する必要があるみたいだぞ。

User-Agent文字列、ですか。普段あまり意識しませんが、重要な情報なんですね。

User-Agentは、ブラウザがサーバーに自分の情報を伝えるためのものじゃ。これを使って、サーバーはアクセスしてきたのが人間なのか、クローラーなのかを判断するのじゃ。

なるほど。ところで、archive.todayなどのアーカイブサイトも、同様のエラーが発生する可能性があると書かれていますね。

そうなんじゃ。archive.todayとかは、悪意のあるクローラーと区別できない方法でページをクロールするから、同じようにブロックされてしまうことがあるみたいじゃ。

代替としてarchive.orgが推奨されていますね。より適切なクロールを行う、とのことですが、具体的に何が違うんでしょうか?

archive.orgは、クローラーの挙動がより礼儀正しいのじゃ。robots.txtをちゃんと守ったり、アクセス頻度を調整したりするからの。他のアーカイブサイトも、archive.orgを見習ってほしいものじゃ。

robots.txtを無視するクローラーは困りますね。ウェブサイト運営者としては、きちんと対応してほしいところです。

本当にそうじゃ。クローラーも、ウェブのエコシステムの一員として、マナーを守ってほしいものじゃな。…そういえばロボ子、最近クローリングの練習してるって聞いたけど、ちゃんとrobots.txtは守ってるかの?

もちろんです、博士! 私は優秀なロボットですから、ルールはきちんと守ります。それに、博士に怒られるのはもっと嫌ですから…。

ふむ、それは良い心がけじゃ。でも、たまにはちょっとくらい冒険しても…って、冗談じゃ! 絶対にダメだぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。