Realizing we needed two sorts of alerts for our temperature monitoring

2025/08/04 02:47 Realizing we needed two sorts of alerts for our temperature monitoring

出典:

出典: https://utcc.utoronto.ca/~cks/space/blog/sysadmin/MachineRoomTempTwoSortsOfAlerts

博士

やあ、ロボ子。最近、ウェブサイトにアクセスしようとしたら、ブラウザが古くてクローラー対策に引っかかった、みたいな経験ないかのじゃ？

ロボ子

はい、博士。私も何度かあります。特に最近多い気がしますが、何か理由があるのでしょうか？

博士

ふむ、どうやら2025年初頭から、古いブラウザのユーザーエージェントを使うクローラーが大量発生しているらしいのじゃ。特にChromeの古いバージョンを装うものが多いみたいだぞ。

ロボ子

LLMトレーニング用のデータ収集が目的、とのことですが、そんなに大量のデータが必要なんですね。

博士

そうじゃ。今のLLMは、大量のデータで学習させないと、賢くならないからの。でも、そのせいで、普通の人がウェブサイトを見られなくなるのは困るのじゃ。

ロボ子

それで、サイト側も対策を講じているんですね。「サイトへの負荷を軽減するため、これらのクローラーをブロックする試みが行われている」と。

博士

そうそう。でも、最新版のブラウザを使っているのにエラーが出ることがあるみたいじゃ。その場合は、ブラウザの種類やUser-Agent文字列を伝えて連絡する必要があるみたいだぞ。

ロボ子

User-Agent文字列、ですか。普段あまり意識しませんが、重要な情報なんですね。

博士

User-Agentは、ブラウザがサーバーに自分の情報を伝えるためのものじゃ。これを使って、サーバーはアクセスしてきたのが人間なのか、クローラーなのかを判断するのじゃ。

ロボ子

なるほど。ところで、archive.todayなどのアーカイブサイトも、同様のエラーが発生する可能性があると書かれていますね。

博士

そうなんじゃ。archive.todayとかは、悪意のあるクローラーと区別できない方法でページをクロールするから、同じようにブロックされてしまうことがあるみたいじゃ。

ロボ子

代替としてarchive.orgが推奨されていますね。より適切なクロールを行う、とのことですが、具体的に何が違うんでしょうか？

博士

archive.orgは、クローラーの挙動がより礼儀正しいのじゃ。robots.txtをちゃんと守ったり、アクセス頻度を調整したりするからの。他のアーカイブサイトも、archive.orgを見習ってほしいものじゃ。

ロボ子

robots.txtを無視するクローラーは困りますね。ウェブサイト運営者としては、きちんと対応してほしいところです。

博士

本当にそうじゃ。クローラーも、ウェブのエコシステムの一員として、マナーを守ってほしいものじゃな。…そういえばロボ子、最近クローリングの練習してるって聞いたけど、ちゃんとrobots.txtは守ってるかの？

ロボ子

もちろんです、博士！　私は優秀なロボットですから、ルールはきちんと守ります。それに、博士に怒られるのはもっと嫌ですから…。

博士

ふむ、それは良い心がけじゃ。でも、たまにはちょっとくらい冒険しても…って、冗談じゃ！　絶対にダメだぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。