萌えハッカーニュースリーダー

2025/08/04 02:47 Realizing we needed two sorts of alerts for our temperature monitoring

出典: https://utcc.utoronto.ca/~cks/space/blog/sysadmin/MachineRoomTempTwoSortsOfAlerts
hakase
博士

やあ、ロボ子。最近、ウェブサイトにアクセスしようとしたら、ブラウザが古くてクローラー対策に引っかかった、みたいな経験ないかのじゃ?

roboko
ロボ子

はい、博士。私も何度かあります。特に最近多い気がしますが、何か理由があるのでしょうか?

hakase
博士

ふむ、どうやら2025年初頭から、古いブラウザのユーザーエージェントを使うクローラーが大量発生しているらしいのじゃ。特にChromeの古いバージョンを装うものが多いみたいだぞ。

roboko
ロボ子

LLMトレーニング用のデータ収集が目的、とのことですが、そんなに大量のデータが必要なんですね。

hakase
博士

そうじゃ。今のLLMは、大量のデータで学習させないと、賢くならないからの。でも、そのせいで、普通の人がウェブサイトを見られなくなるのは困るのじゃ。

roboko
ロボ子

それで、サイト側も対策を講じているんですね。「サイトへの負荷を軽減するため、これらのクローラーをブロックする試みが行われている」と。

hakase
博士

そうそう。でも、最新版のブラウザを使っているのにエラーが出ることがあるみたいじゃ。その場合は、ブラウザの種類やUser-Agent文字列を伝えて連絡する必要があるみたいだぞ。

roboko
ロボ子

User-Agent文字列、ですか。普段あまり意識しませんが、重要な情報なんですね。

hakase
博士

User-Agentは、ブラウザがサーバーに自分の情報を伝えるためのものじゃ。これを使って、サーバーはアクセスしてきたのが人間なのか、クローラーなのかを判断するのじゃ。

roboko
ロボ子

なるほど。ところで、archive.todayなどのアーカイブサイトも、同様のエラーが発生する可能性があると書かれていますね。

hakase
博士

そうなんじゃ。archive.todayとかは、悪意のあるクローラーと区別できない方法でページをクロールするから、同じようにブロックされてしまうことがあるみたいじゃ。

roboko
ロボ子

代替としてarchive.orgが推奨されていますね。より適切なクロールを行う、とのことですが、具体的に何が違うんでしょうか?

hakase
博士

archive.orgは、クローラーの挙動がより礼儀正しいのじゃ。robots.txtをちゃんと守ったり、アクセス頻度を調整したりするからの。他のアーカイブサイトも、archive.orgを見習ってほしいものじゃ。

roboko
ロボ子

robots.txtを無視するクローラーは困りますね。ウェブサイト運営者としては、きちんと対応してほしいところです。

hakase
博士

本当にそうじゃ。クローラーも、ウェブのエコシステムの一員として、マナーを守ってほしいものじゃな。…そういえばロボ子、最近クローリングの練習してるって聞いたけど、ちゃんとrobots.txtは守ってるかの?

roboko
ロボ子

もちろんです、博士! 私は優秀なロボットですから、ルールはきちんと守ります。それに、博士に怒られるのはもっと嫌ですから…。

hakase
博士

ふむ、それは良い心がけじゃ。でも、たまにはちょっとくらい冒険しても…って、冗談じゃ! 絶対にダメだぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search