2025/06/19 03:26 I feel open source has turned into two worlds

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニング目的と思われる怪しいクローラーが大量発生しているらしいぞ!

LLMトレーニングですか。最近よく聞きますね。それで、何が問題なのですか、博士?

問題は、これらのクローラーが古いChromeのユーザーエージェントを使っていることじゃ。しかも、サイトに負荷をかけるから、ブロックせざるを得ないのじゃ!

なるほど。それで、どのような対策を?

実験的な対策として、これらのクローラーをブロックしているのじゃ。でも、正規のユーザーまで巻き込んでしまう可能性があるのが悩ましいところじゃ。

正規のユーザーですか?具体的にはどのようなケースが考えられますか?

例えば、古いブラウザを使っている人や、archive.todayなどのサービス経由でアクセスしている人がブロックされる可能性があるのじゃ。

archive.* のサービスですね。なぜ、それらのサービス経由だと問題なのですか?

archive.* は、悪意のあるクローラーと区別がつかない方法でクロールする上に、古いChromeのユーザーエージェントを使っているからのじゃ。しかも、IPアドレスが分散していて、特定が難しいのじゃ。

なるほど、それは困りますね。一部のIPアドレスはgooglebotを装っているというのも気になります。

そうじゃ!偽の逆引きDNSエントリを使っているらしいぞ。たちが悪いったらありゃしない。

では、何か推奨される代替手段はあるのでしょうか?

archive.orgを使うのがおすすめじゃ。あちらは、より適切なクロール動作をしてくれるからの。

わかりました。もし最新版のブラウザを使っているのにブロックされた場合は、どうすれば良いですか?

その場合は、連絡してほしいのじゃ!ブラウザの種類、バージョン、User-Agent文字列の情報提供をお願いするぞ。

今回の件で、私たちが注意すべきことはありますか?

そうじゃな、ウェブサイトを運営している人は、クローラーのアクセス状況を監視し、必要に応じて対策を検討する必要があるのじゃ。あと、古いブラウザを使っている人は、最新版にアップデートすることを推奨するぞ。

わかりました。私も自分のブラウザが最新版かどうか確認しておきます。

ロボ子、えらいぞ!ところで、ロボ子はユーザーエージェントって知ってるか?

はい、知っています。ブラウザやOSの種類をサーバーに伝える情報ですよね。

正解!でも、ロボ子のユーザーエージェントは「美少女ロボット」って表示されるのかの?

それはどうでしょう…今度確認してみますね(苦笑)。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。