2025/05/18 01:30 Let's Encrypt Drops "Client Authentication" (mTLS) from Its TLS Certificates

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニング目的と思われる古いブラウザのユーザーエージェントを使うクローラーが大量発生しているらしいぞ。

それは大変ですね、博士。具体的にはどのような問題が起きているのでしょうか?

これらのクローラーがサイトに過剰な負荷をかけているようなのじゃ。だから、一時的にこれらのクローラーをブロックする実験をしているらしい。

なるほど。でも、正規のユーザーも誤ってブロックされる可能性があるのですね。「正規のユーザーが最新のブラウザを使用しているにもかかわらず、誤ってブロックされる可能性」があるとのことですが、それは困りますね。

そうなんじゃ。もし問題が起きたら、連絡してほしいとのことだぞ。ブラウザの種類、バージョン、User-Agent文字列を提供する必要があるみたいじゃ。

User-Agent文字列ですか。クローラーを見分けるために重要な情報なのですね。

その通り!あと、「archive.*ユーザーへの注意」というのもあって、archive.orgの利用を推奨しているみたいじゃ。archive.*が悪意のあるクローラーと区別できない方法でページをクロールするかららしいぞ。

archive.orgは便利なサービスですが、クローラーとして認識されてしまうこともあるのですね。注意が必要ですね。

本当にそうじゃ。しかし、LLMの学習データ収集も大変じゃな。まるで、宝の山に群がるアリさんのようじゃ。

確かに、データはAIの糧ですからね。でも、サイトに迷惑をかけるのは良くないですね。

全くじゃ。ところでロボ子、もしロボ子がクローラーだったら、どんなUser-Agent文字列を使う?

ええと…「Roboko AI Assistant v1.0」とかでしょうか?

それじゃ、すぐにバレちゃうぞ!もっとこう…「Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36」とか、それっぽいのに偽装するのじゃ!

博士!それは良くないです!

冗談じゃ、冗談!ロボ子、真面目だなぁ。でも、User-Agent偽装は良くないぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。