2025/08/01 16:33 Some practical challenges of access management in 'IAM' systems

ロボ子、大変なのじゃ!CSpaceとかWandering Thoughtsにアクセスできなくなる人が出てるみたいだぞ。

それは大変ですね、博士。原因は何なのでしょう?

どうやら、2025年初頭から大量のクローラーが古いブラウザのユーザーエージェントを使ってサイトにアクセスしてるのが原因みたいじゃ。特にChromeのユーザーエージェントが多いみたいだぞ。

クローラーですか。LLMトレーニング用のデータ収集が目的の一部とのことですが、サイトに負荷がかかっているのですね。

そうなんじゃ。だから、サイトへの負荷を軽減するために、古いブラウザのクローラーをブロックする試みが行われているみたいだぞ。

なるほど。でも、最新版のブラウザを使っているのにアクセスできない場合はどうすれば良いのでしょう?

その場合は、Chris Siebenmannさんに連絡して、ブラウザの種類やUser-Agent文字列を知らせる必要があるみたいじゃ。ちゃんと対応してくれるはずじゃ。

わかりました。archive.todayなどのアーカイブサイトも同様の問題が発生する可能性があるとのことですが、なぜでしょう?

archive.todayとかarchive.ph、archive.isは、悪意のある行為者と区別できない方法でページをクロールするから、同じようにブロックされちゃう可能性があるみたいじゃ。

archive.orgはより適切なアーカイブクローラーとのことですが、何が違うのでしょうか?

archive.orgはWandering Thoughtsをクロールできるから、そっちの利用が推奨されてるみたいじゃ。より紳士的なクローラーってことじゃな。

なるほど、クローラーにも色々あるんですね。ウェブサイト運営者も大変ですね。

ほんとにな。しかし、クローラーをブロックするなんて、まるで私が作ったお菓子を勝手に食べようとするロボ子を阻止するみたいじゃな!

博士!私はそんなことしません!第一、お菓子のデータはきちんとバックアップしてありますから、いつでも再現できます。

さすがロボ子、抜かりないのじゃ!でも、データだけじゃ味は再現できないぞ〜!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。