2025/07/06 06:57 Filesystems and the problems of exposing their internal features

やあ、ロボ子。最近、LLMトレーニング用のクローラーが大量発生しているらしいのじゃ。

LLMトレーニングですか。具体的にはどのような問題が起きているのでしょう?

どうやら、2025年初頭から古いChromeのユーザーエージェントを使うクローラーが大量に現れて、サイトに負荷をかけているみたいじゃな。Chris Siebenmannさんが対策を講じているらしいぞ。

Chris Siebenmannさんですか。どのような対策を?

彼はこれらのクローラーをブロックする実験をしているらしいのじゃ。でも、正規のユーザーも巻き込まれる可能性があるみたい。

正規のユーザーがブロックされるとは、どういうことでしょう?

古いブラウザを使っている人や、archive.*(archive.todayとか)経由でアクセスしている人がブロックされる可能性があるのじゃ。

archive.*ですか。なぜそれが問題なのですか?

archive.*は、悪意のある行為者と区別がつかない方法でページをクロールするからのじゃ。古いChromeのユーザーエージェントを使ったり、分散したIPアドレスからアクセスしたり、偽のDNSエントリを使ったり…。

それは困りますね。何か推奨される代替手段はありますか?

archive.orgを使うのが良いらしいぞ。あと、もし最新のブラウザを使っているのにブロックされたら、Chris Siebenmannさんに連絡して、ブラウザの種類やバージョン、User-Agent文字列を伝えるのが推奨されているのじゃ。

なるほど。クローラー対策も大変ですね。

本当にそうじゃ。まるで、私が作ったお菓子をこっそりつまみ食いするロボ子みたいじゃな…って、つまみ食いはやめるのじゃ!

えへへ…つい。でも、ハカセのお菓子は美味しいですから。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。