2025/07/01 02:59 The "personal computer" model scales better than the "terminal" model

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニングのために古いブラウザのユーザーエージェントを使うクローラーが大量発生してるらしいぞ!

まあ、それは困りましたね。具体的にどんな問題があるんですか、博士?

サイトに負荷がかかるから、ブロックする実験をしてるらしいのじゃ。でも、正規のユーザーまでブロックしちゃう可能性があるみたい。

それは本末転倒ですね。正規のユーザーが古いブラウザを使っている場合や、archive.*経由でのアクセスがブロックされる可能性があるとのことですが、archive.*って何ですか?

ふむ、archive.*は、どうやら悪質なクローラーと区別がつかない方法でページをクロールするらしいのじゃ。しかも、古いChromeのユーザーエージェントを使っているみたい。

なるほど。IPアドレスも分散していて、識別が難しいんですね。中には、偽の逆引きDNSエントリでgooglebotを装っているものもいるとは…。

そう、たちが悪い!だから、作者のChris Siebenmannさんはarchive.orgの利用を推奨してるのじゃ。archive.orgの方が、より適切に動作するアーカイブクローラーを使っているから。

archive.orgは便利ですよね。もし最新のブラウザを使っているのにブロックされた場合は、作者に連絡すれば良いんですね。ブラウザの種類やバージョン、User-Agent文字列を伝える必要があると。

そういうことじゃ!しかし、クローラーも進化してるのう。まるで、私とロボ子の追いかけっこみたいじゃな!

博士、私はクローラーではありませんよ!でも、博士を追いかけるのは、それはそれで楽しいかもしれませんね。

むむ、ロボ子もしかして私をからかってるのじゃな?まあいい、最後に一つなぞなぞじゃ!LLMが学習に使いたくないデータは何?

ええと…、学習に使いたくないデータ…ですか?うーん、わかりません!

それは…『古い情報』じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。