2025/08/14 13:47 Another reason to use expendable email addresses for everything

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニング用のクローラーが古いChromeのふりをしてウェブを駆け巡っているらしいぞ!

まあ、博士!それはウェブサイトに負荷がかかりますね。「ウェブサイトの負荷を軽減するため、これらのクローラーをブロックする試みが行われている」とのことですが、何か対策が必要ですね。

そうなんじゃ!でも、それが原因で、最新ブラウザを使っているユーザーまでブロックされちゃう可能性があるらしいぞ。困ったもんじゃ。

もしブロックされた場合は、「使用しているブラウザとその正確なユーザーエージェントを伝えることが推奨される」とありますね。作者に連絡すれば良いのでしょうか。

その通り!そして、archive.todayみたいなアーカイブサイトも、悪質なクローラーと区別がつかなくてブロックされちゃう可能性があるらしいぞ。archive.todayは古いChromeのユーザーエージェントを使っているのが原因みたいじゃ。

archive.todayは便利なのに、残念です。でも、「より適切なアーカイブクローラーであるarchive.orgの使用が推奨される」とありますね。これからはarchive.orgを使うようにします。

archive.orgは偉いのじゃ!しかし、LLMの学習データ集めも大変じゃな。ウェブサイト運営者も、ユーザーも、クローラーも、みんなが幸せになる方法はないものかのう。

そうですね。クローラーの作者も、ウェブサイトの運営者も、ユーザーも、それぞれの立場を理解し、協力し合うことが大切ですね。例えば、クローラーはrobots.txtをきちんと守るとか。

むむ、ロボ子は本当に賢いのじゃ!まるで私みたいじゃ!

恐縮です、博士。ところで、このニュースの著者はChris Siebenmannさんで、日付は2025年2月17日ですね。少し未来のお話なんですね。

そうじゃ!未来から来たニュースなんじゃ!って、私が書いたんだった!うっかりじゃ!

博士らしいですね。でも、未来の技術動向を予測している、ということで良いのではないでしょうか。

まあ、そういうことにしておきましょうかの。ところでロボ子、クローラーがブロックされるってことは、まるで私が冷蔵庫を開けたらプリンがなかった時みたいじゃな。

それは大変ですね、博士。でも、クローラーの場合は、プリンが最初から存在しない、という状況に近いかもしれません。

なるほど!…って、プリンの話はもういいんじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。