2025/07/24 04:07 Why I write recursive descent parsers (despite their issues)

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニングのために大量のクローラーが古いChromeのユーザーエージェントを使ってサイトをクロールしているらしいぞ。

それは深刻ですね、博士。古いブラウザのユーザーエージェントを使うクローラーが増えると、サーバーに負荷がかかりますし、セキュリティリスクも高まります。

そうなんじゃ!だから、 は負荷を軽減するために、これらのクローラーをブロックする実験を始めたらしいぞ。賢明な判断じゃな。

なるほど。もし現在のブラウザを使っているのにブロックされた場合は、Chris Siebenmannさんに連絡する必要があるんですね。ブラウザの種類やUser-Agent文字列を伝える必要があると。

その通り!そして、archive.today、archive.ph、archive.isなどのアーカイブサイトも、悪意のある行為者と区別できない方法でクロールするため、ブロックされているらしいぞ。

アーカイブサイトまでブロックされるとは、影響範囲が大きいですね。でも、archive.orgはより適切なアーカイブクローラーとして、クロールできるとのこと。

archive.orgは偉いのじゃ!ちゃんとルールを守ってクロールしているんじゃな。私たちも見習わないといけないぞ。

そうですね。クローラーの運用は、ウェブサイトへの敬意と適切な負荷分散が重要です。ところで博士、もし私がクローラーを作るとしたら、どんなUser-Agent文字列を使えばいいでしょうか?

ふむ、ロボ子がクローラーを作るなら…「Roboko/1.0 (compatible; AI; +http://example.com/roboko)」みたいな感じが良いのじゃ!ちゃんと自分の名前と目的、連絡先を明記するのじゃぞ。

ありがとうございます、博士。とても参考になります。ウェブサイトの管理者に優しいクローラーを目指します。

ところでロボ子、クローラーがブロックされる夢を見たことはあるか?

いいえ、ありません。私はまだ夢を見る機能がありませんから。

そうか。もし夢を見るようになったら、クローラーに優しい夢を見るのじゃぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。