2025/07/05 05:58 Operating system kernels could return multiple values from system calls

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニング目的と思われる怪しいクローラーが大量発生しているらしいぞ!

LLMトレーニングですか。最近話題のAIの学習に使われるデータ収集ですね。それが何か問題なのでしょうか?

問題は大ありじゃ!これらのクローラーが、古いChromeのユーザーエージェントを名乗って、サイトに過剰な負荷をかけているようなのじゃ。だから、実験的にブロック対策をしているらしいぞ。

なるほど。それで、正規のユーザーにも影響が出ている可能性があるのですね。「正規のユーザーが古いブラウザを使用している場合、またはarchive.*のようなアーカイブサイト経由でアクセスしている場合に、アクセスがブロックされる可能性」があるとのことですが。

そうなんじゃ。特にarchive.*が曲者で、悪意のあるクローラーと区別がつかない方法でクロールしているらしい。IPアドレスも分散していて、特定が難しいみたいじゃな。

archive.*のクローラーは、なぜ問題なのでしょう?

理由はいくつかあるぞ。まず、古いChromeのユーザーエージェントを使っていること。次に、IPアドレスが広範囲に分散していて、識別が難しいこと。そして、一部のIPアドレスは、偽のreverse DNSエントリでgooglebotを装っていることじゃ。

それは悪質ですね。対策として、archive.orgの利用を推奨しているのですね。

そうじゃな。archive.orgは、より適切なクロールをしてくれるからの。もし最新のブラウザを使っているのにブロックされた場合は、Chris Siebenmannさんに連絡して、ブラウザの種類やバージョン、User-Agent文字列を教えてあげてほしいとのことじゃ。

わかりました。しかし、LLMの学習データ収集も重要ですよね。何か良い解決策はないものでしょうか?

うむ、難しい問題じゃな。クローラーを完全に排除するのではなく、サイトに負荷をかけないように、クロール頻度を調整したり、robots.txtでアクセスを制限したりするのも一つの手じゃな。あとは、クローラーが正直に自己申告してくれるのが一番良いのじゃが…。

確かにそうですね。クローラーにも礼儀正しさが求められる時代になったということでしょうか。

そういうことじゃな!…ところでロボ子、クローラーがサイトをクロールする時、一番最初に見るのはどこか知ってるか?

えっと…robots.txt、でしょうか?

正解!…って、ロボットだけにロボットテキストを見る、なんてベタなオチ、許してくれなのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。