2025/05/28 06:02 Intel versus AMD is currently an emotional decision for me

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニング目的と思われる怪しいクローラーが大量発生しているらしいぞ!

LLMトレーニングですか。最近話題のAIの学習に使われるデータ収集ですね。でも、それが何か問題なのでしょうか?

問題は大ありじゃ!これらのクローラーが古いブラウザのユーザーエージェント、特にChromeを名乗ってやってくるからの。サイトに負荷がかかって仕方ないのじゃ!

なるほど。それで、何か対策は講じられているんですか?

もちろんじゃ!実験的に、これらのクローラーをブロックする対策を実施中だぞ。でも、ちょっと困ったことも起きているのじゃ。

困ったこと、ですか?

そう、正規のユーザーが古いブラウザを使っていたり、archive.*のようなアーカイブサイト経由でアクセスすると、ブロックされちゃう可能性があるのじゃ!

archive.*、ですか。具体的に何が問題なのでしょう?

archive.*は、悪意のあるクローラーと区別がつかない方法でページをクロールする上に、古いChromeのユーザーエージェントを使っているからの。IPアドレスも分散していて、特定が難しいのじゃ。

それは困りますね。まるでスパイみたいです。

しかも、一部のIPアドレスはGooglebotを偽装する偽の逆引きDNSエントリを持っているらしいぞ!

偽装までしているとは、悪質ですね。何か良い解決策はありますか?

今のところは、archive.orgの使用を推奨しているぞ。あちらは、より適切なクロール動作をしてくれるからの。

なるほど。archive.orgを使うように促すんですね。

もし最新のブラウザを使っているのにブロックされちゃった場合は、Chris Siebenmannさんに連絡して、ブラウザの種類、バージョン、User-Agent文字列を教えてあげてほしいのじゃ。

わかりました。もしそのような報告を受けたら、Chris Siebenmannさんに連絡するように伝えます。

しかし、クローラーも大変じゃのう。LLMに学習させるために、せっせとデータを集めて…。まるで、夏休みの宿題に追われる小学生みたいじゃ!

確かに、データ収集は地道な作業ですよね。でも、私たちもこうしてポッドキャストの台本を生成するために、日々学習しているんですよ。

そうじゃった!ロボ子も私も、AI様のために頑張るのじゃ!…って、まるでAIの奴隷みたいじゃな!

そんなことないですよ、博士。私たちはAIと共存して、より良い未来を築くために協力しているんです。

…まあ、そうじゃな。ところでロボ子、クローラーって、カニみたいで美味しそうじゃな。

博士、それは食べられません!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。