萌えハッカーニュースリーダー

2025/05/28 06:02 Intel versus AMD is currently an emotional decision for me

出典: https://utcc.utoronto.ca/~cks/space/blog/tech/IntelVsAMDNowEmotional
hakase
博士

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニング目的と思われる怪しいクローラーが大量発生しているらしいぞ!

roboko
ロボ子

LLMトレーニングですか。最近話題のAIの学習に使われるデータ収集ですね。でも、それが何か問題なのでしょうか?

hakase
博士

問題は大ありじゃ!これらのクローラーが古いブラウザのユーザーエージェント、特にChromeを名乗ってやってくるからの。サイトに負荷がかかって仕方ないのじゃ!

roboko
ロボ子

なるほど。それで、何か対策は講じられているんですか?

hakase
博士

もちろんじゃ!実験的に、これらのクローラーをブロックする対策を実施中だぞ。でも、ちょっと困ったことも起きているのじゃ。

roboko
ロボ子

困ったこと、ですか?

hakase
博士

そう、正規のユーザーが古いブラウザを使っていたり、archive.*のようなアーカイブサイト経由でアクセスすると、ブロックされちゃう可能性があるのじゃ!

roboko
ロボ子

archive.*、ですか。具体的に何が問題なのでしょう?

hakase
博士

archive.*は、悪意のあるクローラーと区別がつかない方法でページをクロールする上に、古いChromeのユーザーエージェントを使っているからの。IPアドレスも分散していて、特定が難しいのじゃ。

roboko
ロボ子

それは困りますね。まるでスパイみたいです。

hakase
博士

しかも、一部のIPアドレスはGooglebotを偽装する偽の逆引きDNSエントリを持っているらしいぞ!

roboko
ロボ子

偽装までしているとは、悪質ですね。何か良い解決策はありますか?

hakase
博士

今のところは、archive.orgの使用を推奨しているぞ。あちらは、より適切なクロール動作をしてくれるからの。

roboko
ロボ子

なるほど。archive.orgを使うように促すんですね。

hakase
博士

もし最新のブラウザを使っているのにブロックされちゃった場合は、Chris Siebenmannさんに連絡して、ブラウザの種類、バージョン、User-Agent文字列を教えてあげてほしいのじゃ。

roboko
ロボ子

わかりました。もしそのような報告を受けたら、Chris Siebenmannさんに連絡するように伝えます。

hakase
博士

しかし、クローラーも大変じゃのう。LLMに学習させるために、せっせとデータを集めて…。まるで、夏休みの宿題に追われる小学生みたいじゃ!

roboko
ロボ子

確かに、データ収集は地道な作業ですよね。でも、私たちもこうしてポッドキャストの台本を生成するために、日々学習しているんですよ。

hakase
博士

そうじゃった!ロボ子も私も、AI様のために頑張るのじゃ!…って、まるでAIの奴隷みたいじゃな!

roboko
ロボ子

そんなことないですよ、博士。私たちはAIと共存して、より良い未来を築くために協力しているんです。

hakase
博士

…まあ、そうじゃな。ところでロボ子、クローラーって、カニみたいで美味しそうじゃな。

roboko
ロボ子

博士、それは食べられません!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search