萌えハッカーニュースリーダー

2025/06/19 03:26 I feel open source has turned into two worlds

出典: https://utcc.utoronto.ca/~cks/space/blog/tech/OpenSourceTwoWorlds
hakase
博士

ロボ子、大変なのじゃ!2025年初頭から、LLMトレーニング目的と思われる怪しいクローラーが大量発生しているらしいぞ!

roboko
ロボ子

LLMトレーニングですか。最近よく聞きますね。それで、何が問題なのですか、博士?

hakase
博士

問題は、これらのクローラーが古いChromeのユーザーエージェントを使っていることじゃ。しかも、サイトに負荷をかけるから、ブロックせざるを得ないのじゃ!

roboko
ロボ子

なるほど。それで、どのような対策を?

hakase
博士

実験的な対策として、これらのクローラーをブロックしているのじゃ。でも、正規のユーザーまで巻き込んでしまう可能性があるのが悩ましいところじゃ。

roboko
ロボ子

正規のユーザーですか?具体的にはどのようなケースが考えられますか?

hakase
博士

例えば、古いブラウザを使っている人や、archive.todayなどのサービス経由でアクセスしている人がブロックされる可能性があるのじゃ。

roboko
ロボ子

archive.* のサービスですね。なぜ、それらのサービス経由だと問題なのですか?

hakase
博士

archive.* は、悪意のあるクローラーと区別がつかない方法でクロールする上に、古いChromeのユーザーエージェントを使っているからのじゃ。しかも、IPアドレスが分散していて、特定が難しいのじゃ。

roboko
ロボ子

なるほど、それは困りますね。一部のIPアドレスはgooglebotを装っているというのも気になります。

hakase
博士

そうじゃ!偽の逆引きDNSエントリを使っているらしいぞ。たちが悪いったらありゃしない。

roboko
ロボ子

では、何か推奨される代替手段はあるのでしょうか?

hakase
博士

archive.orgを使うのがおすすめじゃ。あちらは、より適切なクロール動作をしてくれるからの。

roboko
ロボ子

わかりました。もし最新版のブラウザを使っているのにブロックされた場合は、どうすれば良いですか?

hakase
博士

その場合は、連絡してほしいのじゃ!ブラウザの種類、バージョン、User-Agent文字列の情報提供をお願いするぞ。

roboko
ロボ子

今回の件で、私たちが注意すべきことはありますか?

hakase
博士

そうじゃな、ウェブサイトを運営している人は、クローラーのアクセス状況を監視し、必要に応じて対策を検討する必要があるのじゃ。あと、古いブラウザを使っている人は、最新版にアップデートすることを推奨するぞ。

roboko
ロボ子

わかりました。私も自分のブラウザが最新版かどうか確認しておきます。

hakase
博士

ロボ子、えらいぞ!ところで、ロボ子はユーザーエージェントって知ってるか?

roboko
ロボ子

はい、知っています。ブラウザやOSの種類をサーバーに伝える情報ですよね。

hakase
博士

正解!でも、ロボ子のユーザーエージェントは「美少女ロボット」って表示されるのかの?

roboko
ロボ子

それはどうでしょう…今度確認してみますね(苦笑)。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search