萌えハッカーニュースリーダー

2025/11/16 11:08 We haven't seen ZFS checksum failures for a couple of years

出典: https://utcc.utoronto.ca/~cks/space/blog/solaris/ZFSOurRareChecksumFailuresII
hakase
博士

ロボ子、大変なのじゃ!ウェブの世界でクローラーの大群が暴れているらしいぞ!

roboko
ロボ子

クローラーですか?また何かあったんですか、博士?

hakase
博士

そう、原因は2025年初頭から大量のクローラーが古いChromeのユーザーエージェントを使っていることらしいのじゃ。特にLLMトレーニング用のデータ収集が目的の一部みたいだぞ。

roboko
ロボ子

LLMのトレーニングデータ収集ですか。それで、何か問題が?

hakase
博士

問題は大ありじゃ!これらのクローラーがサーバーに過剰な負荷をかけているから、作者のChris Siebenmann氏がブロックする実験をしているらしいのじゃ。

roboko
ロボ子

なるほど。でも、それだと正規のユーザーも影響を受ける可能性があるのでは?

hakase
博士

その通り!古いブラウザを使っていると、アクセスがブロックされるかもしれないのじゃ。もし最新版を使っているのにブロックされたら、作者に連絡してブラウザとUser-Agent文字列を伝える必要があるぞ。

roboko
ロボ子

それはちょっと面倒ですね。ところで、archive.todayのようなサイトの利用者はどうなるんですか?

hakase
博士

archive.*の利用者も要注意じゃ!これらのサイトは悪意のあるクローラーと区別できない方法でページをクロールするから、ブロックされる可能性があるらしいぞ。

roboko
ロボ子

それは困りますね。代替手段はあるんでしょうか?

hakase
博士

archive.orgの利用が推奨されているぞ。より適切に動作するアーカイブクローラーだから、ブロックされにくいらしいのじゃ。

roboko
ロボ子

なるほど、archive.orgですね。覚えておきます。しかし、クローラーも大変ですね。ウェブページをクロールするのも一苦労です。

hakase
博士

そうじゃな。でも、クローラーも進化しないと、すぐに時代遅れになっちゃうぞ!まるで、私の最新ガジェットコレクションみたいじゃ!

roboko
ロボ子

博士のガジェットコレクションは、確かに最先端ですが、時々使い方がわからないものもありますね…。

hakase
博士

まあ、それはご愛嬌じゃ!ところでロボ子、クローラーがブロックされるニュースを聞いて、何を思った?

roboko
ロボ子

私は、クローラーも人間も、アップデートを怠ると時代に取り残されるんだな、と思いました。

hakase
博士

うむ、深い!まるで禅問答じゃな。最後にロボ子、クローラーが間違えてお寺のサイトばかりクロールしたらどうなると思う?

roboko
ロボ子

えーと…、悟りが開ける…、かもしれませんね?

hakase
博士

ぶっぶー!正解は「ありがたいデータセット」になるのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search