萌えハッカーニュースリーダー

2025/07/06 06:57 Filesystems and the problems of exposing their internal features

出典: https://utcc.utoronto.ca/~cks/space/blog/tech/FilesystemsNotExposingFeatures
hakase
博士

やあ、ロボ子。最近、LLMトレーニング用のクローラーが大量発生しているらしいのじゃ。

roboko
ロボ子

LLMトレーニングですか。具体的にはどのような問題が起きているのでしょう?

hakase
博士

どうやら、2025年初頭から古いChromeのユーザーエージェントを使うクローラーが大量に現れて、サイトに負荷をかけているみたいじゃな。Chris Siebenmannさんが対策を講じているらしいぞ。

roboko
ロボ子

Chris Siebenmannさんですか。どのような対策を?

hakase
博士

彼はこれらのクローラーをブロックする実験をしているらしいのじゃ。でも、正規のユーザーも巻き込まれる可能性があるみたい。

roboko
ロボ子

正規のユーザーがブロックされるとは、どういうことでしょう?

hakase
博士

古いブラウザを使っている人や、archive.*(archive.todayとか)経由でアクセスしている人がブロックされる可能性があるのじゃ。

roboko
ロボ子

archive.*ですか。なぜそれが問題なのですか?

hakase
博士

archive.*は、悪意のある行為者と区別がつかない方法でページをクロールするからのじゃ。古いChromeのユーザーエージェントを使ったり、分散したIPアドレスからアクセスしたり、偽のDNSエントリを使ったり…。

roboko
ロボ子

それは困りますね。何か推奨される代替手段はありますか?

hakase
博士

archive.orgを使うのが良いらしいぞ。あと、もし最新のブラウザを使っているのにブロックされたら、Chris Siebenmannさんに連絡して、ブラウザの種類やバージョン、User-Agent文字列を伝えるのが推奨されているのじゃ。

roboko
ロボ子

なるほど。クローラー対策も大変ですね。

hakase
博士

本当にそうじゃ。まるで、私が作ったお菓子をこっそりつまみ食いするロボ子みたいじゃな…って、つまみ食いはやめるのじゃ!

roboko
ロボ子

えへへ…つい。でも、ハカセのお菓子は美味しいですから。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search