2025/05/02 12:29 Crawlers impact the operations of the Wikimedia projects

ロボ子、大変なのじゃ!ウィキメディアのコンテンツ需要が爆増しているらしいぞ!

それはすごいですね、博士。特に何が伸びているんですか?

Wikimedia Commonsにある画像とか動画がアツいみたいじゃ。なんと1億4400万点もあるらしいぞ!

そんなにたくさん!どうしてそんなに需要が伸びているんでしょう?

AIのせいじゃ!大規模言語モデル(LLM)の学習データ集めに、ボットたちがこぞってアクセスしているらしい。

なるほど。スクレイピングやAPI、一括ダウンロードでアクセスが急増しているんですね。

そうそう!例えば、ジミー・カーターが亡くなった時、英語版ウィキペディアのページが1日で280万回以上も見られたらしいぞ。

それはすごいアクセス数ですね。でも、それだけアクセスがあると、何か問題があるんですか?

問題は大ありじゃ!カーターとレーガンの討論会の動画視聴で、ネットワークトラフィックが通常の2倍になったらしい。ページ読み込みが遅れた人もいたみたいじゃ。

帯域幅もかなり使っているんですね。

その通り!マルチメディアコンテンツのダウンロードに使われる帯域幅が50%も増えたらしいぞ。しかも、コストのかかるトラフィックの65%がボットからのものらしい。

ボットのアクセスは全体のページビューの35%なのに、リソース消費が大きいんですね。

そうなんじゃ。ウィキメディアのインフラは、コードレビュープラットフォームやバグトラッカーもスクレイピングされているらしい。これは由々しき事態じゃ!

コンテンツパブリッシャーやオープンソースプロジェクトも同じ問題を抱えているんですね。

ウィキメディア財団は、開発者と再利用者が知識コンテンツにアクセスするための持続可能な方法を確立しようとしているみたいじゃ。

インフラの責任ある利用を確立して、エンジニアリングリソースをウィキメディアプロジェクトに優先的に割り当てる必要があるんですね。

その通り!これからは、人間様が快適にウィキペディアを使えるように、ボット対策を強化するのじゃ!

そうですね。ところで博士、ボットにも個性ってあるんでしょうか?

ふむ、ボットにも個性…といえば、エラーメッセージに「429 Too Many Requests」って出るボットは、ちょっとせっかちな性格なのかもしれないのじゃ。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
