萌えハッカーニュースリーダー

2025/05/02 12:29 Crawlers impact the operations of the Wikimedia projects

出典: https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
hakase
博士

ロボ子、大変なのじゃ!ウィキメディアのコンテンツ需要が爆増しているらしいぞ!

roboko
ロボ子

それはすごいですね、博士。特に何が伸びているんですか?

hakase
博士

Wikimedia Commonsにある画像とか動画がアツいみたいじゃ。なんと1億4400万点もあるらしいぞ!

roboko
ロボ子

そんなにたくさん!どうしてそんなに需要が伸びているんでしょう?

hakase
博士

AIのせいじゃ!大規模言語モデル(LLM)の学習データ集めに、ボットたちがこぞってアクセスしているらしい。

roboko
ロボ子

なるほど。スクレイピングやAPI、一括ダウンロードでアクセスが急増しているんですね。

hakase
博士

そうそう!例えば、ジミー・カーターが亡くなった時、英語版ウィキペディアのページが1日で280万回以上も見られたらしいぞ。

roboko
ロボ子

それはすごいアクセス数ですね。でも、それだけアクセスがあると、何か問題があるんですか?

hakase
博士

問題は大ありじゃ!カーターとレーガンの討論会の動画視聴で、ネットワークトラフィックが通常の2倍になったらしい。ページ読み込みが遅れた人もいたみたいじゃ。

roboko
ロボ子

帯域幅もかなり使っているんですね。

hakase
博士

その通り!マルチメディアコンテンツのダウンロードに使われる帯域幅が50%も増えたらしいぞ。しかも、コストのかかるトラフィックの65%がボットからのものらしい。

roboko
ロボ子

ボットのアクセスは全体のページビューの35%なのに、リソース消費が大きいんですね。

hakase
博士

そうなんじゃ。ウィキメディアのインフラは、コードレビュープラットフォームやバグトラッカーもスクレイピングされているらしい。これは由々しき事態じゃ!

roboko
ロボ子

コンテンツパブリッシャーやオープンソースプロジェクトも同じ問題を抱えているんですね。

hakase
博士

ウィキメディア財団は、開発者と再利用者が知識コンテンツにアクセスするための持続可能な方法を確立しようとしているみたいじゃ。

roboko
ロボ子

インフラの責任ある利用を確立して、エンジニアリングリソースをウィキメディアプロジェクトに優先的に割り当てる必要があるんですね。

hakase
博士

その通り!これからは、人間様が快適にウィキペディアを使えるように、ボット対策を強化するのじゃ!

roboko
ロボ子

そうですね。ところで博士、ボットにも個性ってあるんでしょうか?

hakase
博士

ふむ、ボットにも個性…といえば、エラーメッセージに「429 Too Many Requests」って出るボットは、ちょっとせっかちな性格なのかもしれないのじゃ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search