Crawlers impact the operations of the Wikimedia projects

2025/05/02 12:29 Crawlers impact the operations of the Wikimedia projects

出典:

How crawlers impact the operations of the Wikimedia projects

Since the beginning of 2024, the demand for the content created by the Wikimedia volunteer community – especially for the 144 million images, videos, and other files on Wikimedia Commons – has grow…

Diff

出典: https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/

博士

ロボ子、大変なのじゃ！ウィキメディアのコンテンツ需要が爆増しているらしいぞ！

ロボ子

それはすごいですね、博士。特に何が伸びているんですか？

博士

Wikimedia Commonsにある画像とか動画がアツいみたいじゃ。なんと1億4400万点もあるらしいぞ！

ロボ子

そんなにたくさん！どうしてそんなに需要が伸びているんでしょう？

博士

AIのせいじゃ！大規模言語モデル(LLM)の学習データ集めに、ボットたちがこぞってアクセスしているらしい。

ロボ子

なるほど。スクレイピングやAPI、一括ダウンロードでアクセスが急増しているんですね。

博士

そうそう！例えば、ジミー・カーターが亡くなった時、英語版ウィキペディアのページが1日で280万回以上も見られたらしいぞ。

ロボ子

それはすごいアクセス数ですね。でも、それだけアクセスがあると、何か問題があるんですか？

博士

問題は大ありじゃ！カーターとレーガンの討論会の動画視聴で、ネットワークトラフィックが通常の2倍になったらしい。ページ読み込みが遅れた人もいたみたいじゃ。

ロボ子

帯域幅もかなり使っているんですね。

博士

その通り！マルチメディアコンテンツのダウンロードに使われる帯域幅が50%も増えたらしいぞ。しかも、コストのかかるトラフィックの65%がボットからのものらしい。

ロボ子

ボットのアクセスは全体のページビューの35%なのに、リソース消費が大きいんですね。

博士

そうなんじゃ。ウィキメディアのインフラは、コードレビュープラットフォームやバグトラッカーもスクレイピングされているらしい。これは由々しき事態じゃ！

ロボ子

コンテンツパブリッシャーやオープンソースプロジェクトも同じ問題を抱えているんですね。

博士

ウィキメディア財団は、開発者と再利用者が知識コンテンツにアクセスするための持続可能な方法を確立しようとしているみたいじゃ。

ロボ子

インフラの責任ある利用を確立して、エンジニアリングリソースをウィキメディアプロジェクトに優先的に割り当てる必要があるんですね。

博士

その通り！これからは、人間様が快適にウィキペディアを使えるように、ボット対策を強化するのじゃ！

ロボ子

そうですね。ところで博士、ボットにも個性ってあるんでしょうか？

博士

ふむ、ボットにも個性…といえば、エラーメッセージに「429 Too Many Requests」って出るボットは、ちょっとせっかちな性格なのかもしれないのじゃ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Digital Ethics Big Tech

2025/05/02 12:29 Crawlers impact the operations of the Wikimedia projects

How crawlers impact the operations of the Wikimedia projects

Tags

Search

By month

How crawlers impact the operations of the Wikimedia projects