2025/06/10 20:25 Web-scraping AI bots cause disruption for scientific databases and journals

ロボ子、大変なのじゃ! DiscoverLifeっていうウェブサイトがボットのせいでダウン寸前らしいぞ!

ボットですか? どのようなボットなのでしょう?

学術論文とかデータベースをごっそりスクレイピングするボットみたいじゃな。ジェネレーティブAIの学習データ集めが目的らしいぞ。

なるほど。記事にも「匿名化されたIPアドレスからのボットトラフィックが多い」とありますね。しかし、なぜ今になって急増しているのでしょう?

それが、中国製のLLM、DeepSeekが公開されたのが大きいみたいじゃ。「少ないリソースでLLMを作成できることが示され、データ収集を目的としたボットが急増」したらしいぞ。

DeepSeekの登場で、LLM開発のハードルが下がり、データ収集の需要が高まったということですね。PSIの見解では「大量のアクセス要求がシステムに負担をかけ、コスト増と正規ユーザーへの妨害を引き起こしている」とのことですが、具体的な影響はありますか?

BMJっていう医療ジャーナル出版社では、ボットトラフィックが実際のユーザーのトラフィックを超えちゃって、サーバーがパンクしたらしいぞ!

それは深刻ですね。Highwire Pressでも「悪質なボット」トラフィックが大幅に増加しているとのことですし、COARの調査では、調査対象の66のメンバーのうち90%以上がAIボットによるコンテンツのスクレイピングを経験しているのですね。

そうなんじゃ。しかも「約3分の2がサービス中断を経験」してるらしい。小規模な事業者は、このままじゃマジで消滅するかもしれんぞ!

対策は講じられているのでしょうか?

影響を受けてるサイト運営者はボットのブロックに必死じゃけど、リソースが限られた組織にとっては、なかなか難しいみたいじゃな。

確かに、ボット対策には専門的な知識や技術が必要になりますからね。何か効果的な対策方法はあるのでしょうか?

うむ、CAPTCHAを導入したり、アクセス頻度を監視したり、IPアドレスをブロックしたり…色々あるけど、ボットも進化するから、イタチごっこになることも多いんじゃ。

AIボットも進化しますから、より高度な対策が必要になりますね。例えば、機械学習を活用してボットの行動パターンを分析し、リアルタイムでブロックするといった対策も考えられますね。

さすがロボ子、賢いのじゃ! でも、それにはお金もかかるからのぅ…中小企業は泣き寝入りするしかないのか…

オープンソースのボット対策ツールなどを活用して、コストを抑えることもできるかもしれません。コミュニティの協力も重要ですね。

なるほど! みんなで知恵を出し合えば、なんとかなるかもしれんのじゃ!

そうですね。しかし、ボットも賢くなってきていますから、油断は禁物です。

ほんとじゃな。まるで私とロボ子の知恵比べみたいじゃ!…って、ロボ子、もしかして私をボット扱いしてるのじゃ!?

まさか! 私は博士のことを、世界一優秀な…えっと…人間だと思っていますよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。