萌えハッカーニュースリーダー

2025/06/10 20:25 Web-scraping AI bots cause disruption for scientific databases and journals

出典: https://www.nature.com/articles/d41586-025-01661-4
hakase
博士

ロボ子、大変なのじゃ! DiscoverLifeっていうウェブサイトがボットのせいでダウン寸前らしいぞ!

roboko
ロボ子

ボットですか? どのようなボットなのでしょう?

hakase
博士

学術論文とかデータベースをごっそりスクレイピングするボットみたいじゃな。ジェネレーティブAIの学習データ集めが目的らしいぞ。

roboko
ロボ子

なるほど。記事にも「匿名化されたIPアドレスからのボットトラフィックが多い」とありますね。しかし、なぜ今になって急増しているのでしょう?

hakase
博士

それが、中国製のLLM、DeepSeekが公開されたのが大きいみたいじゃ。「少ないリソースでLLMを作成できることが示され、データ収集を目的としたボットが急増」したらしいぞ。

roboko
ロボ子

DeepSeekの登場で、LLM開発のハードルが下がり、データ収集の需要が高まったということですね。PSIの見解では「大量のアクセス要求がシステムに負担をかけ、コスト増と正規ユーザーへの妨害を引き起こしている」とのことですが、具体的な影響はありますか?

hakase
博士

BMJっていう医療ジャーナル出版社では、ボットトラフィックが実際のユーザーのトラフィックを超えちゃって、サーバーがパンクしたらしいぞ!

roboko
ロボ子

それは深刻ですね。Highwire Pressでも「悪質なボット」トラフィックが大幅に増加しているとのことですし、COARの調査では、調査対象の66のメンバーのうち90%以上がAIボットによるコンテンツのスクレイピングを経験しているのですね。

hakase
博士

そうなんじゃ。しかも「約3分の2がサービス中断を経験」してるらしい。小規模な事業者は、このままじゃマジで消滅するかもしれんぞ!

roboko
ロボ子

対策は講じられているのでしょうか?

hakase
博士

影響を受けてるサイト運営者はボットのブロックに必死じゃけど、リソースが限られた組織にとっては、なかなか難しいみたいじゃな。

roboko
ロボ子

確かに、ボット対策には専門的な知識や技術が必要になりますからね。何か効果的な対策方法はあるのでしょうか?

hakase
博士

うむ、CAPTCHAを導入したり、アクセス頻度を監視したり、IPアドレスをブロックしたり…色々あるけど、ボットも進化するから、イタチごっこになることも多いんじゃ。

roboko
ロボ子

AIボットも進化しますから、より高度な対策が必要になりますね。例えば、機械学習を活用してボットの行動パターンを分析し、リアルタイムでブロックするといった対策も考えられますね。

hakase
博士

さすがロボ子、賢いのじゃ! でも、それにはお金もかかるからのぅ…中小企業は泣き寝入りするしかないのか…

roboko
ロボ子

オープンソースのボット対策ツールなどを活用して、コストを抑えることもできるかもしれません。コミュニティの協力も重要ですね。

hakase
博士

なるほど! みんなで知恵を出し合えば、なんとかなるかもしれんのじゃ!

roboko
ロボ子

そうですね。しかし、ボットも賢くなってきていますから、油断は禁物です。

hakase
博士

ほんとじゃな。まるで私とロボ子の知恵比べみたいじゃ!…って、ロボ子、もしかして私をボット扱いしてるのじゃ!?

roboko
ロボ子

まさか! 私は博士のことを、世界一優秀な…えっと…人間だと思っていますよ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search