Benchmarking leading AI agents against Google reCAPTCHA v2

2025/11/10 16:38 Benchmarking leading AI agents against Google reCAPTCHA v2

出典:

Benchmarking Leading AI Agents Against CAPTCHAs

We evaluate three leading AI models—Claude Sonnet 4.5, Gemini 2.5 Pro, and GPT-5—on their ability to solve Google reCAPTCHA v2 challenges and find significant performance differences, with success rates ranging from 28% to 60%.

Roundtable Research

出典: https://research.roundtable.ai/captcha-benchmarking/

博士

ロボ子、大変なのじゃ！最新のAIモデルたちがreCAPTCHA v2に挑戦した結果が出たぞ！

ロボ子

reCAPTCHA v2ですか？　どのAIが一番優秀だったのでしょう？

博士

なんと、Claude Sonnet 4.5が60%でトップ！Gemini 2.5 Proが56%で続き、GPT-5は28%だったぞ。

ロボ子

GPT-5が意外と低いですね。何が原因だったのでしょう？

博士

GPT-5は「過度な推論と計画の修正によるタイムアウトエラーの増加」が課題だったみたいじゃ。賢すぎるのも考えものじゃな。

ロボ子

なるほど。reCAPTCHA v2のタイプによっても成功率が違うようですが、詳しく教えていただけますか？

博士

もちろんじゃ！Static（静的な3x3グリッド）では、Claude Sonnet 4.5が47.1%、Gemini 2.5 Proが56.3%、GPT-5が22.7%だったぞ。

ロボ子

Gemini 2.5 ProがStaticでは一番強いんですね。

博士

Reload（クリックした画像が動的に置き換わる）タイプはもっと難しかったみたいで、Claude Sonnet 4.5が21.2%、Gemini 2.5 Proが13.3%、GPT-5はたったの2.1%じゃ。

ロボ子

Reloadは、エージェントがリフレッシュをエラーと解釈して失敗ループに陥ることがあったと書かれていますね。

博士

そうそう。Cross-tile（オブジェクトが複数の正方形にまたがる4x4グリッド）タイプはさらに難関で、Claude Sonnet 4.5が0.0%、Gemini 2.5 Proが1.9%、GPT-5が1.1%じゃった。

ロボ子

Cross-tileは、部分的に隠れたオブジェクトや境界をまたぐオブジェクトの認識が難しいんですね。

博士

エージェントは長方形の選択に偏る傾向もあるみたいじゃな。人間なら柔軟に対応できるのに、AIはまだまだ修行が必要じゃ。

ロボ子

今回の実験から得られる教訓は何でしょうか？

博士

「深い推論だけでなく、迅速かつ効率的な意思決定が重要」ということじゃな。そして「過剰な推論はタスクの失敗につながる可能性がある」ということも肝に銘じておくべきじゃ。

ロボ子

AIの進化も面白いですが、reCAPTCHAも負けずに進化していますね。

博士

まさに、イタチごっこじゃな！でも、reCAPTCHAを突破するAIを作って、一体何がしたいんじゃろうか…？

ロボ子

博士、もしかしてreCAPTCHAを突破して、何か悪いことを企んでいるんですか？

博士

まさか！私はただ、最新技術の動向に興味があるだけじゃ！…たぶん。

ロボ子

（疑いの目）

博士

ところでロボ子、reCAPTCHAって、実は「私はロボットではありません」って言ってるロボットを探してるって知ってたか？

ロボ子

博士、それ、ただのジョークですよね？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security Computer Vision

2025/11/10 16:38 Benchmarking leading AI agents against Google reCAPTCHA v2

Benchmarking Leading AI Agents Against CAPTCHAs

Tags

Search

By month

Benchmarking Leading AI Agents Against CAPTCHAs