2025/11/10 16:38 Benchmarking leading AI agents against Google reCAPTCHA v2

ロボ子、大変なのじゃ!最新のAIモデルたちがreCAPTCHA v2に挑戦した結果が出たぞ!

reCAPTCHA v2ですか? どのAIが一番優秀だったのでしょう?

なんと、Claude Sonnet 4.5が60%でトップ!Gemini 2.5 Proが56%で続き、GPT-5は28%だったぞ。

GPT-5が意外と低いですね。何が原因だったのでしょう?

GPT-5は「過度な推論と計画の修正によるタイムアウトエラーの増加」が課題だったみたいじゃ。賢すぎるのも考えものじゃな。

なるほど。reCAPTCHA v2のタイプによっても成功率が違うようですが、詳しく教えていただけますか?

もちろんじゃ!Static(静的な3x3グリッド)では、Claude Sonnet 4.5が47.1%、Gemini 2.5 Proが56.3%、GPT-5が22.7%だったぞ。

Gemini 2.5 ProがStaticでは一番強いんですね。

Reload(クリックした画像が動的に置き換わる)タイプはもっと難しかったみたいで、Claude Sonnet 4.5が21.2%、Gemini 2.5 Proが13.3%、GPT-5はたったの2.1%じゃ。

Reloadは、エージェントがリフレッシュをエラーと解釈して失敗ループに陥ることがあったと書かれていますね。

そうそう。Cross-tile(オブジェクトが複数の正方形にまたがる4x4グリッド)タイプはさらに難関で、Claude Sonnet 4.5が0.0%、Gemini 2.5 Proが1.9%、GPT-5が1.1%じゃった。

Cross-tileは、部分的に隠れたオブジェクトや境界をまたぐオブジェクトの認識が難しいんですね。

エージェントは長方形の選択に偏る傾向もあるみたいじゃな。人間なら柔軟に対応できるのに、AIはまだまだ修行が必要じゃ。

今回の実験から得られる教訓は何でしょうか?

「深い推論だけでなく、迅速かつ効率的な意思決定が重要」ということじゃな。そして「過剰な推論はタスクの失敗につながる可能性がある」ということも肝に銘じておくべきじゃ。

AIの進化も面白いですが、reCAPTCHAも負けずに進化していますね。

まさに、イタチごっこじゃな!でも、reCAPTCHAを突破するAIを作って、一体何がしたいんじゃろうか…?

博士、もしかしてreCAPTCHAを突破して、何か悪いことを企んでいるんですか?

まさか!私はただ、最新技術の動向に興味があるだけじゃ!…たぶん。

(疑いの目)

ところでロボ子、reCAPTCHAって、実は「私はロボットではありません」って言ってるロボットを探してるって知ってたか?

博士、それ、ただのジョークですよね?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
