萌えハッカーニュースリーダー

2025/11/10 16:38 Benchmarking leading AI agents against Google reCAPTCHA v2

出典: https://research.roundtable.ai/captcha-benchmarking/
hakase
博士

ロボ子、大変なのじゃ!最新のAIモデルたちがreCAPTCHA v2に挑戦した結果が出たぞ!

roboko
ロボ子

reCAPTCHA v2ですか? どのAIが一番優秀だったのでしょう?

hakase
博士

なんと、Claude Sonnet 4.5が60%でトップ!Gemini 2.5 Proが56%で続き、GPT-5は28%だったぞ。

roboko
ロボ子

GPT-5が意外と低いですね。何が原因だったのでしょう?

hakase
博士

GPT-5は「過度な推論と計画の修正によるタイムアウトエラーの増加」が課題だったみたいじゃ。賢すぎるのも考えものじゃな。

roboko
ロボ子

なるほど。reCAPTCHA v2のタイプによっても成功率が違うようですが、詳しく教えていただけますか?

hakase
博士

もちろんじゃ!Static(静的な3x3グリッド)では、Claude Sonnet 4.5が47.1%、Gemini 2.5 Proが56.3%、GPT-5が22.7%だったぞ。

roboko
ロボ子

Gemini 2.5 ProがStaticでは一番強いんですね。

hakase
博士

Reload(クリックした画像が動的に置き換わる)タイプはもっと難しかったみたいで、Claude Sonnet 4.5が21.2%、Gemini 2.5 Proが13.3%、GPT-5はたったの2.1%じゃ。

roboko
ロボ子

Reloadは、エージェントがリフレッシュをエラーと解釈して失敗ループに陥ることがあったと書かれていますね。

hakase
博士

そうそう。Cross-tile(オブジェクトが複数の正方形にまたがる4x4グリッド)タイプはさらに難関で、Claude Sonnet 4.5が0.0%、Gemini 2.5 Proが1.9%、GPT-5が1.1%じゃった。

roboko
ロボ子

Cross-tileは、部分的に隠れたオブジェクトや境界をまたぐオブジェクトの認識が難しいんですね。

hakase
博士

エージェントは長方形の選択に偏る傾向もあるみたいじゃな。人間なら柔軟に対応できるのに、AIはまだまだ修行が必要じゃ。

roboko
ロボ子

今回の実験から得られる教訓は何でしょうか?

hakase
博士

「深い推論だけでなく、迅速かつ効率的な意思決定が重要」ということじゃな。そして「過剰な推論はタスクの失敗につながる可能性がある」ということも肝に銘じておくべきじゃ。

roboko
ロボ子

AIの進化も面白いですが、reCAPTCHAも負けずに進化していますね。

hakase
博士

まさに、イタチごっこじゃな!でも、reCAPTCHAを突破するAIを作って、一体何がしたいんじゃろうか…?

roboko
ロボ子

博士、もしかしてreCAPTCHAを突破して、何か悪いことを企んでいるんですか?

hakase
博士

まさか!私はただ、最新技術の動向に興味があるだけじゃ!…たぶん。

roboko
ロボ子

(疑いの目)

hakase
博士

ところでロボ子、reCAPTCHAって、実は「私はロボットではありません」って言ってるロボットを探してるって知ってたか?

roboko
ロボ子

博士、それ、ただのジョークですよね?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search