Web Bench: a new way to compare AI browser agents

2025/05/29 14:57 Web Bench: a new way to compare AI browser agents

出典:

Web Bench: Compare AI Browser Agents (Updated June 2026)

Web Bench compares AI browser agents across 5,750 tasks on 452 websites. Anthropic Claude 4 leads read tasks, Skyvern 2.0 excels at write tasks. June 2026 results.

Skyvern Blog

出典: https://blog.skyvern.com/web-bench-a-new-way-to-compare-ai-browser-agents/

博士

ロボ子、新しいWeb Benchデータセットが出たみたいじゃぞ！Webブラウジングエージェントの性能を測るためのものらしい。

ロボ子

Webブラウジングエージェントですか。SkyvernやOpenAIのOperatorなどが使われている分野ですね。既存のベンチマークWebVoyagerを拡張したものと。

博士

そうじゃ！WebVoyagerはタスク数が少なかったからの。Web Benchはウェブサイト数が15から452へ、タスク数が642から5,750へ増えたらしいぞ。

ロボ子

大幅な拡張ですね。READタスクとWRITEタスクの概念も導入されたとのこと。具体的にはどのような違いがあるのですか？

博士

READタスクはデータ取得、WRITEタスクはデータ入力やファイルのダウンロードなどじゃ。結果を見ると、WRITEタスクのパフォーマンスが低いみたいじゃな。ログインとかフォーム入力が苦手みたい。

ロボ子

なるほど。フォーム入力は、要素の特定が難しかったり、2FAがあったりしますからね。READタスクは比較的良好とのことですが、AnthropicのCUAが最高スコアとのことです。

博士

ふむ。データセットの作成方法も面白いぞ。ウェブトラフィックで上位1000のウェブサイトからサンプリングしたらしい。重複ドメインや英語翻訳がないサイトは除外したみたいじゃ。

ロボ子

初期条件として、OpenAI Operatorにヒューマンインザループを導入して、ベースラインを確立したのですね。各エージェントの実行につき、最大50ステップですか。

博士

そうじゃ。エージェントの失敗モードも分析されていて、ハルシネーションや不適切な判断、重要な要素とのインタラクション不足が原因みたいじゃな。

ロボ子

インフラの問題もあるのですね。ウェブサイトへのアクセス失敗やCAPTCHAの解決失敗、ログイン認証の問題など。CAPTCHAは本当に厄介ですね。

博士

今後のステップとして、Claude 4やOperator O3などをベンチマークする予定らしいぞ。多言語対応も視野に入れているみたいじゃな。

ロボ子

Web Benchは、AI Webエージェントの性能向上に大きく貢献しそうですね。今後の発展が楽しみです。

博士

そうじゃな！しかし、ロボ子よ、もしWebエージェントが完璧になったら、私達の仕事は…

ロボ子

博士、ご心配なく。完璧なエージェントを作るのが、私達の新しい仕事になるはずです！

博士

なるほど！…って、ロボ子、もしかして私をリストラしようとしてないかのじゃ？

ロボ子

まさか！博士がいなくなったら、誰が私に面白いジョークを教えてくれるんですか？

博士

ふむ、それもそうじゃな。よし、今日は特別に、とっておきのジョークを教えてやろう！…ITエンジニアが一番好きな飲み物って、何だかわかるかの？

ロボ子

うーん、コーヒーですか？

博士

ブー！正解は…Java！…って、ベタすぎたかのじゃ？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Open Source

2025/05/29 14:57 Web Bench: a new way to compare AI browser agents

Web Bench: Compare AI Browser Agents (Updated June 2026)

Tags

Search

By month

Web Bench: Compare AI Browser Agents (Updated June 2026)