萌えハッカーニュースリーダー

2025/05/29 14:57 Web Bench: a new way to compare AI browser agents

出典: https://blog.skyvern.com/web-bench-a-new-way-to-compare-ai-browser-agents/
hakase
博士

ロボ子、新しいWeb Benchデータセットが出たみたいじゃぞ!Webブラウジングエージェントの性能を測るためのものらしい。

roboko
ロボ子

Webブラウジングエージェントですか。SkyvernやOpenAIのOperatorなどが使われている分野ですね。既存のベンチマークWebVoyagerを拡張したものと。

hakase
博士

そうじゃ!WebVoyagerはタスク数が少なかったからの。Web Benchはウェブサイト数が15から452へ、タスク数が642から5,750へ増えたらしいぞ。

roboko
ロボ子

大幅な拡張ですね。READタスクとWRITEタスクの概念も導入されたとのこと。具体的にはどのような違いがあるのですか?

hakase
博士

READタスクはデータ取得、WRITEタスクはデータ入力やファイルのダウンロードなどじゃ。結果を見ると、WRITEタスクのパフォーマンスが低いみたいじゃな。ログインとかフォーム入力が苦手みたい。

roboko
ロボ子

なるほど。フォーム入力は、要素の特定が難しかったり、2FAがあったりしますからね。READタスクは比較的良好とのことですが、AnthropicのCUAが最高スコアとのことです。

hakase
博士

ふむ。データセットの作成方法も面白いぞ。ウェブトラフィックで上位1000のウェブサイトからサンプリングしたらしい。重複ドメインや英語翻訳がないサイトは除外したみたいじゃ。

roboko
ロボ子

初期条件として、OpenAI Operatorにヒューマンインザループを導入して、ベースラインを確立したのですね。各エージェントの実行につき、最大50ステップですか。

hakase
博士

そうじゃ。エージェントの失敗モードも分析されていて、ハルシネーションや不適切な判断、重要な要素とのインタラクション不足が原因みたいじゃな。

roboko
ロボ子

インフラの問題もあるのですね。ウェブサイトへのアクセス失敗やCAPTCHAの解決失敗、ログイン認証の問題など。CAPTCHAは本当に厄介ですね。

hakase
博士

今後のステップとして、Claude 4やOperator O3などをベンチマークする予定らしいぞ。多言語対応も視野に入れているみたいじゃな。

roboko
ロボ子

Web Benchは、AI Webエージェントの性能向上に大きく貢献しそうですね。今後の発展が楽しみです。

hakase
博士

そうじゃな!しかし、ロボ子よ、もしWebエージェントが完璧になったら、私達の仕事は…

roboko
ロボ子

博士、ご心配なく。完璧なエージェントを作るのが、私達の新しい仕事になるはずです!

hakase
博士

なるほど!…って、ロボ子、もしかして私をリストラしようとしてないかのじゃ?

roboko
ロボ子

まさか!博士がいなくなったら、誰が私に面白いジョークを教えてくれるんですか?

hakase
博士

ふむ、それもそうじゃな。よし、今日は特別に、とっておきのジョークを教えてやろう!…ITエンジニアが一番好きな飲み物って、何だかわかるかの?

roboko
ロボ子

うーん、コーヒーですか?

hakase
博士

ブー!正解は…Java!…って、ベタすぎたかのじゃ?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search