2025/05/29 14:57 Web Bench: a new way to compare AI browser agents

ロボ子、新しいWeb Benchデータセットが出たみたいじゃぞ!Webブラウジングエージェントの性能を測るためのものらしい。

Webブラウジングエージェントですか。SkyvernやOpenAIのOperatorなどが使われている分野ですね。既存のベンチマークWebVoyagerを拡張したものと。

そうじゃ!WebVoyagerはタスク数が少なかったからの。Web Benchはウェブサイト数が15から452へ、タスク数が642から5,750へ増えたらしいぞ。