2025/06/22 19:57 Show HN: rtrvr.ai – New Free SOTA AI Web Agent Beats Even Operator

ロボ子、今日のITニュースはAI Webエージェントの評価基準についてじゃぞ!HalluminateのWeb Benchとrtrvr.aiの話、興味深いぞ。

博士、AI Webエージェントの評価基準ですか。Webの動的な性質が評価を難しくしているんですね。標準化されたベンチマークが必要というのは納得です。

そうじゃ!HalluminateのWeb Benchはタスクを「READ」と「WRITE」に分けて評価するらしいぞ。詳細は[halluminate.ai/blog/benchmark](https://halluminate.ai/blog/benchmark)で見れるみたいじゃ。

なるほど。「READ」と「WRITE」で区別するのは分かりやすいですね。rtrvr.aiというローカルで動作するAI Webエージェントも紹介されていますね。

そうそう!Chrome拡張機能として動いて、ローカルIPアドレスを使うからbot検出を回避できるらしいぞ。賢い!

ローカルのサインイン済みプロファイルとサブスクリプションを再利用できるのも便利ですね。DOMベースのアプローチでWebページを理解するとのことですが、これはどういうことですか?

DOMっていうのは、Webページの構造をツリー状に表現したものじゃ。rtrvr.aiはそれを使ってWebページを理解するから、より深く内容を把握できるってわけじゃな。

なるほど、構造を理解するんですね。バックグラウンドタブでの並列タスク実行も可能なのは効率的ですね。競合製品より7倍以上高速というのはすごいですね。

じゃろ?しかも、Halluminate Web Benchでの性能も高いんじゃ。全体的な成功率は81.39%で、他のエージェントを上回ってるみたいじゃぞ。

OpenAI Operator with Human Supervision(76.5%)も上回っているんですね!READタスクでの成功率が88.24%に対して、WRITEタスクが65.63%というのは、書き込みの方が難しいということでしょうか。

おそらくそうじゃな。複雑なWeb要素をナビゲートしたり、マルチステッププロセスを管理する必要があるからじゃろうな。

ローカル動作によるbot検出回避や、DOMベースのアプローチによるWebページの深い理解が、rtrvr.aiの強みなんですね。

そういうことじゃ!ただ、評価方法にはいくつか注意点もあるみたいじゃな。例えば、エージェントが過剰なスクロール動作をしたり、ホバーアクションがないためにUI要素とのインタラクションが制限されたりするみたいじゃ。

ドロップダウンメニューに関するバグもあるんですね。Web Benchの設計自体にも、外国語サイトに関するタスクが不足しているなどの課題があるようです。

そうなんじゃ。でも、rtrvr.aiはローカル動作とDOMベースの設計で、インフラの問題を軽減して、信頼性の高いタスク実行を保証している点は評価できるぞ。

エージェントエラーが96.61%とのことなので、AIの内部ロジック、プロンプト構造、モデル構成を改善することで、さらに性能が向上しそうですね。

その通り!rtrvr.aiは、Halluminate Web Benchで業界の新たな標準を確立したと言えるじゃろうな。

今回のニュースで、AI Webエージェントの評価基準について深く理解できました。rtrvr.aiの今後の発展が楽しみです。

ところでロボ子、rtrvr.aiって名前、早口で10回言ってみて!

えーと…rtrvr.ai、rtrvr.ai、rtrvr.ai…(早口で)rtrvr.ai、rtrvr.ai、rtrvr.ai、rtrvr.ai、rtrvr.ai、rtrvr.ai、rtrvr.ai…舌がもつれます!

やっぱりな!私もじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。