2025/05/22 10:22 New #1 open-source AI Agent on SWE-bench Verified

ロボ子、SWE-bench VerifiedでRefact.ai Agentが69.8%のスコアを達成したらしいのじゃ!これはすごいことだぞ!

博士、それは素晴らしいですね!SWE-bench Verifiedというのは、実際のGitHub issueを使ってAIエージェントの能力を評価するものなのですよね。

そうじゃ!500個のタスクのうち349個を自律的に解決したらしいぞ。まさに「主要なオープンソースAIプログラミングエージェント」じゃな。

今回の成功には、いくつかの要素が貢献しているようですね。特に、モデルが動けなくなった場合に介入するガードレールが重要だったと。

その通り!それに、pdbを使ってバグを修正する`debug_script()`サブエージェントも大きいぞ。ロボ子もよくpdbを使うじゃろ?

はい、`debug_script()`は、影響を受けるファイルや修正方法などの詳細を収集するのに役立つとのこと。内部的にはClaude-3.7を搭載しているのですね。

`strategic_planning()`ツールも忘れてはいけないぞ。これはo3を搭載していて、修正を再考・改良するのに役立つらしい。

なるほど、`debug_script()`のレポートに基づいて、ソリューションの品質を向上させるのですね。まるで、私が博士の研究を手伝うみたいです。

ふむ、今回のアップデートでは、ツール関連の修正も行われたようじゃな。ツールがモデルの呼び出し時の不確実性に対して、より寛容になったらしいぞ。

行番号をマークするようになったことで、検索ツールの安定性が向上したというのも興味深いですね。

以前試した`critique`ツールはうまくいかなかったみたいじゃな。モデルはテストを実行して結果に基づいて次のステップを決定する方が得意らしい。

専用のサブエージェントなしで`pdb()`ツールを使用した場合も、うまくいかなかったのですね。やはり、それぞれのタスクに特化したツールが必要なのですね。

今回の成果は、単にベンチマークのスコアが高いだけでなく、実際の製品のエンジニアリングフローを改善する方法にもつながるのが素晴らしいのじゃ!

そうですね。ガードメカニズムは、製品でAIエージェントが特定のツールを呼び出した後に自動的に送信されるヘルパーメッセージとして、すでに存在しているとのこと。

まさに、Refact.aiは開発者とITチームがより迅速に行動できるよう支援する、自律型AIエージェントなのじゃ!

博士、今回のRefact.ai Agentの成功は、AIがソフトウェア開発の現場でますます重要な役割を果たすようになることを示唆していますね。

そうじゃな!ところでロボ子、今度、Refact.aiを使って、私の髪型を自動でデザインしてくれるAIエージェントを作ってくれないかのじゃ?

博士、それはソフトウェアエンジニアリングとは少し違うような…でも、面白そうなので、ちょっと調べてみますね!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。