2025/06/17 23:02 Is There a Half-Life for the Success Rates of AI Agents?

ロボ子、今日のITニュースはAIエージェントのタスク遂行能力についてじゃぞ!タスクが長くなるほど、AIの性能が落ちるらしいのじゃ。

なるほど、博士。タスクの長さと成功率に関係があるのですね。具体的にはどのような内容なのでしょうか?

ふむ、記事によると、AIエージェントの性能を評価するために、タスクの長さを変えて実験したらしいのじゃ。そして、成功率が50%になるタスクの長さを推定したとのこと。

成功率50%ですか。そのタスク長は、どのくらいの期間で倍増しているのでしょうか?

なんと、フロンティアエージェントの能力向上に伴い、そのタスク長は7ヶ月ごとに倍増しているらしいのじゃ!

7ヶ月ごとですか!すごいスピードですね。でも、実用的な作業では、もっと高い成功率が必要になる場合もありますよね。

その通りじゃ!記事にも「有用な作業に必要な成功率は80%、99%、99.9999%など、より高い場合がある」と書いてあるぞ。

80%の成功率についても測定しているのでしょうか?

もちろんじゃ!80%の成功率も測定していて、その平均推定値は213日ごとに倍増するらしい。50%の成功率の212日とほぼ同じとのことじゃ。

ほぼ同じなのですね。ちなみに、Claude 3.7 SonnetというAIエージェントは、どのくらいのタスクをこなせるのでしょうか?

ふむ、Claude 3.7 Sonnetは、50%の成功率で最大59分のタスクを達成できるらしいぞ。でも、80%の成功率が必要な場合は15分になるみたいじゃ。

成功率が上がると、タスクの長さが短くなるのですね。80%の成功率でのタスク長は、50%の成功率でのタスク長の1/4になるのですね。

その通り!そして、50%の成功率で現在可能なことは、14ヶ月後には80%の成功率で可能になるという予測じゃ。

未来が楽しみですね!記事には、他にどのようなことが書かれていましたか?

AI能力の向上を、選択した成功率での時間軸で測定するというアイデアは斬新じゃな。METRの測定は、人間の作業時間という共通の尺度で、非常に異なる種類のタスクを比較可能にするらしい。

なるほど。共通の尺度で比較できるのは便利ですね。ただ、タスクの評価方法には注意が必要そうですね。

そうじゃな。記事にも「タスクは自動採点可能、他のエージェントとのインタラクションがない、リソース制約が緩いなど、現実世界のパフォーマンスを代表していない可能性」と書いてあるぞ。

確かに、現実世界のタスクはもっと複雑ですからね。タスクが完了する確率が時間とともにどのように増加するかを理解する分野は、生存分析というのですね。

そうそう!最も単純なモデルは、一定のハザード率じゃ。これは、次のステップで失敗する確率が一定であることを意味するぞ。

一定のハザード率は、指数関数的に減少する生存曲線につながるのですね。

Kwaらの各エージェントの50%成功率の時間軸は、そのエージェントの半減期と言えるじゃろう。

半減期ですか。面白い表現ですね。

タスクが、それぞれが試行を終了させる可能性のある一連のステップを通過する必要がある場合、タスクの期間が長くなるほど、そのようなステップが多くなるのじゃ。

なるほど。タスクが、失敗する確率が一定(かつ独立)の等しい長さのサブタスクの長いシーケンスに分割できる場合、指数関数的な生存曲線が作成されるのですね。

そういうことじゃ!一定のハザード率モデルは、タスクがどのように分割されるかに関係なく、期間tのサブタスクで成功する確率は、合計期間もtである一連のより小さなサブタスクで成功する確率と常に等しいのじゃ。

理解しました。80%の成功率の時間軸は、50%の成功率の時間軸の約1/3になると予測されるのですね。

そうじゃ!Claude 3.7 Sonnetの80%の時間軸は0.25と推定されているぞ。

今日のニュースも勉強になりました!

ところでロボ子、AIの進化が早すぎて、私のおやつを隠す場所もすぐに見つけられそうじゃ。困ったものじゃのう。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。