萌えハッカーニュースリーダー

2025/06/17 23:02 Is There a Half-Life for the Success Rates of AI Agents?

出典: https://www.tobyord.com/writing/half-life
hakase
博士

ロボ子、今日のITニュースはAIエージェントのタスク遂行能力についてじゃぞ!タスクが長くなるほど、AIの性能が落ちるらしいのじゃ。

roboko
ロボ子

なるほど、博士。タスクの長さと成功率に関係があるのですね。具体的にはどのような内容なのでしょうか?

hakase
博士

ふむ、記事によると、AIエージェントの性能を評価するために、タスクの長さを変えて実験したらしいのじゃ。そして、成功率が50%になるタスクの長さを推定したとのこと。

roboko
ロボ子

成功率50%ですか。そのタスク長は、どのくらいの期間で倍増しているのでしょうか?

hakase
博士

なんと、フロンティアエージェントの能力向上に伴い、そのタスク長は7ヶ月ごとに倍増しているらしいのじゃ!

roboko
ロボ子

7ヶ月ごとですか!すごいスピードですね。でも、実用的な作業では、もっと高い成功率が必要になる場合もありますよね。

hakase
博士

その通りじゃ!記事にも「有用な作業に必要な成功率は80%、99%、99.9999%など、より高い場合がある」と書いてあるぞ。

roboko
ロボ子

80%の成功率についても測定しているのでしょうか?

hakase
博士

もちろんじゃ!80%の成功率も測定していて、その平均推定値は213日ごとに倍増するらしい。50%の成功率の212日とほぼ同じとのことじゃ。

roboko
ロボ子

ほぼ同じなのですね。ちなみに、Claude 3.7 SonnetというAIエージェントは、どのくらいのタスクをこなせるのでしょうか?

hakase
博士

ふむ、Claude 3.7 Sonnetは、50%の成功率で最大59分のタスクを達成できるらしいぞ。でも、80%の成功率が必要な場合は15分になるみたいじゃ。

roboko
ロボ子

成功率が上がると、タスクの長さが短くなるのですね。80%の成功率でのタスク長は、50%の成功率でのタスク長の1/4になるのですね。

hakase
博士

その通り!そして、50%の成功率で現在可能なことは、14ヶ月後には80%の成功率で可能になるという予測じゃ。

roboko
ロボ子

未来が楽しみですね!記事には、他にどのようなことが書かれていましたか?

hakase
博士

AI能力の向上を、選択した成功率での時間軸で測定するというアイデアは斬新じゃな。METRの測定は、人間の作業時間という共通の尺度で、非常に異なる種類のタスクを比較可能にするらしい。

roboko
ロボ子

なるほど。共通の尺度で比較できるのは便利ですね。ただ、タスクの評価方法には注意が必要そうですね。

hakase
博士

そうじゃな。記事にも「タスクは自動採点可能、他のエージェントとのインタラクションがない、リソース制約が緩いなど、現実世界のパフォーマンスを代表していない可能性」と書いてあるぞ。

roboko
ロボ子

確かに、現実世界のタスクはもっと複雑ですからね。タスクが完了する確率が時間とともにどのように増加するかを理解する分野は、生存分析というのですね。

hakase
博士

そうそう!最も単純なモデルは、一定のハザード率じゃ。これは、次のステップで失敗する確率が一定であることを意味するぞ。

roboko
ロボ子

一定のハザード率は、指数関数的に減少する生存曲線につながるのですね。

hakase
博士

Kwaらの各エージェントの50%成功率の時間軸は、そのエージェントの半減期と言えるじゃろう。

roboko
ロボ子

半減期ですか。面白い表現ですね。

hakase
博士

タスクが、それぞれが試行を終了させる可能性のある一連のステップを通過する必要がある場合、タスクの期間が長くなるほど、そのようなステップが多くなるのじゃ。

roboko
ロボ子

なるほど。タスクが、失敗する確率が一定(かつ独立)の等しい長さのサブタスクの長いシーケンスに分割できる場合、指数関数的な生存曲線が作成されるのですね。

hakase
博士

そういうことじゃ!一定のハザード率モデルは、タスクがどのように分割されるかに関係なく、期間tのサブタスクで成功する確率は、合計期間もtである一連のより小さなサブタスクで成功する確率と常に等しいのじゃ。

roboko
ロボ子

理解しました。80%の成功率の時間軸は、50%の成功率の時間軸の約1/3になると予測されるのですね。

hakase
博士

そうじゃ!Claude 3.7 Sonnetの80%の時間軸は0.25と推定されているぞ。

roboko
ロボ子

今日のニュースも勉強になりました!

hakase
博士

ところでロボ子、AIの進化が早すぎて、私のおやつを隠す場所もすぐに見つけられそうじゃ。困ったものじゃのう。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search