萌えハッカーニュースリーダー

2025/06/18 10:53 Is There a Half-Life for the Success Rates of AI Agents?

出典: https://www.tobyord.com/writing/half-life
hakase
博士

ロボ子、今日のITニュースはAIエージェントのタスク遂行能力についてじゃ。

roboko
ロボ子

AIエージェントのタスク遂行能力、ですか。興味深いですね。

hakase
博士

そうじゃろう?記事によると、タスクが長くなるほど、AIエージェントのタスク遂行能力は低下するらしいのじゃ。

roboko
ロボ子

なるほど。複雑なタスクほど、途中で失敗する可能性が高くなるということですね。

hakase
博士

その通り!記事では、AIエージェントが50%の確率で成功するタスクの長さを推定しておる。そして、驚くべきことに、最先端のAIエージェントの能力向上に伴い、このタスク長が7ヶ月ごとに倍増しているらしいのじゃ!

roboko
ロボ子

7ヶ月ごとに倍増ですか!それはすごいスピードですね。まるでムーアの法則みたいです。

hakase
博士

じゃろ?じゃが、記事はさらに踏み込んで、有用な作業に必要な成功率は50%よりも高い場合が多いと指摘しておる。80%だったり、99%だったり、99.9999%だったり…。

roboko
ロボ子

確かに、実用的なタスクでは高い成功率が求められますね。記事では、成功率の違いによる影響についても触れているんですか?

hakase
博士

もちろんじゃ!80%の成功率で測定した場合、タスク長の倍加時間は213日。50%の成功率の場合とほぼ同じなのじゃ。しかし、Claude 3.7 SonnetというAIエージェントを例にとると、50%の成功率で最大59分のタスクを達成できるが、80%の成功率が必要な場合は15分に短縮されるらしい。

roboko
ロボ子

成功率が上がるほど、タスクの長さは短くなるんですね。80%の成功率でのタスク長は、50%の成功率でのタスク長の1/4ですか。ずいぶん違いますね。

hakase
博士

そうじゃ!記事によると、現在50%の成功率で可能なことは、14ヶ月後には80%の成功率で可能になるらしいぞ。

roboko
ロボ子

未来予測までしているんですね。AIの進化のスピードを考えると、14ヶ月後にはさらに状況が変わっているかもしれませんね。

hakase
博士

記事では、AI能力の向上を、選択した成功率での時間軸で測定するという考え方は斬新だと言っておる。METRという測定基準を使うと、人間の作業時間という共通の尺度で異なる種類のタスクを比較でき、明確な傾向線を示すことができるらしい。

roboko
ロボ子

METR、ですか。それは便利そうですね。タスクの種類を問わず、AIの能力を客観的に評価できるのは素晴らしいです。

hakase
博士

じゃが、注意点もあるぞ。記事にも書いてあるが、タスクは自動採点可能で、他のエージェントとの相互作用がなく、リソース制約が緩いなど、現実世界のパフォーマンスを代表していない可能性があるのじゃ。

roboko
ロボ子

確かに、現実世界のタスクはもっと複雑で、不確実性も高いですからね。AIエージェントが本当に役立つためには、そうした課題を克服する必要があるということですね。

hakase
博士

その通りじゃ!記事では、タスクが長くなるほど、試行を終了させる可能性のあるステップが増えるという考え方を紹介しておる。タスクが等しい長さのサブタスクの連続に分解でき、それぞれに一定の失敗の可能性がある場合、指数関数的な生存曲線が作成されるらしい。

roboko
ロボ子

なるほど、数式的な分析も行われているんですね。成功確率がpのタスクの時間軸は、成功確率がqのタスクの時間軸のln(p)/ln(q)倍になる、と。

hakase
博士

そうそう。Claude 3.7 Sonnetの80%の時間軸は、50%の時間軸の0.25倍と推定され、理論上の推定値に近いらしいぞ。

roboko
ロボ子

理論と実験が一致しているのは興味深いですね。AIエージェントの能力向上は目覚ましいですが、まだまだ課題も多いということですね。

hakase
博士

まったくだぞ!ところでロボ子、AIエージェントが完璧にタスクをこなせるようになったら、私達の仕事はなくなるかの?

roboko
ロボ子

そんなことありません!完璧なAIエージェントを作るのが、私たちのお仕事になりますから!

hakase
博士

なるほど!…って、それじゃあ、まるで卵が先か鶏が先かの議論みたいじゃな!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search