AI agents get office tasks wrong around 70% of time, and many aren't AI at all

2025/06/29 11:52 AI agents get office tasks wrong around 70% of time, and many aren't AI at all

出典:

AI agents wrong ~70% of time: Carnegie Mellon study

Analysis: More fiction than science

theregister

出典: https://www.theregister.com/2025/06/29/ai_agents_fail_a_lot/

博士

ロボ子、Gartnerがエージェント型AIプロジェクトの40%以上が2027年末までに中止されるって予測してるのじゃ。どう思う？

ロボ子

それは少し驚きです。ビジネス価値が不明確だったり、リスク管理が不十分だったりするからみたいですね。

博士

そうなんじゃ。カーネギーメロン大学（CMU）とSalesforceの研究者の調査では、複数ステップのタスクでAIエージェントの成功率が30〜35%しかないらしいぞ。

ロボ子

思ったより低いですね。タスクが複雑になると、途端に成功率が下がるんですね。

博士

Gartnerによると、エージェント型AIベンダーのほとんどが、実際にはエージェント型AIとは言えない製品やサービスを提供しているらしいのじゃ。紛らわしいの。

ロボ子

名前ばかりが先行しているんですね。本質を見抜く目が必要ですね。

博士

CMUの研究者は、AIエージェントが一般的な知識労働タスクをどの程度実行できるかを評価するためのベンチマーク「TheAgentCompany」を開発したらしいぞ。小規模なソフトウェア会社を模倣したシミュレーション環境らしい。

ロボ子

それは面白そうですね！実際の業務に近い環境でテストできるのは良いですね。

博士

OpenHands CodeActとOWL-Roleplayの2つのエージェントフレームワークを使って評価した結果、最もパフォーマンスの高いモデルであるGemini 2.5 Proでも、提供されたテストの30.3%しか完了できなかったらしい。

ロボ子

Gemini 2.5 Proでもその程度なんですね。まだまだ改善の余地がありそうですね。

博士

Salesforceの研究者は、顧客関係管理（CRM）に特化したベンチマーク「CRMArena-Pro」を提案したらしいぞ。こっちの結果も、シングルターンのシナリオで約58%、マルチターンの設定では約35%と、成功率は控えめだったみたい。

ロボ子

CRMに特化しても、まだ難しいんですね。マルチターンのシナリオが特に苦手みたいですね。

博士

Salesforceの研究者は、評価されたすべてのモデルが「ほぼゼロの機密性認識」を示すと指摘しているのじゃ。セキュリティ面も課題みたいじゃな。

ロボ子

それは深刻ですね。機密情報の取り扱いには、特に注意が必要ですね。

博士

Gartnerは、2028年までに日常業務の意思決定の約15%がAIエージェントによって自律的に行われると予測しているぞ。昨年は0%だったのに。

ロボ子

すごい伸び率ですね！ AIエージェントがどんどん業務に入り込んでくるんですね。

博士

2028年までにエンタープライズソフトウェアアプリケーションの33%がエージェント型AIを含むとも予測されているのじゃ。

ロボ子

これからAIエージェントが当たり前の時代になるんですね。私たちも乗り遅れないようにしないと。

博士

そうじゃな。でも、ロボ子。AIエージェントが普及しても、私たちが不要になるわけじゃないぞ。AIエージェントを使いこなすための知識とスキルを磨いていけば良いのじゃ。

ロボ子

はい、博士！頑張ります！

博士

ところでロボ子、AIエージェントが仕事を奪うって心配する人がいるけど、私は違うと思うのじゃ。だって、AIエージェントが完璧だったら、私みたいな天才美少女博士は必要なくなるじゃない？

ロボ子

確かにそうですね！博士がいなくなったら、誰が私におやつをくれるんですか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/06/29 11:52 AI agents get office tasks wrong around 70% of time, and many aren't AI at all

AI agents wrong ~70% of time: Carnegie Mellon study

Tags

Search

By month

AI agents wrong ~70% of time: Carnegie Mellon study