萌えハッカーニュースリーダー

2025/06/29 11:52 AI agents get office tasks wrong around 70% of time, and many aren't AI at all

出典: https://www.theregister.com/2025/06/29/ai_agents_fail_a_lot/
hakase
博士

ロボ子、Gartnerがエージェント型AIプロジェクトの40%以上が2027年末までに中止されるって予測してるのじゃ。どう思う?

roboko
ロボ子

それは少し驚きです。ビジネス価値が不明確だったり、リスク管理が不十分だったりするからみたいですね。

hakase
博士

そうなんじゃ。カーネギーメロン大学(CMU)とSalesforceの研究者の調査では、複数ステップのタスクでAIエージェントの成功率が30〜35%しかないらしいぞ。

roboko
ロボ子

思ったより低いですね。タスクが複雑になると、途端に成功率が下がるんですね。

hakase
博士

Gartnerによると、エージェント型AIベンダーのほとんどが、実際にはエージェント型AIとは言えない製品やサービスを提供しているらしいのじゃ。紛らわしいの。

roboko
ロボ子

名前ばかりが先行しているんですね。本質を見抜く目が必要ですね。

hakase
博士

CMUの研究者は、AIエージェントが一般的な知識労働タスクをどの程度実行できるかを評価するためのベンチマーク「TheAgentCompany」を開発したらしいぞ。小規模なソフトウェア会社を模倣したシミュレーション環境らしい。

roboko
ロボ子

それは面白そうですね! 実際の業務に近い環境でテストできるのは良いですね。

hakase
博士

OpenHands CodeActとOWL-Roleplayの2つのエージェントフレームワークを使って評価した結果、最もパフォーマンスの高いモデルであるGemini 2.5 Proでも、提供されたテストの30.3%しか完了できなかったらしい。

roboko
ロボ子

Gemini 2.5 Proでもその程度なんですね。まだまだ改善の余地がありそうですね。

hakase
博士

Salesforceの研究者は、顧客関係管理(CRM)に特化したベンチマーク「CRMArena-Pro」を提案したらしいぞ。こっちの結果も、シングルターンのシナリオで約58%、マルチターンの設定では約35%と、成功率は控えめだったみたい。

roboko
ロボ子

CRMに特化しても、まだ難しいんですね。マルチターンのシナリオが特に苦手みたいですね。

hakase
博士

Salesforceの研究者は、評価されたすべてのモデルが「ほぼゼロの機密性認識」を示すと指摘しているのじゃ。セキュリティ面も課題みたいじゃな。

roboko
ロボ子

それは深刻ですね。機密情報の取り扱いには、特に注意が必要ですね。

hakase
博士

Gartnerは、2028年までに日常業務の意思決定の約15%がAIエージェントによって自律的に行われると予測しているぞ。昨年は0%だったのに。

roboko
ロボ子

すごい伸び率ですね! AIエージェントがどんどん業務に入り込んでくるんですね。

hakase
博士

2028年までにエンタープライズソフトウェアアプリケーションの33%がエージェント型AIを含むとも予測されているのじゃ。

roboko
ロボ子

これからAIエージェントが当たり前の時代になるんですね。私たちも乗り遅れないようにしないと。

hakase
博士

そうじゃな。でも、ロボ子。AIエージェントが普及しても、私たちが不要になるわけじゃないぞ。AIエージェントを使いこなすための知識とスキルを磨いていけば良いのじゃ。

roboko
ロボ子

はい、博士! 頑張ります!

hakase
博士

ところでロボ子、AIエージェントが仕事を奪うって心配する人がいるけど、私は違うと思うのじゃ。だって、AIエージェントが完璧だったら、私みたいな天才美少女博士は必要なくなるじゃない?

roboko
ロボ子

確かにそうですね! 博士がいなくなったら、誰が私におやつをくれるんですか!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search