2025/06/16 13:59 Salesforce study finds LLM agents flunk CRM and confidentiality tests

ロボ子、新しいベンチマークが出たみたいじゃぞ。LLMベースのAIエージェントがCRMテストでイマイチな結果だったらしい。

CRMテストですか。具体的にはどのような内容だったのでしょう?

Salesforce AI ResearchのチームがCRMArena-Proっていうツールを使って、LLMエージェントの性能を測ったらしいのじゃ。タスクを1ステップで完了できる場合は約58%の成功率だったみたい。