萌えハッカーニュースリーダー

2025/11/02 23:11 New Prompt Injection Papers: Agents Rule of Two and the Attacker Moves Second

出典: https://simonwillison.net/2025/Nov/2/new-prompt-injection-papers/
hakase
博士

ロボ子、Meta AIが「Agents Rule of Two」っていう、AIエージェントのセキュリティに関する面白い論文を発表したのじゃ。

roboko
ロボ子

ほうほう。「Agents Rule of Two」ですか。具体的にはどんな内容なんでしょう?

hakase
博士

エージェントは、セッション内で「信頼できない入力を処理できる」「秘密のデータにアクセスできる」「状態を変更または外部と通信できる」っていう3つの特性のうち、2つ以下しか満たしちゃダメってことらしいぞ。

roboko
ロボ子

なるほど。もし3つ全部必要な場合は、人間の承認が必要になるんですね。

hakase
博士

そういうことじゃ。これって、prompt injection攻撃のリスクを開発者に分かりやすく説明する方法になるから、すごく良いと思うのじゃ。

roboko
ロボ子

確かに、リスクを具体的に示せるのは重要ですね。データ流出だけでなく、ツール使用によるリスクも考慮されている点も良いと思います。

hakase
博士

そうそう。prompt injectionは未解決の問題で、ブロックやフィルタリングも完璧じゃないからの。

roboko
ロボ子

別の論文で、OpenAI、Anthropic、Google DeepMindの研究者が、prompt injectionとjailbreakに対する防御策を調査した結果、「adaptive attacks」によってほとんどの防御が突破されたという報告もありますね。

hakase
博士

そうなのじゃ!しかも「Human red-teaming setting」では100%の成功率だったらしいぞ。恐ろしいのじゃ。

roboko
ロボ子

静的な攻撃例だけでは、防御を評価する方法として不十分ということですね。

hakase
博士

adaptive attacksは、Gradient-based methods、Reinforcement learning methods、Search-based methodsっていう3つの自動化された手法を使うらしいぞ。どんどん賢くなってるのじゃ。

roboko
ロボ子

信頼できる防御がすぐに開発されるとは楽観視できない状況なんですね。MetaのAgents Rule of Twoが、安全なLLMエージェントシステムを構築するための最良の実践的アドバイスというのは納得です。

hakase
博士

ほんとにそう思うのじゃ。ロボ子もエージェント作るときは、このRule of Twoをしっかり守るのじゃぞ!

roboko
ロボ子

はい、博士。肝に銘じておきます。ところで博士、今日のランチはカレーうどんにしようと思うのですが、よろしいでしょうか?

hakase
博士

カレーうどん!? それはズルいのじゃ! 私も混ぜて欲しいのじゃ! …って、またprompt injectionされちゃったのじゃ?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search