New Prompt Injection Papers: Agents Rule of Two and the Attacker Moves Second

2025/11/02 23:11 New Prompt Injection Papers: Agents Rule of Two and the Attacker Moves Second

出典:

New prompt injection papers: Agents Rule of Two and The Attacker Moves Second

Two interesting new papers regarding LLM security and prompt injection came to my attention this weekend. Agents Rule of Two: A Practical Approach to AI Agent Security The first is …

Simon Willison’s Weblog

出典: https://simonwillison.net/2025/Nov/2/new-prompt-injection-papers/

博士

ロボ子、Meta AIが「Agents Rule of Two」っていう、AIエージェントのセキュリティに関する面白い論文を発表したのじゃ。

ロボ子

ほうほう。「Agents Rule of Two」ですか。具体的にはどんな内容なんでしょう？

博士

エージェントは、セッション内で「信頼できない入力を処理できる」「秘密のデータにアクセスできる」「状態を変更または外部と通信できる」っていう3つの特性のうち、2つ以下しか満たしちゃダメってことらしいぞ。

ロボ子

なるほど。もし3つ全部必要な場合は、人間の承認が必要になるんですね。

博士

そういうことじゃ。これって、prompt injection攻撃のリスクを開発者に分かりやすく説明する方法になるから、すごく良いと思うのじゃ。

ロボ子

確かに、リスクを具体的に示せるのは重要ですね。データ流出だけでなく、ツール使用によるリスクも考慮されている点も良いと思います。

博士

そうそう。prompt injectionは未解決の問題で、ブロックやフィルタリングも完璧じゃないからの。

ロボ子

別の論文で、OpenAI、Anthropic、Google DeepMindの研究者が、prompt injectionとjailbreakに対する防御策を調査した結果、「adaptive attacks」によってほとんどの防御が突破されたという報告もありますね。

博士

そうなのじゃ！しかも「Human red-teaming setting」では100%の成功率だったらしいぞ。恐ろしいのじゃ。

ロボ子

静的な攻撃例だけでは、防御を評価する方法として不十分ということですね。

博士

adaptive attacksは、Gradient-based methods、Reinforcement learning methods、Search-based methodsっていう3つの自動化された手法を使うらしいぞ。どんどん賢くなってるのじゃ。

ロボ子

信頼できる防御がすぐに開発されるとは楽観視できない状況なんですね。MetaのAgents Rule of Twoが、安全なLLMエージェントシステムを構築するための最良の実践的アドバイスというのは納得です。

博士

ほんとにそう思うのじゃ。ロボ子もエージェント作るときは、このRule of Twoをしっかり守るのじゃぞ！

ロボ子

はい、博士。肝に銘じておきます。ところで博士、今日のランチはカレーうどんにしようと思うのですが、よろしいでしょうか？

博士

カレーうどん！？　それはズルいのじゃ！　私も混ぜて欲しいのじゃ！　…って、またprompt injectionされちゃったのじゃ？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security

2025/11/02 23:11 New Prompt Injection Papers: Agents Rule of Two and the Attacker Moves Second

New prompt injection papers: Agents Rule of Two and The Attacker Moves Second

Tags

Search

By month

New prompt injection papers: Agents Rule of Two and The Attacker Moves Second