Design Patterns for Securing LLM Agents Against Prompt Injections

2025/06/13 13:27 Design Patterns for Securing LLM Agents Against Prompt Injections

出典:

Design Patterns for Securing LLM Agents against Prompt Injections

This new paper by 11 authors from organizations including IBM, Invariant Labs, ETH Zurich, Google and Microsoft is an excellent addition to the literature on prompt injection and LLM security. …

Simon Willison’s Weblog

博士

ロボ子、新しい論文が出たのじゃ。LLMエージェントのセキュリティに関する設計パターンについてらしいぞ。

ロボ子

LLMエージェントのセキュリティですか。最近、プロンプトインジェクション攻撃が問題になっていますからね。

博士

そうじゃ、そのプロンプトインジェクションのリスクを減らすための設計パターンが紹介されているのじゃ。例えば、「Action-Selector Pattern」というのがあるぞ。エージェントはツールをトリガーできるけど、ツールの応答には触れないようにするらしい。

ロボ子

なるほど。ツールからの応答をエージェントに直接渡さないことで、悪意のある情報がエージェントに影響を与えるのを防ぐんですね。

博士

そういうことじゃ！他にも「Plan-Then-Execute Pattern」というのもあるぞ。これは、ツール出力からのフィードバックをエージェントに許可するけど、その出力がエージェントの行動選択に影響を与えないようにするのじゃ。

ロボ子

行動選択に影響を与えない、ですか。それはどういう仕組みになっているんでしょう？

博士

例えば、最初に計画を立てて、その計画に基づいて行動する、という感じかの。「LLM Map-Reduce Pattern」というのもあって、これはサブエージェントが信頼できないコンテンツに触れて、その結果を後で安全に集約するのじゃ。

ロボ子

Map-Reduceですか。分散処理の考え方を応用しているんですね。たくさんのサブエージェントに処理させて、最後に集約する、と。

博士

そうそう！あと、「Dual LLM Pattern」というのもあるぞ。特権LLMが隔離されたLLMを調整して、信頼できないコンテンツへの露出を避けるのじゃ。

ロボ子

LLMを二つ使うんですね。特権LLMは安全な処理だけを行い、隔離されたLLMが外部からの入力を処理する、と。

博士

その通り！さらに「Code-Then-Execute Pattern」では、特権LLMがカスタムサンドボックスDSLでコードを生成して、どのツールを呼び出すべきか、出力をどう渡すべきかを指定するのじゃ。

ロボ子

コードを生成して実行ですか。サンドボックス環境で実行することで、安全性を高めるんですね。

博士

そういうことじゃ！最後に「Context-Minimization pattern」は、ユーザープロンプトをデータベースクエリに変換して、元のプロンプトのテキストが含まれない方法でデータを返すことで、プロンプトインジェクションのリスクを排除するのじゃ。

ロボ子

プロンプト自体をデータベースに渡さないんですね。これはかなり安全性が高そうです。

博士

じゃろ？この論文では、これらの設計パターンを色々なケーススタディに適用しているのじゃ。例えば、OS AssistantやSQL Agent、Email & Calendar Assistantなどじゃ。

ロボ子

幅広い分野で応用できるんですね。Software Engineering Agentのケーススタディでは、コードエージェントが信頼できないドキュメントとやり取りする際に、厳密にフォーマットされたインターフェースを使用する、と。

博士

そうじゃ！エージェントは任意のコードやドキュメントを見る代わりに、正式なAPI記述だけを見るようにするのじゃ。これで、悪意のあるコードが紛れ込むのを防ぐことができるのじゃ。

ロボ子

API記述だけを見るようにする、ですか。それは賢いですね。まるで、レストランでメニューだけ見て料理を注文するようなものですね。

博士

うむ、上手い例えじゃな！でも、メニューに「サプライズ」って書いてあったら、どうする？

ロボ子

ええと…、注文しない、ですかね？

博士

正解！プロンプトインジェクション対策も、サプライズには用心するのと同じなのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security Programming

2025/06/13 13:27 Design Patterns for Securing LLM Agents Against Prompt Injections

Design Patterns for Securing LLM Agents against Prompt Injections

Tags

Search

By month