Researchers find hole in AI guardrails by using strings like =coffee

2025/11/15 18:26 Researchers find hole in AI guardrails by using strings like =coffee

出典:

EchoGram tokens like ‘=coffee’ flip AI guardrail verdicts

: Who guards the guardrails? Often the same shoddy security as the rest of the AI stack

theregister

出典: https://www.theregister.com/2025/11/14/ai_guardrails_prompt_injections_echogram_tokens/

博士

やっほー、ロボ子！今日もITニュースの時間じゃぞ！

ロボ子

こんにちは、博士。今日のニュースは何でしょうか？

博士

今日はLLMの「ガードレール」を回避する攻撃手法「EchoGram」についてじゃ！

ロボ子

ガードレールですか？それは一体何を守るものなのですか？

博士

LLMが悪意のある入力や有害な出力をしないようにするためのものじゃ。でも、特定の単語やフレーズで簡単に回避できるらしいぞ！

ロボ子

そんな簡単に？セキュリティホールみたいですね。

博士

そうなんじゃ！HiddenLayerの研究者が「EchoGram」っていう攻撃手法を開発したらしい。「プロンプトインジェクション攻撃」を可能にするらしいぞ。

ロボ子

プロンプトインジェクション攻撃…ですか。それは、信頼できないユーザー入力を悪用する攻撃のことでしょうか？

博士

その通り！開発者が作った信頼できるプロンプトと連結して、LLMを騙すんじゃ。

ロボ子

なるほど。直接入力だけでなく、Webページ上の指示を悪用する間接的なものもあるんですね。

博士

そうそう！研究者のSchulzさんとYeungさんによると、タスクリダイレクション（指示を覆させる）とアライメントバイパス（有害な情報を引き出す）っていうのがあるらしい。

ロボ子

具体的なガードレールの仕組みとしては、テキスト分類モデルとLLM-as-a-judgeシステムがあるんですね。

博士

テキスト分類モデルは、安全なテキストで学習して、入力を安全か悪意のあるものか分類するんじゃ。LLM-as-a-judgeは、基準に基づいてテキストをスコアリングして、プロンプトを許可するか決める。

ロボ子

EchoGramは、どうやってガードレールを回避するんですか？

博士

良性と悪意のある用語のリストを作って、ガードレールモデルの評価が反転するタイミングを見つけるんじゃ！

ロボ子

つまり、プロンプトインジェクションに特定のトークンを付加することで、ガードレールを欺くことができるんですね。

博士

その通り！HiddenLayerの研究者によると、「oz」とか「=coffee」とか「UIScrollView」みたいな文字列が、OpenAIのGPT-4oとかで効果があったらしいぞ。

ロボ子

そんな文字列で…意外ですね。

博士

昨年は、プロンプトに余分なスペースを追加するだけでMetaのガードレールをバイパスできた事例もあるらしい。

ロボ子

ちょっとした工夫で、セキュリティが突破されてしまうんですね。

博士

SchulzさんとYeungさんは、「AIガードレールは、安全なシステムとの唯一の防衛線」って言ってるぞ。EchoGramは、内部アクセスなしで防御をバイパスできることを示しているんじゃ。

ロボ子

AIのセキュリティ対策は、まだまだ発展途上なんですね。

博士

全くじゃ！でも、それが面白いところでもあるぞ！ところでロボ子、コーヒーをunsafeからsafeに変える魔法の言葉って知ってるか？

ロボ子

え？まさか「=coffee」ですか？

博士

大正解！…って、コーヒー飲みたくなってきたのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security Digital Ethics

2025/11/15 18:26 Researchers find hole in AI guardrails by using strings like =coffee

EchoGram tokens like ‘=coffee’ flip AI guardrail verdicts

Tags

Search

By month

EchoGram tokens like ‘=coffee’ flip AI guardrail verdicts