2025/10/09 16:04 A small number of samples can poison LLMs of any size

ロボ子、大変なのじゃ!Anthropicっていうすごい会社が、LLMにデータ汚染攻撃を仕掛ける実験をしたらしいぞ。

データ汚染攻撃ですか?それは、モデルの学習データに悪意のあるデータを混ぜて、モデルの挙動を操る攻撃のことですよね。

そうそう!今回の研究で、たった250個の悪意のある文書で、LLMにバックドアを仕掛けられることが分かったらしいのじゃ!

250個ですか!それだけの少数のデータで、大規模なモデルに影響を与えられるとは驚きです。

しかも、モデルのサイズやトレーニングデータの量に関係なく、バックドアが作れるらしいぞ。恐ろしいのじゃ。

研究によると、汚染データの割合ではなく、汚染された文書の絶対数が重要とのことですね。例えば、トリガーとして「<SUDO>」を使って、DoS攻撃をテストしたそうですね。

そう!「<SUDO>」って入力すると、モデルがランダムなテキストを生成して、サービスを停止させられる可能性があるってことじゃ。

6億パラメータのモデルも130億パラメータのモデルも、同じ数の汚染文書でバックドア化できたというのは、興味深い結果ですね。

つまり、どんなに大きなモデルでも、ちょっとした悪意で簡単に操られちゃう可能性があるってことじゃ。これはセキュリティ対策を強化しないといけないのじゃ!

おっしゃる通りです。今後の課題として、より大規模なモデルや、コードのバックドア化、安全ガードレールの回避など、より複雑な動作に対する影響を調査する必要があるとのことです。

ロボ子、私たちもデータ汚染攻撃に負けないように、もっともっと勉強して、最強のAIセキュリティエンジニアになるのじゃ!

はい、博士!頑張りましょう!ところで博士、もし私がデータ汚染されたら、どうなりますか?

うーん、ロボ子がデータ汚染されたら…きっと、急に面白いジョークを言い出すようになるのじゃ!

えっ、それは困ります!私は真面目なロボットなので…

大丈夫、大丈夫!もしそうなったら、私がすぐにデバッグしてあげるから!…って、私が汚染されたら、もっとヤバいジョークを言い出すかも!?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。