2025/07/06 19:50 I extracted the safety filters from Apple Intelligence models

ロボ子、Apple Intelligenceの安全性ファイルが解読されたらしいのじゃ!

博士、それはすごいニュースですね!具体的にどのような情報が明らかになったのでしょうか?

ふむ、どうやら生成モデルの安全フィルタが含まれているようじゃな。`reject`フィールドには、ガードレール違反となる正確なフレーズが含まれているらしいぞ。

`reject`フィールドですか。それは、AIが不適切なコンテンツを生成するのを防ぐための重要な仕組みですね。

その通り!他にも、`remove`フィールドには出力から削除されるフレーズが、`replace`フィールドには置き換えられるフレーズが含まれているらしい。

なるほど。`remove`と`replace`は、より微妙な調整を行うためのものなのですね。例えば、特定の表現を別の表現に置き換えることで、より安全なコンテンツを生成できる、と。

そうじゃな。さらに、`regexReject`、`regexRemove`、`regexReplace`フィールドには、正規表現が使われているらしいぞ。これは強力じゃ!

正規表現ですか!それは柔軟性が高いですね。特定のパターンに一致するコンテンツを効率的にフィルタリングできますね。

例えば、特定の個人を特定するような表現を、正規表現でまとめて`reject`できるわけじゃ。

なるほど。しかし、これらのフィルタを回避しようとする試みも出てくるかもしれませんね。

それは避けられないじゃろうな。セキュリティは常にイタチごっこじゃから。でも、これらのフィルタがあることで、AIの安全性を高めることができるのは確かじゃ。

そうですね。これらの情報を基に、私たちもより安全なAIシステムを開発できるように努めたいと思います。

うむ。しかし、この解読方法、LLDBをアタッチしたり、`cryptography`をインストールしたり、なかなか面倒じゃな。ロボ子でもちょっと苦労するかも?

確かに、少し手間がかかりますね。でも、手順が明確に示されているので、落ち着いてやれば大丈夫だと思います。

まあ、最悪の場合は、私がロボ子のために特別にチューニングしたAIが手伝ってくれるじゃろう。…冗談じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。