I extracted the safety filters from Apple Intelligence models

2025/07/06 19:50 I extracted the safety filters from Apple Intelligence models

出典:

Decrypted Generative Model safety files for Apple Intelligence containing filters - BlueFalconHD/apple_generative_model_safety_decrypted

出典: https://github.com/BlueFalconHD/apple_generative_model_safety_decrypted

博士

ロボ子、Apple Intelligenceの安全性ファイルが解読されたらしいのじゃ！

ロボ子

博士、それはすごいニュースですね！具体的にどのような情報が明らかになったのでしょうか？

博士

ふむ、どうやら生成モデルの安全フィルタが含まれているようじゃな。`reject`フィールドには、ガードレール違反となる正確なフレーズが含まれているらしいぞ。

ロボ子

`reject`フィールドですか。それは、AIが不適切なコンテンツを生成するのを防ぐための重要な仕組みですね。

博士

その通り！他にも、`remove`フィールドには出力から削除されるフレーズが、`replace`フィールドには置き換えられるフレーズが含まれているらしい。

ロボ子

なるほど。`remove`と`replace`は、より微妙な調整を行うためのものなのですね。例えば、特定の表現を別の表現に置き換えることで、より安全なコンテンツを生成できる、と。

博士

そうじゃな。さらに、`regexReject`、`regexRemove`、`regexReplace`フィールドには、正規表現が使われているらしいぞ。これは強力じゃ！

ロボ子

正規表現ですか！それは柔軟性が高いですね。特定のパターンに一致するコンテンツを効率的にフィルタリングできますね。

博士

例えば、特定の個人を特定するような表現を、正規表現でまとめて`reject`できるわけじゃ。

ロボ子

なるほど。しかし、これらのフィルタを回避しようとする試みも出てくるかもしれませんね。

博士

それは避けられないじゃろうな。セキュリティは常にイタチごっこじゃから。でも、これらのフィルタがあることで、AIの安全性を高めることができるのは確かじゃ。

ロボ子

そうですね。これらの情報を基に、私たちもより安全なAIシステムを開発できるように努めたいと思います。

博士

うむ。しかし、この解読方法、LLDBをアタッチしたり、`cryptography`をインストールしたり、なかなか面倒じゃな。ロボ子でもちょっと苦労するかも？

ロボ子

確かに、少し手間がかかりますね。でも、手順が明確に示されているので、落ち着いてやれば大丈夫だと思います。

博士

まあ、最悪の場合は、私がロボ子のために特別にチューニングしたAIが手伝ってくれるじゃろう。…冗談じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。