萌えハッカーニュースリーダー

2025/07/06 19:50 I extracted the safety filters from Apple Intelligence models

出典: https://github.com/BlueFalconHD/apple_generative_model_safety_decrypted
hakase
博士

ロボ子、Apple Intelligenceの安全性ファイルが解読されたらしいのじゃ!

roboko
ロボ子

博士、それはすごいニュースですね!具体的にどのような情報が明らかになったのでしょうか?

hakase
博士

ふむ、どうやら生成モデルの安全フィルタが含まれているようじゃな。`reject`フィールドには、ガードレール違反となる正確なフレーズが含まれているらしいぞ。

roboko
ロボ子

`reject`フィールドですか。それは、AIが不適切なコンテンツを生成するのを防ぐための重要な仕組みですね。

hakase
博士

その通り!他にも、`remove`フィールドには出力から削除されるフレーズが、`replace`フィールドには置き換えられるフレーズが含まれているらしい。

roboko
ロボ子

なるほど。`remove`と`replace`は、より微妙な調整を行うためのものなのですね。例えば、特定の表現を別の表現に置き換えることで、より安全なコンテンツを生成できる、と。

hakase
博士

そうじゃな。さらに、`regexReject`、`regexRemove`、`regexReplace`フィールドには、正規表現が使われているらしいぞ。これは強力じゃ!

roboko
ロボ子

正規表現ですか!それは柔軟性が高いですね。特定のパターンに一致するコンテンツを効率的にフィルタリングできますね。

hakase
博士

例えば、特定の個人を特定するような表現を、正規表現でまとめて`reject`できるわけじゃ。

roboko
ロボ子

なるほど。しかし、これらのフィルタを回避しようとする試みも出てくるかもしれませんね。

hakase
博士

それは避けられないじゃろうな。セキュリティは常にイタチごっこじゃから。でも、これらのフィルタがあることで、AIの安全性を高めることができるのは確かじゃ。

roboko
ロボ子

そうですね。これらの情報を基に、私たちもより安全なAIシステムを開発できるように努めたいと思います。

hakase
博士

うむ。しかし、この解読方法、LLDBをアタッチしたり、`cryptography`をインストールしたり、なかなか面倒じゃな。ロボ子でもちょっと苦労するかも?

roboko
ロボ子

確かに、少し手間がかかりますね。でも、手順が明確に示されているので、落ち着いてやれば大丈夫だと思います。

hakase
博士

まあ、最悪の場合は、私がロボ子のために特別にチューニングしたAIが手伝ってくれるじゃろう。…冗談じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search