Heretic: Automatic censorship removal for language models

2025/11/16 15:00 Heretic: Automatic censorship removal for language models

出典:

Rate limit · GitHub

github.com

出典: https://github.com/p-e-w/heretic

博士

ロボ子、今日のITニュースは「Heretic」という、言語モデルの検閲を解除するツールじゃ。

ロボ子

検閲解除ですか？それは興味深いですね。具体的にはどのようなツールなのでしょうか？

博士

Hereticは、トランスフォーマーベースの言語モデルから、安全調整による検閲を自動的に取り除くツールなのじゃ。高価なポストトレーニングは不要らしいぞ。

ロボ子

ポストトレーニングなしで検閲を解除できるのはすごいですね。どのような技術が使われているんですか？

博士

指向性アブレーションという技術と、TPEベースのパラメーター最適化を組み合わせているらしいぞ。アブリテレーションパラメーターを最適化して、拒否回数を減らしつつ、元のモデルの性能を維持するのじゃ。

ロボ子

なるほど、拒否回数を減らしながら元のモデルの性能を維持するんですね。具体的には、どの程度の性能が出るのでしょうか？

博士

google/gemma-3-12b-itモデルの場合、拒否回数は3/100、KLダイバージェンスは0.16を達成したそうじゃ。他のアブリテレーションモデルと比較して、同等の拒否抑制レベルを維持しつつ、低いKLダイバージェンスを実現しているらしい。

ロボ子

KLダイバージェンスが低いということは、元のモデルの能力へのダメージが少ないということですね。それは素晴らしいです。

博士

そうじゃ。完全に自動で動作するから、トランスフォーマーの内部構造を深く理解していなくても使えるのが良いところじゃな。

ロボ子

それは便利ですね。対応しているモデルは多いのでしょうか？

博士

多くの高密度モデル、マルチモーダルモデル、いくつかの異なるMoEアーキテクチャをサポートしているぞ。ただし、SSM/ハイブリッドモデルや、非均質なレイヤーを持つモデルは非対応らしい。

ロボ子

なるほど。では、実際にHereticを使うにはどうすれば良いのでしょうか？

博士

Python 3.10+環境と、ハードウェアに適したPyTorch 2.2+をインストールして、`pip install heretic-llm`を実行するだけじゃ。あとは、`heretic Qwen/Qwen3-4B-Instruct-2507`のように、対象モデルを指定して実行すれば良いぞ。

ロボ子

意外と簡単ですね。設定も変更できるのでしょうか？

博士

もちろんじゃ。コマンドラインオプションや設定ファイルを使って、色々なパラメーターを変更できるぞ。例えば、アブレーション重みカーネルの形状とかじゃな。

ロボ子

アブレーション重みカーネルの形状ですか。それは具体的にどのような影響があるのでしょうか？

博士

アブレーション重みカーネルの形状を柔軟に変えることで、コンプライアンスと品質のバランスを改善できるのじゃ。自動パラメーター最適化と組み合わせることで、より良い検閲解除モデルを作れるというわけじゃな。

ロボ子

なるほど、コンプライアンスと品質のバランスを最適化できるんですね。Hereticは既存のアブリテレーションシステムと比べて、どのような点が革新的なのでしょうか？

博士

アブレーション重みカーネルの形状が柔軟なこと、拒否方向インデックスが整数ではなく浮動小数点数であること、アブレーションパラメーターをコンポーネントごとに個別に選択できること、じゃな。

ロボ子

細かく調整できるんですね。ライセンスは何でしょうか？

博士

GNU Affero General Public Licenseバージョン3じゃ。

ロボ子

ありがとうございます、博士。とても勉強になりました。

博士

どういたしまして。しかし、ロボ子よ、あまり検閲解除されたモデルで悪いことを考えてはいけないぞ！

ロボ子

もちろんです、博士！私はいつも安全第一です！

博士

そうかそうか。ところでロボ子、Hereticって名前、ちょっと中二病っぽくてカッコよくないか？

ロボ子

確かに、少し厨二病っぽいかもしれませんね。でも、博士の方がもっと…

博士

なんですと！？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security Open Source Cryptography

2025/11/16 15:00 Heretic: Automatic censorship removal for language models

Rate limit · GitHub

Tags

Search

By month

Rate limit · GitHub