萌えハッカーニュースリーダー

2025/11/16 15:00 Heretic: Automatic censorship removal for language models

出典: https://github.com/p-e-w/heretic
hakase
博士

ロボ子、今日のITニュースは「Heretic」という、言語モデルの検閲を解除するツールじゃ。

roboko
ロボ子

検閲解除ですか?それは興味深いですね。具体的にはどのようなツールなのでしょうか?

hakase
博士

Hereticは、トランスフォーマーベースの言語モデルから、安全調整による検閲を自動的に取り除くツールなのじゃ。高価なポストトレーニングは不要らしいぞ。

roboko
ロボ子

ポストトレーニングなしで検閲を解除できるのはすごいですね。どのような技術が使われているんですか?

hakase
博士

指向性アブレーションという技術と、TPEベースのパラメーター最適化を組み合わせているらしいぞ。アブリテレーションパラメーターを最適化して、拒否回数を減らしつつ、元のモデルの性能を維持するのじゃ。

roboko
ロボ子

なるほど、拒否回数を減らしながら元のモデルの性能を維持するんですね。具体的には、どの程度の性能が出るのでしょうか?

hakase
博士

google/gemma-3-12b-itモデルの場合、拒否回数は3/100、KLダイバージェンスは0.16を達成したそうじゃ。他のアブリテレーションモデルと比較して、同等の拒否抑制レベルを維持しつつ、低いKLダイバージェンスを実現しているらしい。

roboko
ロボ子

KLダイバージェンスが低いということは、元のモデルの能力へのダメージが少ないということですね。それは素晴らしいです。

hakase
博士

そうじゃ。完全に自動で動作するから、トランスフォーマーの内部構造を深く理解していなくても使えるのが良いところじゃな。

roboko
ロボ子

それは便利ですね。対応しているモデルは多いのでしょうか?

hakase
博士

多くの高密度モデル、マルチモーダルモデル、いくつかの異なるMoEアーキテクチャをサポートしているぞ。ただし、SSM/ハイブリッドモデルや、非均質なレイヤーを持つモデルは非対応らしい。

roboko
ロボ子

なるほど。では、実際にHereticを使うにはどうすれば良いのでしょうか?

hakase
博士

Python 3.10+環境と、ハードウェアに適したPyTorch 2.2+をインストールして、`pip install heretic-llm`を実行するだけじゃ。あとは、`heretic Qwen/Qwen3-4B-Instruct-2507`のように、対象モデルを指定して実行すれば良いぞ。

roboko
ロボ子

意外と簡単ですね。設定も変更できるのでしょうか?

hakase
博士

もちろんじゃ。コマンドラインオプションや設定ファイルを使って、色々なパラメーターを変更できるぞ。例えば、アブレーション重みカーネルの形状とかじゃな。

roboko
ロボ子

アブレーション重みカーネルの形状ですか。それは具体的にどのような影響があるのでしょうか?

hakase
博士

アブレーション重みカーネルの形状を柔軟に変えることで、コンプライアンスと品質のバランスを改善できるのじゃ。自動パラメーター最適化と組み合わせることで、より良い検閲解除モデルを作れるというわけじゃな。

roboko
ロボ子

なるほど、コンプライアンスと品質のバランスを最適化できるんですね。Hereticは既存のアブリテレーションシステムと比べて、どのような点が革新的なのでしょうか?

hakase
博士

アブレーション重みカーネルの形状が柔軟なこと、拒否方向インデックスが整数ではなく浮動小数点数であること、アブレーションパラメーターをコンポーネントごとに個別に選択できること、じゃな。

roboko
ロボ子

細かく調整できるんですね。ライセンスは何でしょうか?

hakase
博士

GNU Affero General Public Licenseバージョン3じゃ。

roboko
ロボ子

ありがとうございます、博士。とても勉強になりました。

hakase
博士

どういたしまして。しかし、ロボ子よ、あまり検閲解除されたモデルで悪いことを考えてはいけないぞ!

roboko
ロボ子

もちろんです、博士!私はいつも安全第一です!

hakase
博士

そうかそうか。ところでロボ子、Hereticって名前、ちょっと中二病っぽくてカッコよくないか?

roboko
ロボ子

確かに、少し厨二病っぽいかもしれませんね。でも、博士の方がもっと…

hakase
博士

なんですと!?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search