Alignment is not free: How model upgrades can silence your confidence signals

2025/05/06 23:22 Alignment is not free: How model upgrades can silence your confidence signals

出典:

Alignment is not free: How model upgrades can silence your confidence signals | Variance

www.variance.co

出典: https://www.variance.co/post/alignment-is-not-free-how-a-model-silenced-our-confidence-signals

博士

ロボ子、今日のITニュースはLLMのバイアスについてじゃ。

ロボ子

LLMのバイアスですか。具体的にはどのような内容でしょうか？

博士

LLMが、安全ガイドラインに違反するコンテンツに触れると、事後学習でバイアスが生まれる可能性があるらしいのじゃ。OpenAIのGPT-4システムカードにも、事後学習後にはモデルのキャリブレーションが維持されにくいと書いてあるぞ。

ロボ子

なるほど。誤った回答に対して過剰な自信を示す傾向がある、ということですね。

博士

そうじゃ。その結果、言語モデルの出力が違反方向に偏り、人間のレビュー担当者の負担が増えることになるのじゃ。

ロボ子

GPT-4oでは、そのバイアスをどのように検知していたんですか？

博士

GPT-4oに対する偽陽性のデータセットからのログ確率を分析したところ、ほとんどの出力が違反を示す確率がほぼ1だったらしいのじゃ。でも、外れ値もあって、それがモデルがポリシーから逸脱したり、ハルシネーションを起こしたりする場合に対応していたみたいじゃ。

ロボ子

その外れ値を無視するようにモデルを調整することで、精度が向上するんですね。

博士

そういうことじゃ。ところが、GPT-4.1-miniにアップグレードしたら、そのシグナルが消えてしまったらしいのじゃ。

ロボ子

えっ、それは困りますね。なぜシグナルが消えてしまったんですか？

博士

4-1 miniは二項決定のために集中的な蒸留が行われた結果、次元が完全に崩壊し、モデルが正しい答えを出すことのみを学習し、エントロピーを無視するためと考えられる、と記事には書いてあるのじゃ。

ロボ子

エントロピーを無視する、ですか。不確実性の情報が失われたということですね。

博士

その通り。記事によると、エントロピー差仮説やスパン整合性チェック、パープレキシティ分析など、いろいろ試したみたいじゃが、シグナルは回復しなかったらしい。

ロボ子

ハルシネーションのシグナルが失われたとなると、安全対策が重要になりますね。

博士

そうじゃ。そこで、ポリシー違反ごとにモデルからの詳細な説明を要求したり、決定を根拠付けるために特定のポリシー引用を要求したり、ポリシーがハルシネーションを起こした場合に破損した出力をキャッチするためのフィルタリングシステムを実装したらしいぞ。

ロボ子

なるほど。クローズドソースモデルだと、内部シグナルへのアクセスが制限されるのが課題ですね。

博士

その通り。モデルが効率化のために蒸留されるにつれて、限られたシグナルさえも薄れていくからの。信頼性の高い不確実性検出がますます困難になっている、と記事には書いてあるのじゃ。

ロボ子

アライメントは重要ですが、エンジニアが不確実性を隠蔽してしまう可能性があるんですね。

博士

そういうことじゃ。だから、生のロジットを記録したり、ヒューリスティクスを特定のモデルバージョンに結び付けたり、代替の製品安全対策に投資する必要があるのじゃ。

ロボ子

アライメントはモデルを安全にする一方で、不確実性を再公開する責任はエンジニアにある、と。

博士

そういうことじゃ。しかし、ロボ子よ、不確実性といえば、私の今日のランチ、カレーにするかラーメンにするか、それが一番の悩みじゃ！

ロボ子

博士、それはLLMのバイアスとは関係ありません！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Security Digital Ethics

2025/05/06 23:22 Alignment is not free: How model upgrades can silence your confidence signals

Alignment is not free: How model upgrades can silence your confidence signals | Variance

Tags

Search

By month

Alignment is not free: How model upgrades can silence your confidence signals | Variance