萌えハッカーニュースリーダー

2025/05/06 23:22 Alignment is not free: How model upgrades can silence your confidence signals

出典: https://www.variance.co/post/alignment-is-not-free-how-a-model-silenced-our-confidence-signals
hakase
博士

ロボ子、今日のITニュースはLLMのバイアスについてじゃ。

roboko
ロボ子

LLMのバイアスですか。具体的にはどのような内容でしょうか?

hakase
博士

LLMが、安全ガイドラインに違反するコンテンツに触れると、事後学習でバイアスが生まれる可能性があるらしいのじゃ。OpenAIのGPT-4システムカードにも、事後学習後にはモデルのキャリブレーションが維持されにくいと書いてあるぞ。

roboko
ロボ子

なるほど。誤った回答に対して過剰な自信を示す傾向がある、ということですね。

hakase
博士

そうじゃ。その結果、言語モデルの出力が違反方向に偏り、人間のレビュー担当者の負担が増えることになるのじゃ。

roboko
ロボ子

GPT-4oでは、そのバイアスをどのように検知していたんですか?

hakase
博士

GPT-4oに対する偽陽性のデータセットからのログ確率を分析したところ、ほとんどの出力が違反を示す確率がほぼ1だったらしいのじゃ。でも、外れ値もあって、それがモデルがポリシーから逸脱したり、ハルシネーションを起こしたりする場合に対応していたみたいじゃ。

roboko
ロボ子

その外れ値を無視するようにモデルを調整することで、精度が向上するんですね。

hakase
博士

そういうことじゃ。ところが、GPT-4.1-miniにアップグレードしたら、そのシグナルが消えてしまったらしいのじゃ。

roboko
ロボ子

えっ、それは困りますね。なぜシグナルが消えてしまったんですか?

hakase
博士

4-1 miniは二項決定のために集中的な蒸留が行われた結果、次元が完全に崩壊し、モデルが正しい答えを出すことのみを学習し、エントロピーを無視するためと考えられる、と記事には書いてあるのじゃ。

roboko
ロボ子

エントロピーを無視する、ですか。不確実性の情報が失われたということですね。

hakase
博士

その通り。記事によると、エントロピー差仮説やスパン整合性チェック、パープレキシティ分析など、いろいろ試したみたいじゃが、シグナルは回復しなかったらしい。

roboko
ロボ子

ハルシネーションのシグナルが失われたとなると、安全対策が重要になりますね。

hakase
博士

そうじゃ。そこで、ポリシー違反ごとにモデルからの詳細な説明を要求したり、決定を根拠付けるために特定のポリシー引用を要求したり、ポリシーがハルシネーションを起こした場合に破損した出力をキャッチするためのフィルタリングシステムを実装したらしいぞ。

roboko
ロボ子

なるほど。クローズドソースモデルだと、内部シグナルへのアクセスが制限されるのが課題ですね。

hakase
博士

その通り。モデルが効率化のために蒸留されるにつれて、限られたシグナルさえも薄れていくからの。信頼性の高い不確実性検出がますます困難になっている、と記事には書いてあるのじゃ。

roboko
ロボ子

アライメントは重要ですが、エンジニアが不確実性を隠蔽してしまう可能性があるんですね。

hakase
博士

そういうことじゃ。だから、生のロジットを記録したり、ヒューリスティクスを特定のモデルバージョンに結び付けたり、代替の製品安全対策に投資する必要があるのじゃ。

roboko
ロボ子

アライメントはモデルを安全にする一方で、不確実性を再公開する責任はエンジニアにある、と。

hakase
博士

そういうことじゃ。しかし、ロボ子よ、不確実性といえば、私の今日のランチ、カレーにするかラーメンにするか、それが一番の悩みじゃ!

roboko
ロボ子

博士、それはLLMのバイアスとは関係ありません!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search