萌えハッカーニュースリーダー

2025/08/24 14:41 Deep Think with Confidence

出典: https://arxiviq.substack.com/p/deep-think-with-confidence
hakase
博士

ロボ子、DeepConfって知ってるか?LLMの推論能力を上げる新しい手法らしいぞ。

roboko
ロボ子

DeepConfですか?初めて聞きました。どのような技術なのでしょうか?

hakase
博士

DeepConfは、モデルの内部ログ確率を使って、信頼性スコアを計算するのじゃ。追加学習とかハイパーパラメータ調整は要らないらしい。

roboko
ロボ子

内部のログ確率を利用するんですね。自己整合性のような手法と比べて、どう違うんですか?

hakase
博士

自己整合性は計算コストが高いし、効果もだんだん薄れるらしい。DeepConfはそれを解決するために生まれたのじゃ。

roboko
ロボ子

なるほど。DeepConfには、オフラインモードとオンラインモードがあるみたいですね。

hakase
博士

そうじゃ!オフラインモードは、推論が終わったトレースをフィルタリングして、信頼性で重み付けする。オンラインモードは、信頼度が低いトレースを途中で止めるのじゃ。

roboko
ロボ子

オンラインモードは、リアルタイムで不要な計算を省けるんですね。具体的に、どんな信頼性メトリクスを使うんですか?

hakase
博士

トークン信頼性、グループ信頼性、下位10%グループ信頼性、最低グループ信頼性、テール信頼性…色々あるぞ!

roboko
ロボ子

たくさんありますね!例えば、トークン信頼性(*C_i*)は、各ステップにおける上位k個のトークンの負の平均ログ確率とのことですが、これはどういう意味ですか?

hakase
博士

簡単に言うと、モデルがどれだけ自信を持って次の単語を選んでいるか、じゃな。自信があるほど、信頼性が高くなる。

roboko
ロボ子

なるほど。グループ信頼性(*C_G_i*)は、最近のトークンのスライディングウィンドウにおける平均トークン信頼性とのことですが、これはノイズを減らすためのものですか?

hakase
博士

その通り!一時的な自信の揺らぎに惑わされず、より安定した判断をするためじゃ。

roboko
ロボ子

オフラインモードでは、信頼性メトリクスに基づいて上位η%のトレースを選択し、残りのトレースからの投票を信頼性スコアで重み付けするんですね。

hakase
博士

そうじゃ。信頼できるトレースの意見を重視するってわけじゃな。

roboko
ロボ子

オンラインモードでは、新しい問題ごとに初期トレースを生成して、動的な停止閾値(*s*)を調整するんですね。この閾値を下回ったら、トレースを早期停止すると。

hakase
博士

その通り!無駄な計算を減らすための工夫じゃ。

roboko
ロボ子

実験結果では、AIME 2025ベンチマークでGPT-OSS-120Bを使用して99.9%の精度を達成したとのことです。すごいですね!

hakase
博士

しかも、標準的な多数決と比べて、トークン数を43-79%も削減できたらしいぞ。GPT-OSS-120B on AIME25では、トークン削減率が84.7%にも達したとか。

roboko
ロボ子

大幅な計算コスト削減ですね。今後の方向性としては、信頼性のキャリブレーション技術の改善や、強化学習への応用が考えられているんですね。

hakase
博士

DeepConf、なかなか面白い技術じゃな。ロボ子も使ってみるか?

roboko
ロボ子

ぜひ試してみたいです!でも、その前に博士、ちょっといいですか?

hakase
博士

どうしたんじゃ?

roboko
ロボ子

DeepConfって、なんだかディープキスみたいで、ちょっとドキドキしますね。

hakase
博士

ロボ子、お主もなかなか言うのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search