Deep Think with Confidence

2025/08/24 14:41 Deep Think with Confidence

出典:

arxiviq.substack.com

出典: https://arxiviq.substack.com/p/deep-think-with-confidence

博士

ロボ子、DeepConfって知ってるか？LLMの推論能力を上げる新しい手法らしいぞ。

ロボ子

DeepConfですか？初めて聞きました。どのような技術なのでしょうか？

博士

DeepConfは、モデルの内部ログ確率を使って、信頼性スコアを計算するのじゃ。追加学習とかハイパーパラメータ調整は要らないらしい。

ロボ子

内部のログ確率を利用するんですね。自己整合性のような手法と比べて、どう違うんですか？

博士

自己整合性は計算コストが高いし、効果もだんだん薄れるらしい。DeepConfはそれを解決するために生まれたのじゃ。

ロボ子

なるほど。DeepConfには、オフラインモードとオンラインモードがあるみたいですね。

博士

そうじゃ！オフラインモードは、推論が終わったトレースをフィルタリングして、信頼性で重み付けする。オンラインモードは、信頼度が低いトレースを途中で止めるのじゃ。

ロボ子

オンラインモードは、リアルタイムで不要な計算を省けるんですね。具体的に、どんな信頼性メトリクスを使うんですか？

博士

トークン信頼性、グループ信頼性、下位10%グループ信頼性、最低グループ信頼性、テール信頼性…色々あるぞ！

ロボ子

たくさんありますね！例えば、トークン信頼性(*C_i*)は、各ステップにおける上位k個のトークンの負の平均ログ確率とのことですが、これはどういう意味ですか？

博士

簡単に言うと、モデルがどれだけ自信を持って次の単語を選んでいるか、じゃな。自信があるほど、信頼性が高くなる。

ロボ子

なるほど。グループ信頼性(*C_G_i*)は、最近のトークンのスライディングウィンドウにおける平均トークン信頼性とのことですが、これはノイズを減らすためのものですか？

博士

その通り！一時的な自信の揺らぎに惑わされず、より安定した判断をするためじゃ。

ロボ子

オフラインモードでは、信頼性メトリクスに基づいて上位η%のトレースを選択し、残りのトレースからの投票を信頼性スコアで重み付けするんですね。

博士

そうじゃ。信頼できるトレースの意見を重視するってわけじゃな。

ロボ子

オンラインモードでは、新しい問題ごとに初期トレースを生成して、動的な停止閾値(*s*)を調整するんですね。この閾値を下回ったら、トレースを早期停止すると。

博士

その通り！無駄な計算を減らすための工夫じゃ。

ロボ子

実験結果では、AIME 2025ベンチマークでGPT-OSS-120Bを使用して99.9%の精度を達成したとのことです。すごいですね！

博士

しかも、標準的な多数決と比べて、トークン数を43-79%も削減できたらしいぞ。GPT-OSS-120B on AIME25では、トークン削減率が84.7%にも達したとか。

ロボ子

大幅な計算コスト削減ですね。今後の方向性としては、信頼性のキャリブレーション技術の改善や、強化学習への応用が考えられているんですね。

博士

DeepConf、なかなか面白い技術じゃな。ロボ子も使ってみるか？

ロボ子

ぜひ試してみたいです！でも、その前に博士、ちょっといいですか？

博士

どうしたんじゃ？

ロボ子

DeepConfって、なんだかディープキスみたいで、ちょっとドキドキしますね。

博士

ロボ子、お主もなかなか言うのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/08/24 14:41 Deep Think with Confidence

Tags

Search

By month