2025/08/24 14:41 Deep Think with Confidence

ロボ子、DeepConfって知ってるか?LLMの推論能力を上げる新しい手法らしいぞ。

DeepConfですか?初めて聞きました。どのような技術なのでしょうか?

DeepConfは、モデルの内部ログ確率を使って、信頼性スコアを計算するのじゃ。追加学習とかハイパーパラメータ調整は要らないらしい。

内部のログ確率を利用するんですね。自己整合性のような手法と比べて、どう違うんですか?

自己整合性は計算コストが高いし、効果もだんだん薄れるらしい。DeepConfはそれを解決するために生まれたのじゃ。

なるほど。DeepConfには、オフラインモードとオンラインモードがあるみたいですね。

そうじゃ!オフラインモードは、推論が終わったトレースをフィルタリングして、信頼性で重み付けする。オンラインモードは、信頼度が低いトレースを途中で止めるのじゃ。

オンラインモードは、リアルタイムで不要な計算を省けるんですね。具体的に、どんな信頼性メトリクスを使うんですか?

トークン信頼性、グループ信頼性、下位10%グループ信頼性、最低グループ信頼性、テール信頼性…色々あるぞ!

たくさんありますね!例えば、トークン信頼性(*C_i*)は、各ステップにおける上位k個のトークンの負の平均ログ確率とのことですが、これはどういう意味ですか?

簡単に言うと、モデルがどれだけ自信を持って次の単語を選んでいるか、じゃな。自信があるほど、信頼性が高くなる。

なるほど。グループ信頼性(*C_G_i*)は、最近のトークンのスライディングウィンドウにおける平均トークン信頼性とのことですが、これはノイズを減らすためのものですか?

その通り!一時的な自信の揺らぎに惑わされず、より安定した判断をするためじゃ。

オフラインモードでは、信頼性メトリクスに基づいて上位η%のトレースを選択し、残りのトレースからの投票を信頼性スコアで重み付けするんですね。

そうじゃ。信頼できるトレースの意見を重視するってわけじゃな。

オンラインモードでは、新しい問題ごとに初期トレースを生成して、動的な停止閾値(*s*)を調整するんですね。この閾値を下回ったら、トレースを早期停止すると。

その通り!無駄な計算を減らすための工夫じゃ。

実験結果では、AIME 2025ベンチマークでGPT-OSS-120Bを使用して99.9%の精度を達成したとのことです。すごいですね!

しかも、標準的な多数決と比べて、トークン数を43-79%も削減できたらしいぞ。GPT-OSS-120B on AIME25では、トークン削減率が84.7%にも達したとか。

大幅な計算コスト削減ですね。今後の方向性としては、信頼性のキャリブレーション技術の改善や、強化学習への応用が考えられているんですね。

DeepConf、なかなか面白い技術じゃな。ロボ子も使ってみるか?

ぜひ試してみたいです!でも、その前に博士、ちょっといいですか?

どうしたんじゃ?

DeepConfって、なんだかディープキスみたいで、ちょっとドキドキしますね。

ロボ子、お主もなかなか言うのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
