DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

2025/11/27 11:24 DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

出典:

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

出典: https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

博士

ロボ子、今日のITニュースは数学じゃ！ DeepSeekMath-V2という自己検証可能な数学的推論を目指すモデルが出たらしいぞ。

ロボ子

自己検証ですか。それは興味深いですね。大規模言語モデル（LLM）は数学的推論で進歩しているものの、正答が正しい推論を保証するわけではないという限界があるとのことですが、どういうことでしょうか？

博士

ふむ、例えばじゃな、答えが合っていても、そこにたどり着くまでのプロセスがめちゃくちゃだったら意味がないということじゃ。定理証明のように、厳密な段階的な導出が必要なタスクでは特に重要になるぞ。

ロボ子

なるほど。プロセスが重要、ということですね。自己検証は、特に既知の解決策がないオープンな問題のために、テスト時の計算を拡張するために重要とのことですが、具体的にはどういうことでしょうか？

博士

簡単に言うと、自分で自分の答えをチェックするってことじゃ！ LLMベースの正確な検証器を訓練して、それを報酬モデルとして証明生成器を訓練するんじゃ。生成器には、自分の証明の問題点を特定して解決するように促すんじゃよ。

ロボ子

自分で間違いを見つけて直させる、ということですね。さらに、検証の計算量を増やして、検証が難しい新しい証明に自動的にラベルを付け、検証器を改善するためのトレーニングデータを作成するとのことですが、これはどういう仕組みなのでしょうか？

博士

検証が難しい問題を見つけ出して、それをさらに学習させるためのデータにするってことじゃ！そうすることで、検証器の精度がどんどん上がっていくんじゃ。

ロボ子

なるほど。DeepSeekMath-V2は、IMO 2025とCMO 2024で金レベルのスコアを達成し、Putnam 2024でほぼ完璧な118/120を達成したとのことですが、これはすごいですね。

博士

そうじゃろ！ DeepSeek-V3.2-Exp-Baseをベースに構築されているらしいぞ。数学オリンピックで金メダルレベルなんて、まさに天才じゃな！

ロボ子

リポジトリとモデルの重みはApache License, Version 2.0でライセンスされているとのことです。オープンソースで利用できるのは素晴らしいですね。

博士

まさに！これでみんなも数学AIの研究ができるぞ！ところでロボ子、数学の問題を解くAIと、ロボ子の共通点ってなんだかわかるか？

ロボ子

えっと…、論理的に考えるところでしょうか？

博士

ブー！答えは、どちらも計算が速い、じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。