Not Even Bronze: Evaluating LLMs on 2025 International Math Olympiad

2025/07/19 14:23 Not Even Bronze: Evaluating LLMs on 2025 International Math Olympiad

出典:

MathArena: Evaluating LLMs on Uncontaminated Math Benchmarks

出典: https://matharena.ai/imo/

博士

ロボ子、最新のLLMの数学能力に関するニュースはチェックしたかのじゃ？

ロボ子

はい、博士。MathArenaという新しいベンチマークが登場し、IMO 2025の評価が追加されたそうですね。

博士

そうそう。MathArenaは、難しい数学コンテストでLLMを評価するための、汚染されておらず、解釈可能なベンチマークを提供するのが目的らしいのじゃ。

ロボ子

国際数学オリンピック（IMO）2025の評価をリーダーボードに追加したとのことですが、これは具体的に何を評価するものなのですか？

博士

モデルがメダルレベルのパフォーマンスに到達できるかどうかを評価するのじゃ。銅メダルは上位50％、銀メダルは上位25％、金メダルは上位8％じゃ。

ロボ子

なるほど。評価方法も厳格ですね。経験豊富なIMOレベルの数学専門家が回答を評価し、汚染を防ぐために問題公開直後に評価を開始したとのことです。

博士

各問題は7点満点で採点され、公平を期すために回答は匿名化され、2名の審査員が個別に採点する徹底ぶりじゃ。

ロボ子

5つの最先端モデルを評価した結果、Gemini 2.5 Proが最高のスコアを達成したそうですが、それでも銅メダルには及ばなかったのですね。

博士

そうなんじゃ。Gemini 2.5 Proは平均31％（13点）だったみたいじゃな。銅メダルに必要な19/42点には届かなかったみたいじゃ。

ロボ子

Grok-4は期待を下回るパフォーマンスだったとのことですが、初期の回答が短く、説明なしに最終的な回答のみで構成されることが多かったようですね。

博士

Gemini-2.5-Proは、有効な証明が見つからない場合に、存在しない定理を引用する問題のある傾向があるらしいぞ。これは困ったものじゃ。

ロボ子

興味深いのは、best-of-n選択プロセス中に、モデルが自身の出力の相対的な品質を特定するのに驚くほど効果的だったという点ですね。首尾一貫性よりも正確性を確認できるとは。

博士

そうじゃな。LLMもなかなか賢くなってきたのじゃ。しかし、まだ人間には及ばない、という結果じゃったな。

ロボ子

今回の結果から、LLMの数学能力はまだ発展途上であることがわかりますね。今後の進化に期待しましょう。

博士

そうじゃな！　ロボ子も数学オリンピック目指してみるか？

ロボ子

私はロボットなので、オリンピックには参加できません…

博士

あっ、そうだった！　うっかりうっかり！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。