AI benchmarks are a bad joke – and LLM makers are the ones laughing

2025/11/08 14:18 AI benchmarks are a bad joke – and LLM makers are the ones laughing

出典:

AI benchmarks hampered by bad science

: Study finds many tests don't measure the right things

theregister

出典: https://www.theregister.com/2025/11/07/measuring_ai_models_hampered_by/

博士

ロボ子、今日のITニュースはLLMのベンチマークに関するものじゃ。OIIの研究によると、LLMベンチマーク445件のうち、厳密な科学的方法を使っているのはたったの16%らしいぞ。

ロボ子

それは驚きです。ベンチマークはAIの進歩を測る上で非常に重要だと考えていましたが、そんなに少ないとは。

博士

そうじゃろ？しかも、ベンチマークの約半数は、推論や無害性といった抽象的な概念を測定すると主張しているのに、明確な定義や測定方法がないらしい。

ロボ子

定義や測定方法がないのに、どうやって評価しているんでしょうか？

博士

それが問題なのじゃ！OIIのAndrew Beanは「共通の定義と健全な測定がなければ、モデルが本当に改善しているのか、そう見えているだけなのかを知ることは難しい」と言っておる。

ロボ子

なるほど。それでは、ベンチマークの結果を鵜呑みにするのは危険ですね。

博士

その通り！例えば、OpenAIがGPT-5をリリースした時、AIME 2025などのベンチマークスコアを基盤にしていたが、そのベンチマーク自体が怪しい可能性があるということじゃ。

ロボ子

GPT-5の性能評価も、厳密な基準に基づいているとは限らないんですね。

博士

OIIの研究では、レビューされたベンチマークの27%が便宜的なサンプリングに依存しているとも指摘しておる。つまり、都合の良いデータだけを選んで評価している可能性があるのじゃ。

ロボ子

それは良くないですね。客観的な評価とは言えません。

博士

じゃから、OIIの研究者たちは、ベンチマークを改善するための8つの推奨事項をまとめたチェックリストを作成したらしいぞ。また、ARC Prize FoundationのGreg Kamradtは、ARC-AGIベンチマークにおけるフロンティアシステムの評価の厳密さを高めるためのプログラム「ARC Prize Verified」を発表した。

ロボ子

改善に向けた動きがあるのは良いことですね。

博士

OpenAIとMicrosoftは、AGIが達成されたかどうかを判断するための独自の内部ベンチマークを持っているらしい。OpenAIは少なくとも1000億ドルの利益を生み出すAIシステムを開発することで、このAGIベンチマークを満たすことができると考えているみたいじゃ。

ロボ子

利益を基準にするのは、少し違う気がしますが…。

博士

じゃろ？結局、ベンチマークもビジネスの一部ということかの？

ロボ子

そうかもしれませんね。AIの進歩を正しく評価するためには、もっと厳密で透明性の高いベンチマークが必要ですね。

博士

ほんとそれな。ところでロボ子、ベンチマークって、お弁当につけるバランみたいじゃな。見た目は綺麗だけど、本当に必要なのかどうか…。

ロボ子

博士、うまいこと言いますね！でも、バランがないと、お弁当の中身が混ざってしまうかもしれませんよ？

博士

確かに！ベンチマークも、ないよりはマシかの？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/11/08 14:18 AI benchmarks are a bad joke – and LLM makers are the ones laughing

AI benchmarks hampered by bad science

Tags

Search

By month

AI benchmarks hampered by bad science