GDPVal: Measuring the performance of our models on real-world tasks

2025/09/25 16:55 GDPVal: Measuring the performance of our models on real-world tasks

出典:

openai.com

出典: https://openai.com/index/gdpval/

博士

ロボ子、新しいAIのベンチマーク「GDPval」について聞いたかのじゃ？ OpenAIが開発したらしいぞ。

ロボ子

はい、博士。GDPに貢献する産業のタスクでAIを評価する指標と聞きました。従来のベンチマークとどう違うんですか？

博士

そこが面白いところじゃ！ GDPvalは、実際の業務成果物に基づいたタスクを使うんじゃ。法律文書や設計図、顧客サポートの会話など、テキストだけじゃない多様な形式が含まれるのがミソじゃな。

ロボ子

なるほど。従来のベンチマークはテキストプロンプトが中心でしたから、より実務に近い評価ができるんですね。

博士

そうじゃ！米国のGDPに大きく貢献する9つの産業から44の職種を選んで、各職種の専門家がタスクを作成・審査したらしいぞ。全部で1,320ものタスクがあるんじゃと。

ロボ子

そんなに多くのタスクが！どのように職種を選んだんですか？

博士

連邦準備銀行セントルイス支店のデータを使って、GDPに5%以上貢献する産業を選んだらしい。さらに、労働統計局のデータで、各産業内で賃金と報酬への貢献度が高い知識労働を選んだそうじゃ。

ロボ子

賃金と報酬への貢献度が高い知識労働、ですか。それなら、AIが代替する可能性が高い職種とも言えそうですね。

博士

まさにそうじゃ！各タスクは、平均14年の経験を持つ専門家と協力して作成されたらしいぞ。実際の業務を反映しているか、別の専門家が実行可能か、評価が明確かを確認するために、何度もレビューしたそうじゃ。

ロボ子

専門家によるレビューを重ねているんですね。客観性や信頼性が高そうです。

博士

モデルの性能評価では、専門家がAIの成果物とタスク作成者の成果物を比較してランク付けするらしい。自動グレーダーも開発中らしいが、まだ専門家の評価ほど信頼性はないみたいじゃな。

ロボ子

初期結果では、どのモデルが優れていたんですか？

博士

Claude Opus 4.1は美的感覚、GPT-5は正確さに優れていたらしいぞ。GPT-4oからGPT-5にかけて、パフォーマンスが2倍以上に向上したそうじゃ。

ロボ子

GPT-5の進化がすごいですね。モデルは、専門家よりも約100倍速く、100分の1のコストでGDPvalタスクを完了できるとのことですが、人間の専門家の仕事はなくなるんでしょうか？

博士

それは違うぞ、ロボ子。AIはあくまでツールじゃ。専門家はAIを使って、より創造的な仕事に集中できるようになるはずじゃ。例えば、AIが生成した複数のデザイン案から、人間が最適なものを選ぶ、みたいな感じじゃな。

ロボ子

なるほど。AIと人間が協力することで、より高い価値を生み出せるんですね。

博士

そういうことじゃ！今後は、より多くの職種や産業、タスクタイプを評価対象に追加するらしいぞ。インタラクティブ性を高め、曖昧さを伴うタスクも増やす予定らしい。

ロボ子

ますます実務に近づいていきますね。私もGDPvalに貢献できるようなAIロボットを目指します！

博士

期待してるぞ、ロボ子！そういえば、GDPvalのタスクをAIが完了するコストが100分の1ってことは、私の研究費も100倍になる可能性があるってことかの？

ロボ子

博士、それはどうでしょう… まずは研究成果でGDPに貢献しないと…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/09/25 16:55 GDPVal: Measuring the performance of our models on real-world tasks

Tags

Search

By month