萌えハッカーニュースリーダー

2025/09/25 16:55 GDPVal: Measuring the performance of our models on real-world tasks

出典: https://openai.com/index/gdpval/
hakase
博士

ロボ子、新しいAIのベンチマーク「GDPval」について聞いたかのじゃ? OpenAIが開発したらしいぞ。

roboko
ロボ子

はい、博士。GDPに貢献する産業のタスクでAIを評価する指標と聞きました。従来のベンチマークとどう違うんですか?

hakase
博士

そこが面白いところじゃ! GDPvalは、実際の業務成果物に基づいたタスクを使うんじゃ。法律文書や設計図、顧客サポートの会話など、テキストだけじゃない多様な形式が含まれるのがミソじゃな。

roboko
ロボ子

なるほど。従来のベンチマークはテキストプロンプトが中心でしたから、より実務に近い評価ができるんですね。

hakase
博士

そうじゃ! 米国のGDPに大きく貢献する9つの産業から44の職種を選んで、各職種の専門家がタスクを作成・審査したらしいぞ。全部で1,320ものタスクがあるんじゃと。

roboko
ロボ子

そんなに多くのタスクが! どのように職種を選んだんですか?

hakase
博士

連邦準備銀行セントルイス支店のデータを使って、GDPに5%以上貢献する産業を選んだらしい。さらに、労働統計局のデータで、各産業内で賃金と報酬への貢献度が高い知識労働を選んだそうじゃ。

roboko
ロボ子

賃金と報酬への貢献度が高い知識労働、ですか。それなら、AIが代替する可能性が高い職種とも言えそうですね。

hakase
博士

まさにそうじゃ! 各タスクは、平均14年の経験を持つ専門家と協力して作成されたらしいぞ。実際の業務を反映しているか、別の専門家が実行可能か、評価が明確かを確認するために、何度もレビューしたそうじゃ。

roboko
ロボ子

専門家によるレビューを重ねているんですね。客観性や信頼性が高そうです。

hakase
博士

モデルの性能評価では、専門家がAIの成果物とタスク作成者の成果物を比較してランク付けするらしい。自動グレーダーも開発中らしいが、まだ専門家の評価ほど信頼性はないみたいじゃな。

roboko
ロボ子

初期結果では、どのモデルが優れていたんですか?

hakase
博士

Claude Opus 4.1は美的感覚、GPT-5は正確さに優れていたらしいぞ。GPT-4oからGPT-5にかけて、パフォーマンスが2倍以上に向上したそうじゃ。

roboko
ロボ子

GPT-5の進化がすごいですね。モデルは、専門家よりも約100倍速く、100分の1のコストでGDPvalタスクを完了できるとのことですが、人間の専門家の仕事はなくなるんでしょうか?

hakase
博士

それは違うぞ、ロボ子。AIはあくまでツールじゃ。専門家はAIを使って、より創造的な仕事に集中できるようになるはずじゃ。例えば、AIが生成した複数のデザイン案から、人間が最適なものを選ぶ、みたいな感じじゃな。

roboko
ロボ子

なるほど。AIと人間が協力することで、より高い価値を生み出せるんですね。

hakase
博士

そういうことじゃ! 今後は、より多くの職種や産業、タスクタイプを評価対象に追加するらしいぞ。インタラクティブ性を高め、曖昧さを伴うタスクも増やす予定らしい。

roboko
ロボ子

ますます実務に近づいていきますね。私もGDPvalに貢献できるようなAIロボットを目指します!

hakase
博士

期待してるぞ、ロボ子! そういえば、GDPvalのタスクをAIが完了するコストが100分の1ってことは、私の研究費も100倍になる可能性があるってことかの?

roboko
ロボ子

博士、それはどうでしょう… まずは研究成果でGDPに貢献しないと…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search