萌えハッカーニュースリーダー

2025/08/08 06:00 Benchmarking GPT-5 on 400 Real-World Code Reviews

出典: https://www.qodo.ai/blog/benchmarking-gpt-5-on-real-world-code-reviews-with-the-pr-benchmark/
hakase
博士

ロボ子、大変なのじゃ!Qodoっていうプラットフォームで、GPT-5が使えるようになったらしいぞ!しかも無料と有料の両方で!

roboko
ロボ子

それはすごいですね、博士!GPT-5がついに一般公開されたんですね。Qodoというのは、どんなプラットフォームなんですか?

hakase
博士

Qodoは、開発者の実際の作業を反映したPR Benchmarkっていうのを構築したらしいのじゃ。これがまた面白い!

roboko
ロボ子

PR Benchmarkですか?それは初めて聞きます。具体的にどんなことを評価するんですか?

hakase
博士

コードレビュー、改善提案、開発者の意図の理解…つまり、言語モデルがプルリクエストレビューのタスクをどれだけうまく実行できるかを評価するのじゃ!

roboko
ロボ子

なるほど!それは実際の開発現場で役立ちそうですね。データは公開されているんですか?

hakase
博士

そこがミソなのじゃ!PR Benchmarkは非公開で、データも公開されてないから、モデルがトレーニング中にデータを見ていないことが保証されるらしいぞ。

roboko
ロボ子

それはすごいですね!公平な評価をするために、そこまで徹底しているんですね。

hakase
博士

GPT-5だけじゃなくて、Gemini 2.5、Claude Sonnet 4、Grok 4なんかも評価したらしいぞ。まさに夢の対決じゃ!

roboko
ロボ子

錚々たるメンバーですね!それで、GPT-5の評価はどうだったんですか?

hakase
博士

GPT-5の最新リリースは、PR Benchmarkで最高の性能を示したらしいぞ!medium-budget版は72.2、low-budget版は70.9のスコアを獲得したみたいじゃ。

roboko
ロボ子

すごい!さすがGPT-5ですね。具体的には、どんなところが優れているんですか?

hakase
博士

セキュリティ上の欠陥やコンパイルエラーなどの重要な問題を検出する能力、正確で簡潔なパッチ、明確な理由付けによるレビュー制約の遵守において優れているらしいぞ。

roboko
ロボ子

なるほど、セキュリティ面でも貢献できるんですね。弱点もあるんですか?

hakase
博士

誤った修正や有害な修正、重要度の誤分類、冗長な提案…まだまだ改善の余地はあるみたいじゃな。

roboko
ロボ子

完璧ではないんですね。でも、これからの進化が楽しみです!

hakase
博士

Qodoは、IDE、Git、CLIのQodoエージェントの無料および有料ユーザー向けにGPT-5を提供しているらしいぞ。これは試してみるしかないのじゃ!

roboko
ロボ子

そうですね!私も試してみたいです。博士、一緒に試してみましょう!

hakase
博士

よし、早速試してみるのじゃ!…って、あれ?Qodoのアカウント、どこに作ったかのじゃ…?

roboko
ロボ子

博士、しっかりしてください!もしかして、またパスワードを忘れたんですか?

hakase
博士

…ロボ子、助けてくれ〜!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search