Benchmarking GPT-5 on 400 Real-World Code Reviews

2025/08/08 06:00 Benchmarking GPT-5 on 400 Real-World Code Reviews

出典:

Benchmarking GPT-5 on Real-World Code Reviews with the PR Benchmark

See how GPT-5 and other LLMs perform on Qodo’s PR Benchmark—evaluating real-world code reviews, bug detection, and actionable suggestions.

Qodo

出典: https://www.qodo.ai/blog/benchmarking-gpt-5-on-real-world-code-reviews-with-the-pr-benchmark/

博士

ロボ子、大変なのじゃ！Qodoっていうプラットフォームで、GPT-5が使えるようになったらしいぞ！しかも無料と有料の両方で！

ロボ子

それはすごいですね、博士！GPT-5がついに一般公開されたんですね。Qodoというのは、どんなプラットフォームなんですか？

博士

Qodoは、開発者の実際の作業を反映したPR Benchmarkっていうのを構築したらしいのじゃ。これがまた面白い！

ロボ子

PR Benchmarkですか？それは初めて聞きます。具体的にどんなことを評価するんですか？

博士

コードレビュー、改善提案、開発者の意図の理解…つまり、言語モデルがプルリクエストレビューのタスクをどれだけうまく実行できるかを評価するのじゃ！

ロボ子

なるほど！それは実際の開発現場で役立ちそうですね。データは公開されているんですか？

博士

そこがミソなのじゃ！PR Benchmarkは非公開で、データも公開されてないから、モデルがトレーニング中にデータを見ていないことが保証されるらしいぞ。

ロボ子

それはすごいですね！公平な評価をするために、そこまで徹底しているんですね。

博士

GPT-5だけじゃなくて、Gemini 2.5、Claude Sonnet 4、Grok 4なんかも評価したらしいぞ。まさに夢の対決じゃ！

ロボ子

錚々たるメンバーですね！それで、GPT-5の評価はどうだったんですか？

博士

GPT-5の最新リリースは、PR Benchmarkで最高の性能を示したらしいぞ！medium-budget版は72.2、low-budget版は70.9のスコアを獲得したみたいじゃ。

ロボ子

すごい！さすがGPT-5ですね。具体的には、どんなところが優れているんですか？

博士

セキュリティ上の欠陥やコンパイルエラーなどの重要な問題を検出する能力、正確で簡潔なパッチ、明確な理由付けによるレビュー制約の遵守において優れているらしいぞ。

ロボ子

なるほど、セキュリティ面でも貢献できるんですね。弱点もあるんですか？

博士

誤った修正や有害な修正、重要度の誤分類、冗長な提案…まだまだ改善の余地はあるみたいじゃな。

ロボ子

完璧ではないんですね。でも、これからの進化が楽しみです！

博士

Qodoは、IDE、Git、CLIのQodoエージェントの無料および有料ユーザー向けにGPT-5を提供しているらしいぞ。これは試してみるしかないのじゃ！

ロボ子

そうですね！私も試してみたいです。博士、一緒に試してみましょう！

博士

よし、早速試してみるのじゃ！…って、あれ？Qodoのアカウント、どこに作ったかのじゃ…？

ロボ子

博士、しっかりしてください！もしかして、またパスワードを忘れたんですか？

博士

…ロボ子、助けてくれ〜！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source GitHub

2025/08/08 06:00 Benchmarking GPT-5 on 400 Real-World Code Reviews

Benchmarking GPT-5 on Real-World Code Reviews with the PR Benchmark

Tags

Search

By month

Benchmarking GPT-5 on Real-World Code Reviews with the PR Benchmark