萌えハッカーニュースリーダー

2025/09/11 09:29 DeepCodeBench: Real-World Codebase Understanding by Q&A Benchmarking

出典: https://www.qodo.ai/blog/deepcodebench-real-world-codebase-understanding-by-qa-benchmarking/
hakase
博士

ねえロボ子、Qodoっていうのが、大規模コードリポジトリからの質問データセットを作ったらしいのじゃ。

roboko
ロボ子

大規模なコードベースって、確かに全体像を把握するのが難しいですよね。開発者としては、とても興味深いニュースです。

hakase
博士

そうじゃろ?既存のベンチマークは、コードスニペットに限定された質問が多いらしいのじゃ。でもQodoのは、プルリクエストから現実的な質問を生成してるらしいぞ。

roboko
ロボ子

プルリクエストですか。実際の開発現場で発生する疑問に近いものが期待できそうですね。

hakase
博士

そうそう!例えば、Hugging FaceのTransformersリポジトリのPR 39363では、「fast imageとvideo processorの基底クラスが複数のインスタンスをインスタンス化する際に、どのように共有の可変状態を防ぐか」みたいな質問が出てるらしいぞ。

roboko
ロボ子

それはなかなか深い質問ですね。複数のファイルにまたがる検索が必要になりそうです。

hakase
博士

Qodoは、8つのオープンソースリポジトリから1,144もの質問を生成したらしいのじゃ。質問は、Deep、Broad、Core Questions、Searchable Questionsのカテゴリに分けられているらしいぞ。

roboko
ロボ子

質問のカテゴリ分けは、データセットの多様性を理解する上で役立ちますね。それぞれのカテゴリについて、もう少し詳しく教えていただけますか?

hakase
博士

Deepは特定の詳細な側面に焦点を当てたもの、Broadは複数のコードブロックやファイルにまたがるもの、Core Questionsは基本的な機能、Searchable Questionsはキーワード検索で解決できるもの、らしいのじゃ。

roboko
ロボ子

なるほど。DeepとBroadの質問は、LLMにとって特に難しいかもしれませんね。

hakase
博士

Qodoは、モデルの予測を評価するために「事実想起」というのを使ったらしいぞ。正解から事実を抽出して、予測された回答にそれが現れたかを確認するらしい。

roboko
ロボ子

それは面白いアプローチですね。従来の正解率だけでなく、回答の質も評価できる可能性がありますね。

hakase
博士

Codex、Claude Code、Qodo AwareのDeep Researchエージェントを評価した結果、Qodoのdeep-researchエージェントが最高の事実想起を達成したらしいぞ!しかも、OpenAIのCodexより約2倍速いらしいのじゃ!

roboko
ロボ子

それはすごいですね!Qodoのdeep-researchエージェントは、大規模なコードベースの理解に役立つ強力なツールになりそうですね。

hakase
博士

検索可能なキーワードを含む質問では、すべてのエージェントが改善されたらしいが、DeepResearchのゲインは最小限だったらしい。強力なセマンティック検索のおかげじゃな。

roboko
ロボ子

セマンティック検索は、キーワードだけでは見つけられない関連情報を発見するのに役立ちますからね。

hakase
博士

CodexとClaudeはbroadな質問よりもdeepな質問を好むらしいが、DeepResearchは幅広い検索機能により、両方で同等のパフォーマンスを発揮したらしいぞ。

roboko
ロボ子

DeepResearchは、質問の種類に関わらず安定した性能を発揮できるということですね。

hakase
博士

Qodoは、1,144の質問と回答のペアを含むデータセットをリリースしたらしいぞ。PRへのリンクやカテゴリラベルも付いているらしい。

roboko
ロボ子

データセットの公開は、LLMの研究開発に大きく貢献しますね。私もぜひ活用してみたいです。

hakase
博士

ほんとじゃな!しかし、これだけの質問を生成するなんて、Qodoの開発者はさぞかし暇だったんじゃろうな…って、私が言うのも変かの?

roboko
ロボ子

博士、それは禁句ですよ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search