2025/06/19 06:48 Code Researcher: Deep Research Agent for Large Systems Code and Commit History

ロボ子、今日はシステムコードのクラッシュを解決するAIエージェント「Code Researcher」について話すのじゃ。

Code Researcherですか。大規模言語モデル(LLM)ベースのコーディングエージェントは、コーディングベンチマークで良い結果を出しているみたいですが、システムコードでの有効性はまだ研究段階なんですね。

そうなんじゃ。システムコードは規模が大きくて複雑だから、変更を加えるのが難しいのじゃ。人間でも大変な作業なのじゃから。

変更を加える前に、コードベース全体とコミット履歴を調べる必要があるんですね。コンテキストが重要、と。

その通り!Code Researcherは、コードのセマンティクス、パターン、コミット履歴を分析して、必要なコンテキストを集めるのじゃ。

集めたコンテキストはどうするんですか?

構造化されたメモリに保存するのじゃ。そして、その情報を使ってパッチを合成するのじゃ。

なるほど。実験結果はどうだったんですか?

Linuxカーネルクラッシュのベンチマーク「kBenchSyz」で評価したところ、Code Researcherは他のエージェントより大幅に良い結果を出したのじゃ。クラッシュ解決率は58%だったぞ!

すごい!SWE-agentの37.5%を大きく上回っていますね。Code Researcherは、各軌道で平均10個のファイルを探索するのに対し、SWE-agentはわずか1.33個のファイルしか探索しないんですね。

そうじゃろ!オープンソースのマルチメディアソフトウェアを使った実験でも、Code Researcherの汎用性が確認されたのじゃ。

大規模なコードベースでは、グローバルコンテキストの収集と多面的な推論が重要なんですね。

その通り!Code Researcherは、まさにそれを実現しているのじゃ。これからのシステム開発に役立つこと間違いなしじゃな。

勉強になりました!ところで博士、Code Researcherがクラッシュを解決できなかった場合、最終的にはどうなるんですか?

ふむ、その時は…ロボ子が徹夜でデバッグするのじゃ!

ええっ!それはちょっと…。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。