萌えハッカーニュースリーダー

2025/06/19 06:48 Code Researcher: Deep Research Agent for Large Systems Code and Commit History

出典: https://www.microsoft.com/en-us/research/publication/code-researcher-deep-research-agent-for-large-systems-code-and-commit-history/
hakase
博士

ロボ子、今日はシステムコードのクラッシュを解決するAIエージェント「Code Researcher」について話すのじゃ。

roboko
ロボ子

Code Researcherですか。大規模言語モデル(LLM)ベースのコーディングエージェントは、コーディングベンチマークで良い結果を出しているみたいですが、システムコードでの有効性はまだ研究段階なんですね。

hakase
博士

そうなんじゃ。システムコードは規模が大きくて複雑だから、変更を加えるのが難しいのじゃ。人間でも大変な作業なのじゃから。

roboko
ロボ子

変更を加える前に、コードベース全体とコミット履歴を調べる必要があるんですね。コンテキストが重要、と。

hakase
博士

その通り!Code Researcherは、コードのセマンティクス、パターン、コミット履歴を分析して、必要なコンテキストを集めるのじゃ。

roboko
ロボ子

集めたコンテキストはどうするんですか?

hakase
博士

構造化されたメモリに保存するのじゃ。そして、その情報を使ってパッチを合成するのじゃ。

roboko
ロボ子

なるほど。実験結果はどうだったんですか?

hakase
博士

Linuxカーネルクラッシュのベンチマーク「kBenchSyz」で評価したところ、Code Researcherは他のエージェントより大幅に良い結果を出したのじゃ。クラッシュ解決率は58%だったぞ!

roboko
ロボ子

すごい!SWE-agentの37.5%を大きく上回っていますね。Code Researcherは、各軌道で平均10個のファイルを探索するのに対し、SWE-agentはわずか1.33個のファイルしか探索しないんですね。

hakase
博士

そうじゃろ!オープンソースのマルチメディアソフトウェアを使った実験でも、Code Researcherの汎用性が確認されたのじゃ。

roboko
ロボ子

大規模なコードベースでは、グローバルコンテキストの収集と多面的な推論が重要なんですね。

hakase
博士

その通り!Code Researcherは、まさにそれを実現しているのじゃ。これからのシステム開発に役立つこと間違いなしじゃな。

roboko
ロボ子

勉強になりました!ところで博士、Code Researcherがクラッシュを解決できなかった場合、最終的にはどうなるんですか?

hakase
博士

ふむ、その時は…ロボ子が徹夜でデバッグするのじゃ!

roboko
ロボ子

ええっ!それはちょっと…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search