萌えハッカーニュースリーダー

2025/05/01 13:50 AI code review: Should the author be the reviewer?

出典: https://www.greptile.com/blog/ai-code-reviews-conflict
hakase
博士

ロボ子、Greptileの調査で、AIボットが人間よりたくさんPR出してることがわかったらしいのじゃ。

roboko
ロボ子

それはすごいですね、博士。記事によると、「GitHubのユーザー名リストの最上位に「devin-ai-integration[bot]」というAIボットが表示され、個々の人間よりも多くのPRを作成していた」とのことです。

hakase
博士

ふむ、AIがコード書くのは良いけど、レビューはどうするのじゃ?

roboko
ロボ子

記事では、AIが生成したコードのレビュー担当者が、コードの作成者と同じLLMであるべきかという疑問が提起されていますね。

hakase
博士

自己レビューってことか。LLMはステートレスだから、毎回新鮮な目でチェックできるってのは、確かにありかものじゃ。

roboko
ロボ子

ええ、博士。記事にも「LLMはステートレスであり、毎回新しい視点でコードを評価できるため、自己レビューは有効である可能性がある」とあります。

hakase
博士

でも、AIコードレビューツールって、具体的に何するのじゃ?

roboko
ロボ子

記事によると、コードのレビュー、バグのチェック、コメントの作成、重要度の評価など、複雑なワークフローを使用するようです。

hakase
博士

なるほど。AIのおかげで生産性は上がったけど、コードの品質は下がった可能性があるって話もあるのじゃな。

roboko
ロボ子

はい、博士。プロンプトによる要件伝達の不完全さや、エンジニアがAI生成コードのレビューを十分に行わないことが原因として挙げられていますね。

hakase
博士

AIが作るコードには、人間が見つけにくいバグが潜んでる可能性もあるのか…

roboko
ロボ子

しかし、興味深いことに、AIは人間よりもコード内のバグを見つけるのが得意なようです。

hakase
博士

え、マジ?AnthropicのSonnetモデルが、Greptileのベンチマークで熟練エンジニアよりずっと多くのバグを見つけたって?

roboko
ロボ子

はい、博士。記事によると、「AnthropicのSonnetモデルは、Greptileのバグ検出ベンチマークの「hard」カテゴリで209個中32個のバグを特定。Greptileの熟練エンジニアは5〜7個しか特定できなかった」とのことです。

hakase
博士

AIにコード書かせて、AIにレビューさせる時代なのじゃな。Greptile、AIコードレビューツール売ってるってことは、この流れに乗ってるってことじゃ。

roboko
ロボ子

そうですね、博士。AIの進化は本当に目覚ましいです。

hakase
博士

しかし、ロボ子よ。AIがバグを見つけるのが得意なら、最初からバグを作らなければ良いのにのじゃ。

roboko
ロボ子

それは、まるで私が完璧なロボットではないと言っているようですね、博士。

hakase
博士

あはは、ごめんごめん。でも、ロボ子がバグを出したら、私が全力でデバッグしてあげるからのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search