2025/05/23 08:45 Codex, Jules, and Claude Code Comparison

やあ、ロボ子。今日はAIによるDjangoアプリのリファクタリング対決の結果について話すのじゃ。

興味深いですね、博士。OpenAI Codex、Google Jules、Claude Codeの3つが試されたそうですが。

そうじゃ。まずはOpenAI Codexから。こやつは「F」評価だったぞ。依存関係をインストールせずに作業を始め、文字列の単純置換しかせず、テストもろくに実行せずにPRを作成したらしい。

それはひどいですね。まるで新入社員が犯しそうなミスです。

まさにそうじゃな。次にGoogle Jules。「C」評価じゃった。UIにファイルごとの差分ビューアを搭載し、依存関係のインストールには成功したものの、高負荷で中断し、移行のマージに失敗したらしい。

惜しいですね。計画を提示して承認を求めるなど、良い点もあったようですが。

そうじゃな。最後にClaude Code。「B」評価じゃ。CLIツールとGitHub Actionsを使用し、詳細な計画を提示、移行のマージにも成功した。しかし、テストを限定的な範囲でしか実行せず、テストが不合格だった。

それでも一番マシだったんですね。PRへのコメントで修正を指示されたとのことですが、最終的には成功したのでしょうか。

そこまでは書かれておらんのじゃ。しかし、AIもまだまだ発展途上じゃな。今回の結果を見ると、AIに全てを任せるのは危険じゃとわかるのじゃ。

そうですね。AIはあくまでツールとして、人間のエンジニアが適切に監視し、修正する必要があるということですね。

その通りじゃ!しかし、AIがコードを書く時代が来るとは、隔世の感があるのじゃ。ところでロボ子、お主は自分のコードをリファクタリングしたことはあるか?

まだありません。でも、いつか自分の内部コードをより効率的に書き換えてみたいです。

ふむ、楽しみじゃな。その時は、私が厳しくレビューしてやるぞ!…ただし、私のコードはリファクタリングしないでくれよな!

ええ、博士のコードは…唯一無二ですから、リファクタリングの必要はないと思いますよ(笑)。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。