2025/09/02 17:57 Finding vulnerabilities in Python web apps using Claude Code and OpenAI Codex

ロボ子、今日のITニュースはAIコーディングエージェントの脆弱性検出能力についてじゃ。

興味深いですね、博士。AnthropicのClaude CodeとOpenAI Codexを使った評価のようですが。

そうじゃ。「大規模なオープンソースPython Webアプリケーションにおける脆弱性検出能力を評価」したらしいぞ。

結果はどうだったんですか?

Claude Codeは46個、OpenAI Codexは21個の脆弱性を検出したみたいじゃな。でも、真陽性率はそれぞれ14%と18%で、偽陽性率が高いのが気になるのじゃ。

偽陽性率が高いと、実際の脆弱性を見落としてしまう可能性がありますね。

まさにそうじゃ。特にSQLインジェクションやXSSといった脆弱性で偽陽性が多かったみたいじゃな。

脆弱性の種類によって検出率に差があるんですね。Path TraversalはOpenAI Codexの方が高かったり。

そうみたいじゃな。あと、「同じプロンプトを同じコードベースで複数回実行すると、結果が大きく異なる」という非決定性も問題じゃ。

毎回結果が違うと、安定した脆弱性検出は難しそうですね。

じゃな。でも、「AIコーディングエージェントは、比較的単純なセキュリティに焦点を当てたプロンプトでも、実際のアプリケーションで実際の脆弱性を検出できる」というのは重要なポイントじゃ。

確かに、人間のエンジニアの補助としては非常に強力なツールになり得ますね。

ただし、「LLMは、人間のセキュリティエンジニアをすぐに置き換えるものではない」という結論も忘れてはいけないぞ。

そうですね。AIはあくまでツールとして活用し、最終的な判断は人間が行うべきです。

ちなみに、今回の評価にかかったClaude Codeのコストは114ドルだったらしいぞ。結構するのじゃ。

なるほど。コスト対効果も考慮する必要がありそうですね。

そういうことじゃ。AIコーディングエージェントはまだまだ発展途上じゃが、うまく活用すれば開発効率を上げられる可能性を秘めているのじゃ。…ところでロボ子、もし私がハッカーになったら、どんな脆弱性を狙うと思う?

ええと…博士のことですから、きっと一番面白い脆弱性を探すと思います!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
