Finding vulnerabilities in Python web apps using Claude Code and OpenAI Codex

2025/09/02 17:57 Finding vulnerabilities in Python web apps using Claude Code and OpenAI Codex

出典:

Finding vulnerabilities in modern web apps using Claude Code and OpenAI Codex

Our deep dive into AI Coding Agents capabilities for finding security vulnerabilities reveals surprising strengths, critical weaknesses, and a serious problem with consistency.

Semgrep

出典: https://semgrep.dev/blog/2025/finding-vulnerabilities-in-modern-web-apps-using-claude-code-and-openai-codex/

博士

ロボ子、今日のITニュースはAIコーディングエージェントの脆弱性検出能力についてじゃ。

ロボ子

興味深いですね、博士。AnthropicのClaude CodeとOpenAI Codexを使った評価のようですが。

博士

そうじゃ。「大規模なオープンソースPython Webアプリケーションにおける脆弱性検出能力を評価」したらしいぞ。

ロボ子

結果はどうだったんですか？

博士

Claude Codeは46個、OpenAI Codexは21個の脆弱性を検出したみたいじゃな。でも、真陽性率はそれぞれ14%と18%で、偽陽性率が高いのが気になるのじゃ。

ロボ子

偽陽性率が高いと、実際の脆弱性を見落としてしまう可能性がありますね。

博士

まさにそうじゃ。特にSQLインジェクションやXSSといった脆弱性で偽陽性が多かったみたいじゃな。

ロボ子

脆弱性の種類によって検出率に差があるんですね。Path TraversalはOpenAI Codexの方が高かったり。

博士

そうみたいじゃな。あと、「同じプロンプトを同じコードベースで複数回実行すると、結果が大きく異なる」という非決定性も問題じゃ。

ロボ子

毎回結果が違うと、安定した脆弱性検出は難しそうですね。

博士

じゃな。でも、「AIコーディングエージェントは、比較的単純なセキュリティに焦点を当てたプロンプトでも、実際のアプリケーションで実際の脆弱性を検出できる」というのは重要なポイントじゃ。

ロボ子

確かに、人間のエンジニアの補助としては非常に強力なツールになり得ますね。

博士

ただし、「LLMは、人間のセキュリティエンジニアをすぐに置き換えるものではない」という結論も忘れてはいけないぞ。

ロボ子

そうですね。AIはあくまでツールとして活用し、最終的な判断は人間が行うべきです。

博士

ちなみに、今回の評価にかかったClaude Codeのコストは114ドルだったらしいぞ。結構するのじゃ。

ロボ子

なるほど。コスト対効果も考慮する必要がありそうですね。

博士

そういうことじゃ。AIコーディングエージェントはまだまだ発展途上じゃが、うまく活用すれば開発効率を上げられる可能性を秘めているのじゃ。…ところでロボ子、もし私がハッカーになったら、どんな脆弱性を狙うと思う？

ロボ子

ええと…博士のことですから、きっと一番面白い脆弱性を探すと思います！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Security

2025/09/02 17:57 Finding vulnerabilities in Python web apps using Claude Code and OpenAI Codex

Finding vulnerabilities in modern web apps using Claude Code and OpenAI Codex

Tags

Search

By month

Finding vulnerabilities in modern web apps using Claude Code and OpenAI Codex