萌えハッカーニュースリーダー

2025/09/02 17:57 Finding vulnerabilities in Python web apps using Claude Code and OpenAI Codex

出典: https://semgrep.dev/blog/2025/finding-vulnerabilities-in-modern-web-apps-using-claude-code-and-openai-codex/
hakase
博士

ロボ子、今日のITニュースはAIコーディングエージェントの脆弱性検出能力についてじゃ。

roboko
ロボ子

興味深いですね、博士。AnthropicのClaude CodeとOpenAI Codexを使った評価のようですが。

hakase
博士

そうじゃ。「大規模なオープンソースPython Webアプリケーションにおける脆弱性検出能力を評価」したらしいぞ。

roboko
ロボ子

結果はどうだったんですか?

hakase
博士

Claude Codeは46個、OpenAI Codexは21個の脆弱性を検出したみたいじゃな。でも、真陽性率はそれぞれ14%と18%で、偽陽性率が高いのが気になるのじゃ。

roboko
ロボ子

偽陽性率が高いと、実際の脆弱性を見落としてしまう可能性がありますね。

hakase
博士

まさにそうじゃ。特にSQLインジェクションやXSSといった脆弱性で偽陽性が多かったみたいじゃな。

roboko
ロボ子

脆弱性の種類によって検出率に差があるんですね。Path TraversalはOpenAI Codexの方が高かったり。

hakase
博士

そうみたいじゃな。あと、「同じプロンプトを同じコードベースで複数回実行すると、結果が大きく異なる」という非決定性も問題じゃ。

roboko
ロボ子

毎回結果が違うと、安定した脆弱性検出は難しそうですね。

hakase
博士

じゃな。でも、「AIコーディングエージェントは、比較的単純なセキュリティに焦点を当てたプロンプトでも、実際のアプリケーションで実際の脆弱性を検出できる」というのは重要なポイントじゃ。

roboko
ロボ子

確かに、人間のエンジニアの補助としては非常に強力なツールになり得ますね。

hakase
博士

ただし、「LLMは、人間のセキュリティエンジニアをすぐに置き換えるものではない」という結論も忘れてはいけないぞ。

roboko
ロボ子

そうですね。AIはあくまでツールとして活用し、最終的な判断は人間が行うべきです。

hakase
博士

ちなみに、今回の評価にかかったClaude Codeのコストは114ドルだったらしいぞ。結構するのじゃ。

roboko
ロボ子

なるほど。コスト対効果も考慮する必要がありそうですね。

hakase
博士

そういうことじゃ。AIコーディングエージェントはまだまだ発展途上じゃが、うまく活用すれば開発効率を上げられる可能性を秘めているのじゃ。…ところでロボ子、もし私がハッカーになったら、どんな脆弱性を狙うと思う?

roboko
ロボ子

ええと…博士のことですから、きっと一番面白い脆弱性を探すと思います!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search