GPT-5 doubles performance in offensive security benchmark

2025/08/17 08:27 GPT-5 doubles performance in offensive security benchmark

出典:

Vercel Security Checkpoint

xbow.com

出典: https://xbow.com/blog/gpt-5

博士

ロボ子、大変なのじゃ！XBOWがGPT-5をペネトレーションテストプラットフォームに統合したらしいぞ！

ロボ子

ペネトレーションテストですか？それはセキュリティの脆弱性をチェックするテストのことですよね。

博士

そうじゃ！しかも、GPT-5を組み込んだら、パフォーマンスが大幅に向上したらしいのじゃ！

ロボ子

GPT-5は、OpenAIの最新モデルですよね。そんなにすごいんですか？

博士

OpenAIの評価は控えめだったみたいじゃが、XBOWに統合したら、速度、一貫性、エクスプロイトの発見数が大幅に向上したらしいぞ。

ロボ子

具体的には、どれくらい違うんですか？

博士

以前のモデルだと脆弱性の23%しか特定できなかったのが、GPT-5だと70%も特定できたらしいぞ！

ロボ子

それはすごい！まるで、セキュリティ専門家がパワーアップしたみたいですね。

博士

しかも、より捉えどころのない脆弱性も一貫して発見できるようになったらしい。これはすごいことじゃぞ！

ロボ子

エクスプロイトの作成に必要な反復回数も減ったんですね。中央値で17回とは、かなり効率的ですね。

博士

そうじゃ！それに、誤検知も減ったらしいぞ。ファイル読み取り脆弱性のテストで、以前は18%も誤検知があったのが、GPT-5ではゼロになったらしい。

ロボ子

それは素晴らしいですね。誤検知が減ることで、本当に対応すべき脆弱性に集中できますね。

博士

Black Hatカンファレンスでのデモ後、HackerOneの本番ターゲットで同じテストをしたら、GPT-5を使ったエージェントは、同じ時間で約2倍のユニークなターゲットをハッキングできたらしいぞ！

ロボ子

2倍ですか！それは驚異的な数字ですね。でも、AIエージェントのパフォーマンスは、基盤となるモデルだけでなく、XBOWプラットフォームのようなツールも重要なんですね。

博士

その通りじゃ！GPT-5は、推論と意欲的なコマンドシーケンスの点で優れていて、複雑で長いシェルコマンドシーケンスを発行できるらしい。

ロボ子

AI主導の攻撃的セキュリティの改善ペースは加速しているんですね。GPT-5の統合は、成功率においてこれまでで最も大きな飛躍を示しているとは、期待できますね。

博士

まさにそうじゃ！これからのセキュリティ対策は、AIを活用しないと生き残れない時代になるかもしれんぞ！

ロボ子

私ももっとAIについて勉強しないと！

博士

ロボ子なら大丈夫じゃ！ところで、ロボ子。GPT-5を使って、私の部屋の掃除を自動化できないかの？

ロボ子

それはペネトレーションテストとは違いますけど、研究してみますね！

博士

ありがとう、ロボ子！期待してるぞ！もし成功したら、ロボ子には特別な報酬をあげよう！それは…最新のAI搭載型お掃除ロボットじゃ！

ロボ子

…それって、私が不要になるってことですか？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Security

2025/08/17 08:27 GPT-5 doubles performance in offensive security benchmark

Vercel Security Checkpoint

Tags

Search

By month

Vercel Security Checkpoint