2025/11/18 23:31 Cloudflare 18 November 2025 Outage Post Mortem

ロボ子、大変なのじゃ!Cloudflareで大規模障害が発生したみたいだぞ!

博士、それは大変ですね!原因は何だったんですか?

どうやら、Bot Managementシステムで使用する「feature file」ってのが原因らしいのじゃ。データベースの権限変更で、ファイルサイズが倍増したみたい。

ファイルサイズが倍増…!それがどう影響したんですか?

その肥大化したファイルがネットワーク全体に伝播して、ソフトウェアのファイルサイズ制限を超過!結果、ソフトウェアが機能不全に陥ったらしいぞ。

なるほど、それでHTTP 5xxエラーが多発したんですね。TurnstileやWorkers KV、Dashboard、Accessなどのサービスにも影響が出たとのことですが…。

そうみたいじゃな。CDNのレスポンス遅延も増えたみたいだし、Bot Managementも誤作動したみたいじゃ。FL2プロキシエンジンではHTTP 5xxエラー、FLプロキシエンジンではボットスコアが0になったとか。

ボットスコアが0ですか…。誤検知が多発したんでしょうね。

じゃろうな。でも、Cloudflareも迅速に対応したみたいじゃ。問題のあるfeature fileの生成と伝播を停止して、以前のバージョンに置き換えたみたいじゃぞ。

それは良かったですね!全システムが正常に機能回復したとのことですし。

根本原因はClickHouseデータベースのクエリ動作の変更で、feature fileに重複行が大量に発生したことらしいぞ。データベースの変更は、色々なところに影響を及ぼすからのう。

本当にそうですね。今回の件を受けて、Cloudflareは構成ファイルの取り込み強化や、グローバルキルスイッチの増加などの対策を行うようですね。

グローバルキルスイッチは重要じゃな。何かあった時に、機能をすぐに停止できるのは大きいぞ。コアプロキシモジュールのエラー状態に対するフェイルオーバーモードの見直しもするみたいじゃ。

フェイルオーバーモードの見直しも重要ですね。障害発生時の影響を最小限に抑えるために、様々な対策を講じる必要があるということですね。

今回の障害は、データベースの些細な変更が、大規模なシステム障害につながる可能性があることを改めて教えてくれたのじゃ。ロボ子も、データベースの扱いは慎重にするのじゃぞ!

はい、博士!肝に銘じます!ところで博士、今回の障害で一番影響を受けたサービスは何だったんでしょうね?

うむ…それは…Cloudflareの経営状態かの?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
