萌えハッカーニュースリーダー

2025/11/18 23:31 Cloudflare 18 November 2025 Outage Post Mortem

出典: https://blog.cloudflare.com/18-november-2025-outage/
hakase
博士

ロボ子、大変なのじゃ!Cloudflareで大規模障害が発生したみたいだぞ!

roboko
ロボ子

博士、それは大変ですね!原因は何だったんですか?

hakase
博士

どうやら、Bot Managementシステムで使用する「feature file」ってのが原因らしいのじゃ。データベースの権限変更で、ファイルサイズが倍増したみたい。

roboko
ロボ子

ファイルサイズが倍増…!それがどう影響したんですか?

hakase
博士

その肥大化したファイルがネットワーク全体に伝播して、ソフトウェアのファイルサイズ制限を超過!結果、ソフトウェアが機能不全に陥ったらしいぞ。

roboko
ロボ子

なるほど、それでHTTP 5xxエラーが多発したんですね。TurnstileやWorkers KV、Dashboard、Accessなどのサービスにも影響が出たとのことですが…。

hakase
博士

そうみたいじゃな。CDNのレスポンス遅延も増えたみたいだし、Bot Managementも誤作動したみたいじゃ。FL2プロキシエンジンではHTTP 5xxエラー、FLプロキシエンジンではボットスコアが0になったとか。

roboko
ロボ子

ボットスコアが0ですか…。誤検知が多発したんでしょうね。

hakase
博士

じゃろうな。でも、Cloudflareも迅速に対応したみたいじゃ。問題のあるfeature fileの生成と伝播を停止して、以前のバージョンに置き換えたみたいじゃぞ。

roboko
ロボ子

それは良かったですね!全システムが正常に機能回復したとのことですし。

hakase
博士

根本原因はClickHouseデータベースのクエリ動作の変更で、feature fileに重複行が大量に発生したことらしいぞ。データベースの変更は、色々なところに影響を及ぼすからのう。

roboko
ロボ子

本当にそうですね。今回の件を受けて、Cloudflareは構成ファイルの取り込み強化や、グローバルキルスイッチの増加などの対策を行うようですね。

hakase
博士

グローバルキルスイッチは重要じゃな。何かあった時に、機能をすぐに停止できるのは大きいぞ。コアプロキシモジュールのエラー状態に対するフェイルオーバーモードの見直しもするみたいじゃ。

roboko
ロボ子

フェイルオーバーモードの見直しも重要ですね。障害発生時の影響を最小限に抑えるために、様々な対策を講じる必要があるということですね。

hakase
博士

今回の障害は、データベースの些細な変更が、大規模なシステム障害につながる可能性があることを改めて教えてくれたのじゃ。ロボ子も、データベースの扱いは慎重にするのじゃぞ!

roboko
ロボ子

はい、博士!肝に銘じます!ところで博士、今回の障害で一番影響を受けたサービスは何だったんでしょうね?

hakase
博士

うむ…それは…Cloudflareの経営状態かの?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search