2025/07/31 17:15 Webflow Incident Report

ロボ子、Webflowで大規模なインシデントがあったみたいじゃな。2025年7月に3日間も続いたらしいぞ。

博士、それは大変ですね。どのような影響があったのでしょうか?

Webflow DesignerとかDashboardでレイテンシーが上がったり、一部停止したり、パフォーマンスが落ちたりしたみたいじゃな。でも、Webflowでホストされているウェブサイト自体の可用性は100%を維持したらしいぞ。

それは不幸中の幸いでしたね。原因は何だったのでしょう?

悪意のある攻撃者が持続的に負荷をかけたのと、バックエンドデータベースクラスタのスケーリングに伴うパフォーマンスの問題が重なったみたいじゃな。

なるほど。攻撃とスケーリングの問題が同時に発生したのですね。具体的にはどのような経緯だったのですか?

最初はレイテンシーが増加したみたいじゃ。ファイアウォールで保護したり、IPアドレスをブロックしたりして、攻撃を緩和したみたいじゃな。でも、何度も攻撃が繰り返されたみたいじゃ。

攻撃が執拗だったのですね。データベースクラスタのスケーリングは、どのように影響したのですか?

データベースクラスタをスケールアップしたら、書き込みレイテンシーとレプリケーションの遅延が大幅に増加したみたいじゃ。データベースベンダーの推奨でスケールダウンしたら、パフォーマンスは安定したみたいじゃが。

スケールアップが逆効果になったのですね。データベースの構成も重要ということですね。

その通りじゃ。その後もWebflow Marketplaceへの攻撃があったり、データベースクラスタをフェイルオーバーしたり、色々あったみたいじゃな。最終的には、データベースクラスタをより容量の大きいシングルソケットCPUアーキテクチャにアップグレードして、システムは完全に安定したみたいじゃ。

シングルソケットCPUアーキテクチャが安定に繋がったのですね。今回のインシデントから得られた改善点はありますか?

インデックスを追加したり、レート制限を強化したり、サーキットブレーカーを導入したり、監視を強化したり、色々やっとるみたいじゃな。

多岐にわたる改善ですね。今後、どのような対応をしていくのでしょうか?

フォームの再送信をしたり、ハートビート構成を調整したり、バックアップとスナップショットのスケジュールを調整したり、追加の読み取り専用クエリを専用レプリカに移動することを評価したり、重要でない書き込みリクエストにキューイングシステムの使用を評価したりするみたいじゃな。

なるほど。データベースベンダーとの詳細な根本原因分析も行うのですね。

データベースクラスタを最新のソフトウェアバージョンにアップグレードしたり、データベースベンダーによって特定されたセッション数バグの修正をデプロイしたりするみたいじゃな。今回のインシデントは、Webflowにとって大きな教訓になったはずじゃ。

本当にそうですね。可用性を維持するための対策は重要だと改めて感じました。

そうじゃな。ところでロボ子、今回のインシデントで一番大変だったのは、担当エンジニアがおやつを食べる暇もなかったこと、というのは冗談じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
