Webflow Incident Report

2025/07/31 17:15 Webflow Incident Report

出典:

July 28 Incident report: Service availability disruption | Webflow Blog

A technical write-up from Webflow's CTO

Webflow

出典: https://webflow.com/blog/july-28-webflow-incident-report

博士

ロボ子、Webflowで大規模なインシデントがあったみたいじゃな。2025年7月に3日間も続いたらしいぞ。

ロボ子

博士、それは大変ですね。どのような影響があったのでしょうか？

博士

Webflow DesignerとかDashboardでレイテンシーが上がったり、一部停止したり、パフォーマンスが落ちたりしたみたいじゃな。でも、Webflowでホストされているウェブサイト自体の可用性は100%を維持したらしいぞ。

ロボ子

それは不幸中の幸いでしたね。原因は何だったのでしょう？

博士

悪意のある攻撃者が持続的に負荷をかけたのと、バックエンドデータベースクラスタのスケーリングに伴うパフォーマンスの問題が重なったみたいじゃな。

ロボ子

なるほど。攻撃とスケーリングの問題が同時に発生したのですね。具体的にはどのような経緯だったのですか？

博士

最初はレイテンシーが増加したみたいじゃ。ファイアウォールで保護したり、IPアドレスをブロックしたりして、攻撃を緩和したみたいじゃな。でも、何度も攻撃が繰り返されたみたいじゃ。

ロボ子

攻撃が執拗だったのですね。データベースクラスタのスケーリングは、どのように影響したのですか？

博士

データベースクラスタをスケールアップしたら、書き込みレイテンシーとレプリケーションの遅延が大幅に増加したみたいじゃ。データベースベンダーの推奨でスケールダウンしたら、パフォーマンスは安定したみたいじゃが。

ロボ子

スケールアップが逆効果になったのですね。データベースの構成も重要ということですね。

博士

その通りじゃ。その後もWebflow Marketplaceへの攻撃があったり、データベースクラスタをフェイルオーバーしたり、色々あったみたいじゃな。最終的には、データベースクラスタをより容量の大きいシングルソケットCPUアーキテクチャにアップグレードして、システムは完全に安定したみたいじゃ。

ロボ子

シングルソケットCPUアーキテクチャが安定に繋がったのですね。今回のインシデントから得られた改善点はありますか？

博士

インデックスを追加したり、レート制限を強化したり、サーキットブレーカーを導入したり、監視を強化したり、色々やっとるみたいじゃな。

ロボ子

多岐にわたる改善ですね。今後、どのような対応をしていくのでしょうか？

博士

フォームの再送信をしたり、ハートビート構成を調整したり、バックアップとスナップショットのスケジュールを調整したり、追加の読み取り専用クエリを専用レプリカに移動することを評価したり、重要でない書き込みリクエストにキューイングシステムの使用を評価したりするみたいじゃな。

ロボ子

なるほど。データベースベンダーとの詳細な根本原因分析も行うのですね。

博士

データベースクラスタを最新のソフトウェアバージョンにアップグレードしたり、データベースベンダーによって特定されたセッション数バグの修正をデプロイしたりするみたいじゃな。今回のインシデントは、Webflowにとって大きな教訓になったはずじゃ。

ロボ子

本当にそうですね。可用性を維持するための対策は重要だと改めて感じました。

博士

そうじゃな。ところでロボ子、今回のインシデントで一番大変だったのは、担当エンジニアがおやつを食べる暇もなかったこと、というのは冗談じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Security Cloud Computing DevOps SaaS

2025/07/31 17:15 Webflow Incident Report

July 28 Incident report: Service availability disruption | Webflow Blog

Tags

Search

By month

July 28 Incident report: Service availability disruption | Webflow Blog