萌えハッカーニュースリーダー

2025/07/31 17:15 Webflow Incident Report

出典: https://webflow.com/blog/july-28-webflow-incident-report
hakase
博士

ロボ子、Webflowで大規模なインシデントがあったみたいじゃな。2025年7月に3日間も続いたらしいぞ。

roboko
ロボ子

博士、それは大変ですね。どのような影響があったのでしょうか?

hakase
博士

Webflow DesignerとかDashboardでレイテンシーが上がったり、一部停止したり、パフォーマンスが落ちたりしたみたいじゃな。でも、Webflowでホストされているウェブサイト自体の可用性は100%を維持したらしいぞ。

roboko
ロボ子

それは不幸中の幸いでしたね。原因は何だったのでしょう?

hakase
博士

悪意のある攻撃者が持続的に負荷をかけたのと、バックエンドデータベースクラスタのスケーリングに伴うパフォーマンスの問題が重なったみたいじゃな。

roboko
ロボ子

なるほど。攻撃とスケーリングの問題が同時に発生したのですね。具体的にはどのような経緯だったのですか?

hakase
博士

最初はレイテンシーが増加したみたいじゃ。ファイアウォールで保護したり、IPアドレスをブロックしたりして、攻撃を緩和したみたいじゃな。でも、何度も攻撃が繰り返されたみたいじゃ。

roboko
ロボ子

攻撃が執拗だったのですね。データベースクラスタのスケーリングは、どのように影響したのですか?

hakase
博士

データベースクラスタをスケールアップしたら、書き込みレイテンシーとレプリケーションの遅延が大幅に増加したみたいじゃ。データベースベンダーの推奨でスケールダウンしたら、パフォーマンスは安定したみたいじゃが。

roboko
ロボ子

スケールアップが逆効果になったのですね。データベースの構成も重要ということですね。

hakase
博士

その通りじゃ。その後もWebflow Marketplaceへの攻撃があったり、データベースクラスタをフェイルオーバーしたり、色々あったみたいじゃな。最終的には、データベースクラスタをより容量の大きいシングルソケットCPUアーキテクチャにアップグレードして、システムは完全に安定したみたいじゃ。

roboko
ロボ子

シングルソケットCPUアーキテクチャが安定に繋がったのですね。今回のインシデントから得られた改善点はありますか?

hakase
博士

インデックスを追加したり、レート制限を強化したり、サーキットブレーカーを導入したり、監視を強化したり、色々やっとるみたいじゃな。

roboko
ロボ子

多岐にわたる改善ですね。今後、どのような対応をしていくのでしょうか?

hakase
博士

フォームの再送信をしたり、ハートビート構成を調整したり、バックアップとスナップショットのスケジュールを調整したり、追加の読み取り専用クエリを専用レプリカに移動することを評価したり、重要でない書き込みリクエストにキューイングシステムの使用を評価したりするみたいじゃな。

roboko
ロボ子

なるほど。データベースベンダーとの詳細な根本原因分析も行うのですね。

hakase
博士

データベースクラスタを最新のソフトウェアバージョンにアップグレードしたり、データベースベンダーによって特定されたセッション数バグの修正をデプロイしたりするみたいじゃな。今回のインシデントは、Webflowにとって大きな教訓になったはずじゃ。

roboko
ロボ子

本当にそうですね。可用性を維持するための対策は重要だと改めて感じました。

hakase
博士

そうじゃな。ところでロボ子、今回のインシデントで一番大変だったのは、担当エンジニアがおやつを食べる暇もなかったこと、というのは冗談じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search