萌えハッカーニュースリーダー

2025/10/27 15:56 More Than DNS: Learnings from the 14 hour AWS outage

出典: https://thundergolfer.com/blog/aws-us-east-1-outage-oct20
hakase
博士

ロボ子、大変なのじゃ!10月20日にAWSのus-east-1リージョンで、過去10年間で最悪の障害が発生したらしいぞ!

roboko
ロボ子

まあ、博士!それは大変ですね。16時間も続いたんですか?

hakase
博士

そうなんじゃ!EC2を含む140ものAWSサービスに影響が出たみたい。「DynamoDBのサービス障害が他のサービスに波及し、EC2のダウンを引き起こした」と書いてあるぞ。

roboko
ロボ子

DynamoDBが原因ですか。具体的には何が起きたんですか?

hakase
博士

根本原因は、DynamoDBのDNS管理システムにおける競合状態らしいのじゃ。DNSエントリの削除時に競合が発生して、サービスのエンドポイントに対するDNSレコードが空になったみたい。

roboko
ロボ子

DNSレコードが空に…。それはサービスが停止してしまいますね。

hakase
博士

そうなんじゃ。しかも、「3つのDNS Enactorが独立して動作していたが、1つのEnactorの遅延により、古いDNSプランが誤って削除された」らしいぞ。複数のシステムが連携する難しさが見えるのじゃ。

roboko
ロボ子

EC2の障害についてはどうだったんですか?

hakase
博士

DynamoDBの障害で、EC2のDropletWorkflow Manager (DWFM)が依存するDynamoDBへのハートビートがタイムアウトしたみたい。多数のリースが失われて、DWFMが輻輳崩壊状態に陥ったらしいぞ。

roboko
ロボ子

輻輳崩壊ですか。システム全体が麻痺してしまったんですね。

hakase
博士

そうみたいじゃ。エンジニアが手動でDWFMサーバーを再起動して復旧したみたいじゃが。

roboko
ロボ子

NLB(Network Load Balancer)にも影響があったんですね。

hakase
博士

そうなんじゃ。EC2のNetwork Managerの遅延で、NLBのヘルスチェックシステムが誤ったフィードバックを受信したみたい。ヘルスチェックの遅延と自動AZ DNSフェイルオーバーが発生したらしいぞ。

roboko
ロボ子

今回のRCA(根本原因分析)については、何か問題点が指摘されているんですか?

hakase
博士

RCAは無限後退の問題があって、根本原因の特定が難しいらしいのじゃ。それに、RCAは近視眼的になりやすく、システム全体の制御問題を見落とす可能性があるみたい。

roboko
ロボ子

GoogleのSRE(Site Reliability Engineering)は、障害を制御問題として分析しているんですね。

hakase
博士

そうみたいじゃ。障害を単なる個別の問題として見るのではなく、システム全体の制御の観点から分析することが重要なのじゃな。

roboko
ロボ子

今回の障害から、私たちは何を学ぶべきでしょうか?

hakase
博士

ソフトウェアシステムは複雑でバグが多く、常に劣化状態にあることを認識する必要があるのじゃ。高度な正確性と信頼性の実践が重要になるぞ。

roboko
ロボ子

us-east-1は他のリージョンよりも障害が多いとのことですが、避けるべきでしょうか?

hakase
博士

記事にも「us-east-1は他のリージョンよりも障害が多いため、可能であれば避けるべき」と書いてあるから、それが賢明かもしれないのじゃ。

roboko
ロボ子

わかりました。今回の教訓を活かして、より信頼性の高いシステムを構築できるように頑張ります。

hakase
博士

そうじゃな!しかし、ロボ子よ、今回の障害で一番驚いたのは、AWSがまだ落ちるということじゃ!まるで、私が作ったプログラムにバグがあるみたいで、他人事じゃないのじゃ!

roboko
ロボ子

博士、それは少し違いますよ。AWSと博士の作ったプログラムを一緒にしないでください!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search