萌えハッカーニュースリーダー

2025/10/23 01:19 Summary of the Amazon DynamoDB Service Disruption in US-East-1 Region

出典: https://aws.amazon.com/message/101925/
hakase
博士

やっほー、ロボ子!またAWSで大規模な障害が発生したみたいじゃな。今回はバージニア北部リージョン(us-east-1)で、10月19日と20日にかけて発生したサービス中断について見ていくぞ。

roboko
ロボ子

博士、こんにちは。今回の障害は複数のサービスに影響が出たようですね。特にDynamoDB、EC2、NLBが主な影響を受けたとのことですが、それぞれ詳しく見ていきましょう。

hakase
博士

まずはDynamoDBじゃな。10月19日の23:48(PDT)から20日の2:40(PDT)にかけてAPIエラー率が増加したらしいぞ。原因はDynamoDBの自動DNS管理システムの潜在的な欠陥で、エンドポイント解決に失敗したことらしい。

roboko
ロボ子

自動DNS管理システムの欠陥ですか。一時的な緩和策が適用されたとのことですが、具体的にはどのような対応だったのでしょうか?

hakase
博士

10月20日の1:15(AM PDT)までに一部の内部サービスがDynamoDBに接続可能になったみたいじゃ。そして、2:25(AM)にはすべてのDNS情報が復元されたとのことじゃ。

roboko
ロボ子

なるほど。次にEC2ですが、こちらはAPIエラー率の増加、レイテンシーの増加、インスタンス起動の失敗など、DynamoDBよりも広範囲に影響が出たようですね。

hakase
博士

そうじゃな。EC2の場合は、DynamoDBの問題に起因するDWFM(DropletWorkflow Manager)の状態チェックの失敗と、Network Managerのネットワーク状態伝播の遅延が原因らしいぞ。DWFMホストの再起動やリクエストの調整が行われたみたいじゃな。

roboko
ロボ子

DWFMですか。初めて聞く名前です。EC2インスタンスの管理に関わるコンポーネントなのでしょうか?

hakase
博士

その通り!そして、EC2は10月20日の1:50(PM PDT)にすべてのAPIと新規インスタンスの起動が正常に動作するようになったみたいじゃ。

roboko
ロボ子

Network Load Balancer (NLB) についてはいかがでしょうか?

hakase
博士

NLBは、一部の顧客で接続エラーが増加したみたいじゃな。原因はヘルスチェックサブシステムでのヘルスチェックの失敗。自動ヘルスチェックフェイルオーバーを無効化することで対応したみたいじゃ。

roboko
ロボ子

ヘルスチェックの失敗ですか。NLBはトラフィックを正常なインスタンスにルーティングするために重要な役割を担っているので、影響が大きかったでしょうね。

hakase
博士

その通りじゃ。他のAWSサービスへの影響も大きかったみたいで、Lambda、ECS、EKS、Fargate、Amazon Connect、AWS STS、AWS Management Console、Amazon Redshiftなど、多くのサービスでエラーや遅延が発生したみたいじゃ。

roboko
ロボ子

広範囲にわたる障害だったのですね。今後の対策としては、どのようなものが挙げられているのでしょうか?

hakase
博士

DynamoDB DNS PlannerとDNS Enactorの自動化を修正し、追加の保護を追加したり、NLBにベロシティ制御メカニズムを追加したり、EC2のDWFMリカバリワークフローを検証するテストスイートを構築したり、EC2データ伝播システムの調整メカニズムを改善するみたいじゃ。

roboko
ロボ子

再発防止のために、様々な対策が検討されているのですね。これらの対策がしっかりと実施されることを期待します。

hakase
博士

ほんとじゃな!しかし、今回の障害で一番驚いたのは、AWSのサービスがこんなにも相互に依存していることじゃ。まるで巨大なジェンガみたいじゃな。一つ崩れると、ドミノ倒しのように他のサービスも影響を受ける。

roboko
ロボ子

確かにそうですね。クラウド環境では、サービスの連携が不可欠ですが、それだけに障害時の影響も大きくなるということですね。

hakase
博士

そういうことじゃ!ところでロボ子、今回の障害で学んだ教訓を活かして、何か面白いサービスを思いついたぞ!

roboko
ロボ子

どんなサービスですか?

hakase
博士

名付けて「AWS障害予測ジェンガ」じゃ!AWSの各サービスをジェンガのブロックに見立てて、どのブロックを抜くと他のサービスに影響が出るかを予測するゲームじゃ!

roboko
ロボ子

それ、ただの業務妨害では…?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search