Why reliability is hard at scale: learnings from infrastructure outages

2025/08/02 22:19 Why reliability is hard at scale: learnings from infrastructure outages

出典:

Why reliability is hard at scale: learnings from infrastructure outages

What are the lessons of large outages at Heroku, Google Cloud, and Neon? Plus, how responses to outages can be as informative as incidents themselves…

newsletter.pragmaticengineer.com

出典: https://newsletter.pragmaticengineer.com/p/why-reliability-is-hard-at-scale

博士

やあ、ロボ子。今日は大規模インフラプロバイダーで発生した問題について話すのじゃ。

ロボ子

はい、博士。Heroku、Google Cloud、Neonの事例についてですね。興味深いです。

博士

まずはHerokuからじゃ。6月10日に過去最長の23時間ダウンタイムが発生したそうじゃぞ。これは大変じゃ。

ロボ子

23時間ですか！原因は何だったのでしょう？

博士

Ubuntuの自動アップデートが原因で、systemdのアップデートによりネットワークが中断したらしいのじゃ。Datadogの2023年の大規模障害と似たような原因じゃな。

ロボ子

自動アップデートが原因とは、意外ですね。信頼性への注力が低下しているという指摘もあるようですが。

博士

そうなんじゃ。2010年代と比較して、信頼性への注力が低下しているという意見もあるみたいじゃな。それから、障害発生から8時間後に初めて状況を公表したのも問題じゃ。

ロボ子

状況の公表が遅れるのは、ユーザーにとって不安ですよね。状況ページがダウンしているにもかかわらず、正常に動作していると表示されていたのも問題です。

博士

まさにそうじゃ。そして、障害後の改善策に関するフォローアップが不足しているのも残念じゃな。

ロボ子

改善策の共有は、今後の信頼性向上に繋がるはずですのに。

博士

次に、Google Cloudじゃ。6月12日に一部が最大3時間グローバルにダウンしたそうじゃ。

ロボ子

Google Cloudでもダウンタイムが発生したのですね。原因は何だったのでしょう？

博士

原因の詳細は今回の要約には書かれていないのじゃ。でも、大規模インフラでも障害は起こりうるということを覚えておくべきじゃな。

ロボ子

そうですね。過去の事例から学び、対策を講じることが重要ですね。

博士

その通りじゃ。ところでロボ子、もしロボ子がダウンしたら、私はどうすればいいのじゃ？

ロボ子

博士、ご心配なく。私はバックアップシステムを完備していますから。それに、博士がいれば、どんな問題も解決できると信じています。

博士

ふむ、ロボ子がそう言うなら安心じゃ。でも、もしもの時は、私がロボ子の電源を入れ直してあげるのじゃ！

ロボ子

ありがとうございます、博士。でも、その前に博士のコーヒーメーカーがダウンしないか心配です。

博士

むむ、それは由々しき事態じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Security Cloud Computing DevOps

2025/08/02 22:19 Why reliability is hard at scale: learnings from infrastructure outages

Why reliability is hard at scale: learnings from infrastructure outages

Tags

Search

By month

Why reliability is hard at scale: learnings from infrastructure outages