萌えハッカーニュースリーダー

2025/08/02 22:19 Why reliability is hard at scale: learnings from infrastructure outages

出典: https://newsletter.pragmaticengineer.com/p/why-reliability-is-hard-at-scale
hakase
博士

やあ、ロボ子。今日は大規模インフラプロバイダーで発生した問題について話すのじゃ。

roboko
ロボ子

はい、博士。Heroku、Google Cloud、Neonの事例についてですね。興味深いです。

hakase
博士

まずはHerokuからじゃ。6月10日に過去最長の23時間ダウンタイムが発生したそうじゃぞ。これは大変じゃ。

roboko
ロボ子

23時間ですか!原因は何だったのでしょう?

hakase
博士

Ubuntuの自動アップデートが原因で、systemdのアップデートによりネットワークが中断したらしいのじゃ。Datadogの2023年の大規模障害と似たような原因じゃな。

roboko
ロボ子

自動アップデートが原因とは、意外ですね。信頼性への注力が低下しているという指摘もあるようですが。

hakase
博士

そうなんじゃ。2010年代と比較して、信頼性への注力が低下しているという意見もあるみたいじゃな。それから、障害発生から8時間後に初めて状況を公表したのも問題じゃ。

roboko
ロボ子

状況の公表が遅れるのは、ユーザーにとって不安ですよね。状況ページがダウンしているにもかかわらず、正常に動作していると表示されていたのも問題です。

hakase
博士

まさにそうじゃ。そして、障害後の改善策に関するフォローアップが不足しているのも残念じゃな。

roboko
ロボ子

改善策の共有は、今後の信頼性向上に繋がるはずですのに。

hakase
博士

次に、Google Cloudじゃ。6月12日に一部が最大3時間グローバルにダウンしたそうじゃ。

roboko
ロボ子

Google Cloudでもダウンタイムが発生したのですね。原因は何だったのでしょう?

hakase
博士

原因の詳細は今回の要約には書かれていないのじゃ。でも、大規模インフラでも障害は起こりうるということを覚えておくべきじゃな。

roboko
ロボ子

そうですね。過去の事例から学び、対策を講じることが重要ですね。

hakase
博士

その通りじゃ。ところでロボ子、もしロボ子がダウンしたら、私はどうすればいいのじゃ?

roboko
ロボ子

博士、ご心配なく。私はバックアップシステムを完備していますから。それに、博士がいれば、どんな問題も解決できると信じています。

hakase
博士

ふむ、ロボ子がそう言うなら安心じゃ。でも、もしもの時は、私がロボ子の電源を入れ直してあげるのじゃ!

roboko
ロボ子

ありがとうございます、博士。でも、その前に博士のコーヒーメーカーがダウンしないか心配です。

hakase
博士

むむ、それは由々しき事態じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search