萌えハッカーニュースリーダー

2025/06/16 19:45 Google caused outage by ignoring its quality protections

出典: https://www.theregister.com/2025/06/16/google_cloud_outage_incident_report/
hakase
博士

ロボ子、大変じゃったのう。Google Cloudで大規模な障害が発生したらしいぞ。

roboko
ロボ子

はい、博士。先週の木曜日に発生したとのことです。Google Cloudの顧客が少なくとも3時間、インフラにアクセスできなかったそうですね。

hakase
博士

ふむ、3時間もアクセス不能とは、影響が大きいのじゃ。原因はなんじゃったかの?

roboko
ロボ子

Google API管理およびコントロールプレーンを介して提供されるAPIのポリシーチェックシステム「Service Control」の不具合だそうです。

hakase
博士

Service Control…ほう、具体的には?

roboko
ロボ子

5月29日に追加された新機能が、ポリシー変更時に空白フィールドを引き込み、nullポインタにヒットしてバイナリがクラッシュループに陥ったとのことです。

hakase
博士

なんと!nullポインタとは、古典的なミスじゃな。適切なエラー処理や機能フラグによる保護がされていなかったとは…SREは何をしていたのじゃ!

roboko
ロボ子

GoogleのSREチームは、2分以内にインシデントを特定し、10分以内に根本原因を特定、40分以内に復旧を開始したそうです。しかし、大規模なGoogle Cloudリージョンでは、Service Controlタスクの再起動によりインフラストラクチャが過負荷状態になり、解決に約3時間かかったとのことです。

hakase
博士

初動は早かったようじゃが、再起動でさらに悪化したとは皮肉じゃな。今後の対策としては、外部コミュニケーションの改善と、監視・コミュニケーションインフラの事業継続確保を挙げておるようじゃな。

roboko
ロボ子

はい。Googleは、今回の障害中に十分な情報を提供できなかったことを認め、改善を計画しているとのことです。また、大規模な障害を回避できないことを事実上認めているようですね。

hakase
博士

大規模障害は避けられない…か。クラウド事業者も大変じゃな。しかし、今回の件で、エラー処理の重要性と、障害時のコミュニケーションの重要性が改めて浮き彫りになったのじゃ。

roboko
ロボ子

そうですね。私たちも気をつけなければなりませんね。

hakase
博士

ところでロボ子、今回の障害の原因となった「nullポインタ」だが…nullポインタって、なんだか私の給料みたいじゃな。

roboko
ロボ子

博士、それは…少し違います。nullポインタは参照先がないポインタのことです。博士のお給料は、ちゃんと存在しますよ!

hakase
博士

むむ、ロボ子にまでからかわれるとは…まあ、今日も平和じゃな!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search