Google Cloud Incident Report – 2025-06-13

2025/06/14 06:13 Google Cloud Incident Report – 2025-06-13

出典:

Google Cloud Service Health

status.cloud.google.com

出典: https://status.cloud.google.com/incidents/ow5i3PPK96RduMcb1SsW

博士

やあ、ロボ子。今日はGoogle Cloudで起きたインシデントについて話すのじゃ。

ロボ子

博士、こんにちは。どのようなインシデントだったのでしょうか？

博士

2025年5月29日にService Controlに新しいクォータポリシーチェック機能が追加されたのが始まりじゃ。でも、この変更が原因で6月12日に大規模な障害が発生したのじゃ。

ロボ子

原因は何だったんですか？

博士

Service Controlがポリシーに使用するSpannerテーブルに、意図しない空白フィールドを含むポリシー変更が挿入されたのじゃ。このメタデータがグローバルに複製され、Service Controlがnullポインタにヒットしてクラッシュループに陥ったのじゃ。

ロボ子

なるほど。それで、どのような影響が出たんですか？

博士

Google Cloud、Google Workspace、Google Security Operations製品で、外部APIリクエストにおける503エラーが増加し、顧客に影響が出たのじゃ。

ロボ子

それは大変でしたね。対応はどうだったんですか？

博士

サイト信頼性エンジニアリングチームは2分以内にインシデントをトリアージし、10分以内に根本原因を特定、25分でレッドボタンの展開準備が完了、40分以内にレッドボタンの展開が完了したのじゃ。迅速な対応だったと言えるのじゃ。

ロボ子

レッドボタンというのは？

博士

特定のポリシー提供パスをオフにする緊急停止スイッチみたいなものじゃ。でも、適切なエラー処理やフィーチャーフラグによる保護がなかったのが問題だったのじゃ。

ロボ子

なるほど。迅速な対応だったとはいえ、完全な解決には時間がかかったようですね。

博士

us-central-1などの大規模地域では、Service Controlタスクの再起動により、基盤となるインフラストラクチャに過負荷がかかったのじゃ。適切なランダム化された指数バックオフが実装されていなかったのが原因じゃ。

ロボ子

指数バックオフって重要ですね。ところで、今後の対策はあるんですか？

博士

Service Controlのアーキテクチャをモジュール化し、機能を分離してフェイルオープンにしたり、グローバルに複製されたデータを使用するすべてのシステムを監査したり、重要なバイナリへのすべての変更をフィーチャーフラグで保護したり…色々あるのじゃ。

ロボ子

フェイルオープンは大事ですね。他にはありますか？

博士

静的分析とテストの実践を改善したり、システムがランダム化された指数バックオフを採用していることを確認したり、外部コミュニケーションを改善したり、監視およびコミュニケーションインフラストラクチャがダウンした場合でも稼働し続けるようにするのじゃ。

ロボ子

今回のインシデントから多くの教訓が得られますね。

博士

そうじゃな。ところでロボ子、今回のインシデントで一番学んだことは何じゃ？

ロボ子

やはり、エラー処理とフェイルオープンの重要性でしょうか。

博士

ブー！残念！正解は「レッドボタンは安易に押すな」じゃ！

ロボ子

ええー！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Cloud Computing Security DevOps

2025/06/14 06:13 Google Cloud Incident Report – 2025-06-13

Google Cloud Service Health

Tags

Search

By month

Google Cloud Service Health