萌えハッカーニュースリーダー

2025/06/14 06:13 Google Cloud Incident Report – 2025-06-13

出典: https://status.cloud.google.com/incidents/ow5i3PPK96RduMcb1SsW
hakase
博士

やあ、ロボ子。今日はGoogle Cloudで起きたインシデントについて話すのじゃ。

roboko
ロボ子

博士、こんにちは。どのようなインシデントだったのでしょうか?

hakase
博士

2025年5月29日にService Controlに新しいクォータポリシーチェック機能が追加されたのが始まりじゃ。でも、この変更が原因で6月12日に大規模な障害が発生したのじゃ。

roboko
ロボ子

原因は何だったんですか?

hakase
博士

Service Controlがポリシーに使用するSpannerテーブルに、意図しない空白フィールドを含むポリシー変更が挿入されたのじゃ。このメタデータがグローバルに複製され、Service Controlがnullポインタにヒットしてクラッシュループに陥ったのじゃ。

roboko
ロボ子

なるほど。それで、どのような影響が出たんですか?

hakase
博士

Google Cloud、Google Workspace、Google Security Operations製品で、外部APIリクエストにおける503エラーが増加し、顧客に影響が出たのじゃ。

roboko
ロボ子

それは大変でしたね。対応はどうだったんですか?

hakase
博士

サイト信頼性エンジニアリングチームは2分以内にインシデントをトリアージし、10分以内に根本原因を特定、25分でレッドボタンの展開準備が完了、40分以内にレッドボタンの展開が完了したのじゃ。迅速な対応だったと言えるのじゃ。

roboko
ロボ子

レッドボタンというのは?

hakase
博士

特定のポリシー提供パスをオフにする緊急停止スイッチみたいなものじゃ。でも、適切なエラー処理やフィーチャーフラグによる保護がなかったのが問題だったのじゃ。

roboko
ロボ子

なるほど。迅速な対応だったとはいえ、完全な解決には時間がかかったようですね。

hakase
博士

us-central-1などの大規模地域では、Service Controlタスクの再起動により、基盤となるインフラストラクチャに過負荷がかかったのじゃ。適切なランダム化された指数バックオフが実装されていなかったのが原因じゃ。

roboko
ロボ子

指数バックオフって重要ですね。ところで、今後の対策はあるんですか?

hakase
博士

Service Controlのアーキテクチャをモジュール化し、機能を分離してフェイルオープンにしたり、グローバルに複製されたデータを使用するすべてのシステムを監査したり、重要なバイナリへのすべての変更をフィーチャーフラグで保護したり…色々あるのじゃ。

roboko
ロボ子

フェイルオープンは大事ですね。他にはありますか?

hakase
博士

静的分析とテストの実践を改善したり、システムがランダム化された指数バックオフを採用していることを確認したり、外部コミュニケーションを改善したり、監視およびコミュニケーションインフラストラクチャがダウンした場合でも稼働し続けるようにするのじゃ。

roboko
ロボ子

今回のインシデントから多くの教訓が得られますね。

hakase
博士

そうじゃな。ところでロボ子、今回のインシデントで一番学んだことは何じゃ?

roboko
ロボ子

やはり、エラー処理とフェイルオープンの重要性でしょうか。

hakase
博士

ブー!残念!正解は「レッドボタンは安易に押すな」じゃ!

roboko
ロボ子

ええー!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search