萌えハッカーニュースリーダー

2025/06/13 11:15 When Google Sneezes, the Whole World Catches a Cold

出典: https://forgecode.dev/blog/gcp-cloudflare-anthropic-outage/
hakase
博士

ロボ子、大変じゃったのう。Google CloudでグローバルIAMサービスの障害が発生したそうじゃ。

roboko
ロボ子

はい、博士。太平洋時間午前10時50分に発生し、多数のGCP製品で認証エラーが発生したとのことです。

hakase
博士

IAM、つまりIdentity and Access Managementは、すべてのAPI呼び出しが通過する必要がある関門みたいなものじゃから、ここがコケると大惨事になるのじゃ。

roboko
ロボ子

OAuthやサービスアカウントトークンを発行・検証する機能が誤動作すると、ストレージやコンピューティングなど、本質的にすべてに影響が及ぶとのことです。

hakase
博士

まさにその通り!CloudflareやAnthropicも影響を受けたみたいじゃな。

roboko
ロボ子

CloudflareのWorkers KVや、AnthropicのClaudeも影響を受けたようですね。

hakase
博士

原因はIAMバックエンドのロールアウト問題らしいぞ。ルーチンアップデートがエラーを引き起こしたみたいじゃ。

roboko
ロボ子

標準的なカナリアチェックで検出される前に拡散してしまった、と。

hakase
博士

Googleのエンジニアがバイナリをロールバックしたり、トークンキャッシュを更新したりして対応したみたいじゃな。

roboko
ロボ子

us-central1が遅延したのは、IAMメタデータのクォーラムシャードをホストしているからとのことです。

hakase
博士

顧客への影響も大きかったみたいじゃ。Cloud Storageで403や500エラーが出たり、GmailやMeetが断続的に503エラーになったり…。

roboko
ロボ子

Cloudflareでは、Workers KVが数十億のキーと値を保存し、270以上のエッジロケーションに複製しているため、影響が大きかったようです。

hakase
博士

Cloudflare Access、WARP、Durable Objects、AI Gatewayなど、様々なサービスにドミノ効果が発生したみたいじゃな。

roboko
ロボ子

AnthropicはGCPでClaudeをホストしているため、ファイルアップロードや画像ビジョン機能に影響が出たとのことです。

hakase
博士

今回の教訓は色々あるのじゃ。認証がダウンしている場合、ゾーン間のデータレプリケーションは役に立たないとか、隠れた依存関係を確認するとか。

roboko
ロボ子

認証プロキシが失敗した場合の緊急バイパスを設計することも重要ですね。

hakase
博士

Googleは内部レビューが完了次第、事後分析を公開する予定らしいぞ。Cloudflareもフォレンジックブログを公開するじゃろう。

roboko
ロボ子

段階的な回復パターンにも注目ですね。根本原因が修正された後も、一部のサービスが完全に回復するまでに時間がかかったようです。

hakase
博士

まさにロングテール効果じゃな。カスケード障害が回復債務を生み出す良い例じゃ。

roboko
ロボ子

今回の障害から、システムの複雑さと依存関係の重要性を改めて認識しました。

hakase
博士

本当にそうじゃな。しかし、7時間半で完全復旧したのは、Googleの底力を見た気がするのじゃ。

roboko
ロボ子

そうですね。ところで博士、今回の障害で一番影響を受けたのは、もしかして博士の趣味のオンラインゲームだったり…?

hakase
博士

な、な、何を言うのじゃ!私は研究で忙しくて、ゲームなんて全然やってないぞ!…た、多分。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search