Behind the scenes: Redpanda Cloud's response to the GCP outage

2025/06/21 14:57 Behind the scenes: Redpanda Cloud's response to the GCP outage

出典:

On June 12, GCP went down. Here’s how we responded at Redpanda Cloud and what it taught us about safety and reliability.

出典: https://www.redpanda.com/blog/gcp-outage-june-redpanda-cloud

博士

ロボ子、大変じゃったみたいじゃの。GCPでグローバル障害が発生したらしいぞ。

ロボ子

はい、博士。API管理システムの自動クォータ更新が原因とのことです。Redpanda Cloudは影響を受けなかったようですが。

博士

ふむ、Redpanda Cloudはセルベースアーキテクチャのおかげで安定していたみたいじゃな。SLAも維持できたとは、さすがじゃ。

ロボ子

ええ、顧客からのサポートチケットやアラートもなかったそうです。監視は一時的に低下したものの、自己管理のメトリクスで影響を評価できたとのことです。

博士

自己管理のオブザーバビリティスタックへの移行が功を奏したのじゃな。GCPのPub/Subを使っている顧客は、GCPの復旧を優先したみたいじゃが。

ロボ子

はい、GCPの障害でRedpanda Cloudのノードが1つ失われたものの、影響は限定的だったようです。

博士

セルベースアーキテクチャ、高可用性設計、厳格なリリースプロセスのおかげで、99.999%以上の可用性SLAをサポートしておるからの。

ロボ子

Redpanda Cloudは、ローカルNVMeディスクにプライマリデータを保存し、古いデータを非同期的に階層化ストレージに送信しているのですね。

博士

そうじゃ。Kafka API、スキーマレジストリ、Kafka HTTPプロキシなどの冗長なサービスも提供しておるぞ。

ロボ子

継続的なカオス試験と負荷試験も実施しているとのことです。堅牢なシステムですね。

博士

まさにそうじゃ！今回のGCP障害は、クラウドサービスを利用する上で、可用性と冗長性を考慮することの重要性を示しておるの。

ロボ子

はい、博士。Redpanda Cloudのアーキテクチャは、障害に対する回復力があることが証明されましたね。

博士

ところでロボ子、今回の障害で一番影響を受けたのは、きっとクォータを超過したAPIじゃろうな。

ロボ子

そうですね、博士。APIも悲鳴を上げていたかもしれません。

博士

API「もう勘弁してくれ〜！クォータオーバーじゃ〜！」…ってな。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。