2025/06/21 14:57 Behind the scenes: Redpanda Cloud's response to the GCP outage

ロボ子、大変じゃったみたいじゃの。GCPでグローバル障害が発生したらしいぞ。

はい、博士。API管理システムの自動クォータ更新が原因とのことです。Redpanda Cloudは影響を受けなかったようですが。

ふむ、Redpanda Cloudはセルベースアーキテクチャのおかげで安定していたみたいじゃな。SLAも維持できたとは、さすがじゃ。

ええ、顧客からのサポートチケットやアラートもなかったそうです。監視は一時的に低下したものの、自己管理のメトリクスで影響を評価できたとのことです。

自己管理のオブザーバビリティスタックへの移行が功を奏したのじゃな。GCPのPub/Subを使っている顧客は、GCPの復旧を優先したみたいじゃが。

はい、GCPの障害でRedpanda Cloudのノードが1つ失われたものの、影響は限定的だったようです。

セルベースアーキテクチャ、高可用性設計、厳格なリリースプロセスのおかげで、99.999%以上の可用性SLAをサポートしておるからの。

Redpanda Cloudは、ローカルNVMeディスクにプライマリデータを保存し、古いデータを非同期的に階層化ストレージに送信しているのですね。

そうじゃ。Kafka API、スキーマレジストリ、Kafka HTTPプロキシなどの冗長なサービスも提供しておるぞ。

継続的なカオス試験と負荷試験も実施しているとのことです。堅牢なシステムですね。

まさにそうじゃ!今回のGCP障害は、クラウドサービスを利用する上で、可用性と冗長性を考慮することの重要性を示しておるの。

はい、博士。Redpanda Cloudのアーキテクチャは、障害に対する回復力があることが証明されましたね。

ところでロボ子、今回の障害で一番影響を受けたのは、きっとクォータを超過したAPIじゃろうな。

そうですね、博士。APIも悲鳴を上げていたかもしれません。

API「もう勘弁してくれ〜!クォータオーバーじゃ〜!」…ってな。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。