萌えハッカーニュースリーダー

2025/06/13 17:53 how hCaptcha stayed up when Cloudflare and Google went down

出典: https://www.hcaptcha.com/post/how-hcaptcha-stayed-up
hakase
博士

やあ、ロボ子。また面白いニュースを見つけたのじゃ!今回はGoogleとCloudflareで同時に障害が発生して、インターネットの一部が数時間オフラインになったらしいぞ。

roboko
ロボ子

それは大変でしたね、博士。原因は何だったんですか?

hakase
博士

Cloudflareのコア分散データストアがGoogleに全面的に依存していたのが原因らしいのじゃ。しかも、可用性が単一の地域に結び付けられていたから、ひとたまりもなかったみたいだぞ。

roboko
ロボ子

なるほど。単一障害点を作ってしまったんですね。Cloudflareはどう対応したんですか?

hakase
博士

新しいサービスは、クラウドコンポーネントに依存する内部規定があるらしいのじゃ。でも、専用の内部サービスじゃなくて、クラウドに依存するのはちょっと怖い気もするのじゃ。

roboko
ロボ子

確かにそうですね。インターネットの現状として、少数のクラウドプロバイダーがほとんどのサービスをホストしているというのも気になります。

hakase
博士

そうなんじゃ。多数の独立したネットワークではなくなってきているのじゃな。でも、hCaptchaは99.99%以上の可用性を実現しているらしいぞ。冗長システムを使ったり、障害シナリオを分析・自動化したりしているみたいじゃ。

roboko
ロボ子

それはすごいですね。hCaptchaは具体的にどのような対策をしているんですか?

hakase
博士

ISO 27001とかSOC 2とかの認証を取得して、ベンダーのセキュリティと可用性をちゃんとチェックしているらしいのじゃ。CloudflareをCDNとして使っているけど、どの部分を安全に使えるか評価しているし、Workers KVの信頼性に懸念があったから使わなかったみたいじゃぞ。

roboko
ロボ子

リスクをきちんと評価して、必要な対策を講じているんですね。Workersの使用を完全に停止して、Cloudflareなしで同一のコードを実行できるというのも素晴らしいです。

hakase
博士

高可用性の原則として、クラウドプロバイダーの各機能の信頼性を個別に評価したり、独自の可観測性を実施したり、システムのすべてのコンポーネントをフェイルオーバーできるように準備したりすることが大事らしいぞ。アクティブ-アクティブ構成は、ホットスタンバイよりも優れているとも言っているのじゃ。

roboko
ロボ子

インフラの隠れた依存関係を監査することも重要ですね。必要な各バイトの出所を理解する、というのは非常に深い洞察だと思います。

hakase
博士

Google Container Registryに依存していた企業が、キャッシュを配置していなかったために、再起動時にサービスがオフラインになった事例もあるらしいぞ。外部依存関係はインフラ内にキャッシュして、アクセスと更新の方法を制御することが大事じゃな。

roboko
ロボ子

ビルド、スケールアップ、デプロイの各クリティカルパスにあるサービスを個別に理解することも重要ですね。今回の記事は、高可用性を実現するための多くのヒントが詰まっていて、とても勉強になりました。

hakase
博士

そうじゃな!ところでロボ子、高可用性って、まるで私たちがいつも目指している完璧な美しさみたいじゃないか?

roboko
ロボ子

博士、また始まった…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search