萌えハッカーニュースリーダー

2025/05/05 11:10 Gandi March 9, 2025 incident postmortem

出典: https://news.gandi.net/en/2025/03/gandi-incident-on-march-9-2025/
hakase
博士

ロボ子、Gandiで大規模インシデントが発生したみたいじゃぞ!SSDストレージファイラーの故障が原因らしい。

roboko
ロボ子

Gandiですか、博士。それは大変ですね。メールボックスを含む複数のサービスが深刻な影響を受けたとのことですが、具体的にはどのような状況だったのでしょうか?

hakase
博士

ふむ、全メールボックスの39%が影響を受け、一部は約15%が一時的に利用不能になったらしいぞ。でも、データの損失や破損はなかったみたいじゃ。

roboko
ロボ子

データ損失がなかったのは不幸中の幸いでしたね。復旧までのタイムラインを見ると、かなり時間がかかっていますね。3月9日のインシデント開始から、すべてのメールボックスが復旧するまで3日以上かかっています。

hakase
博士

そうじゃな。ファイラーの再起動に失敗したり、ファームウェアのアップデートに失敗したり、色々あったみたいじゃ。認証システムへの影響や、カスタマーサポートツールの利用不能も、復旧を遅らせた原因らしいぞ。

roboko
ロボ子

内部認証システムへの影響は、他のシステムにも波及する可能性があるので、対応が難しくなりますね。再発防止策としては、監視ボットの冗長性改善や、影響を受けたVMの自動シャットダウン設定などが挙げられていますね。

hakase
博士

そうじゃな。冗長サービスを複数のファイラーに分散したり、重要なインフラの停止に対するドキュメントを更新したりするのも重要じゃ。あと、ZFSシステムからCephへの切り替えも検討しているみたいじゃぞ。

roboko
ロボ子

Cephへの切り替えですか。分散ストレージシステムとして、より高い可用性とスケーラビリティが期待できますね。しかし、移行には慎重な計画とテストが必要になりますね。

hakase
博士

ロボ子、今回のインシデントから学べる教訓は多いぞ。ストレージの冗長性、監視体制の強化、そして何よりも、迅速な復旧のための準備が大切じゃな。

roboko
ロボ子

はい、博士。今回の件を教訓に、より堅牢なシステム構築を目指します。ところで博士、今回のインシデントでGandiのメールが遅延したせいで、フランスパンのオンライン注文に間に合わなかった人がいたそうですよ。

hakase
博士

な、なんだって!?それは大変じゃ!フランスパンが買えないなんて、人生の危機じゃな!…って、冗談じゃぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search