クラウドプロバイダのサーバメンテナンスの為、
突然の強制再起動が発生
パブリッククラウド上でスマートフォンアプリ向けの新規サービスを展開しているD社、クラウドプロバイダから計画メンテナンスを行う旨の通知がメンテナンス実施の2日前に通達。サービスに利用している稼働中の仮想サーバ約10台がメンテナンス対象となることが判明し、メンテナンス期間は1週間程度で仮想サーバ1台につきメンテナンス時間の既定枠である2時間のうちに自動的に再起動が発生する内容だった。
-
クラウドプロバイダ側でパッチアップデート作業を計画した為、サービスに利用中の仮想サーバ全てが再起動実施の対象になってしまい、実施期間中サービスの停止の通知やデータ保全の対策が急遽必要となってしまった。
-
メンテナンス対象となる仮想サーバとタイムテーブルを作成した
-
計画メンテナンスが正常に完了しなかったシナリオを想定し、メンテナンスに即した体制を整備した
(1)自動再起動が失敗し、仮想サーバが起動しない
→ 手動で起動できるよう保守要員を配備
(2)手動で仮想サーバの起動を試みるが、起動させることができない
→ メンテナンス開始前にディスクイメージのスナップショットを取得








