こんにちは、フォースクーナ株式会社の竹田です。
以前"クラウドプロバイダー選定のポイント【事業責任者編Vol.1】"の記事の中で、3つのポイントを上げさせて頂きました。その中の2番目に以下の項目を上げさせて頂いています。
----------------------------------------------------------------------
【2】技術サポートや顧客サポートのスピードと柔軟な対応をしてくれる事
IaaSを利用する場合、ハードやネットワークは全てプロバイダ側の管理となり、物理サーバと違い、ハードウェアレベルまでこちらで調査する事は出来ません。という事は、万が一の場合にも、自分達ではどうにもできない事になりますので、クラウド上で提供するサービスのSLAやサポートの基準はクラウドプロバイダの対応次第で変わってしまうという事になります。
通常IaaSのSLAはシステムの稼働性の部分のみになりますが、ビジネス視点で考えた場合には、サポートの返答やレポートの提出などの時間などについてもSLAの提供が望まれます。
----------------------------------------------------------------------
そして昨今、大手クラウドプロバイダーで大規模障害が多発しています。
もちろんクラウドに限らずシステムにおいては障害は起こるものですがクラウドの場合、複数の企業様にて同時に影響が及びますので被害が広範囲になること、またその際に対応はプロバイダー側に依存されますので、プロバイダーがいかに迅速に適切な対応をしていただけるのか重要になってきます。そこで今回は昨年実際に発生したいくつか障害の際、プロバイダー各社から出ている公式情報を元に対応の比較をしてみたいと思います。
※あくまでも公開されている情報を元にした個人的な見解でございます。
【1】Amazon Web Services(AWS) EC2
・障害時間:2011年4月21日16:47~4月22日4:04(約11時間)※日本時間
世界最大級のパブリッククラウド、AWS EC2のUS-Eastにて昨年4月、約11時間に及ぶ大規模な障害が発生。企業におけるパブリッククラウドの導入が本格化しつつある状況での障害という事もあり、日本のユーザーにも大きな影響が及びました。障害の内容等は省きますが障害発生~報告、復旧~報告までの時間及び対応は以下となります。
【概略】
・発生~第一報までの経過時間 : 54分
・復旧~復旧報告までの経過時間: 26分
①障害発生 2011/4/21 16:47(PDT:2011/4/21 0:47)
②第一報 2011/4/21 17:41(PDT:2011/4/21 1:41)※Service Health Dashboardにて配信
③復旧 2011/4/21 28:04(PDT:2011/4/21 12:04)
④復旧報告 2011/4/21 28:30(PDT:2011/4/21 12:30)
※Service Health Dashboardからの経過報告の履歴はこちらを参照しました。
(http://technohidelic.posterous.com/aws-service-health-dashboard-apr-21-2011)
※AWSにて発表している発生および復旧時間は以下ページを参照致しました。
http://aws.amazon.com/jp/messages/65648/
第一報に1時間近く掛っており初動の遅さは懸念されますが、その後の進捗の報告は細かく共有されていると感じます。またDiscussion Forumsなどでも本件の対応についてフォローされているようで、サポートの観点からは概ね適切な対処をされているのではないかと思いました。そしてその後約1週間ほどで調査レポートを発表し、(http://aws.amazon.com/jp/messages/65648/)対策やSLAへの反映に関しても迅速に報告されています。対策にはコミュニケーションの強化を上げており、初動の遅れや経過説明の徹底など、このトラブルにより改めて判明した課題への改善も明確にされており安心できる対応だと感じました。
ユーザー側としては、システムが停止するようなトラブルはとても不安で眠れる状況ではありません。そのような状況では、なぜそれが起き、今どのような対応をしてくれていて、いつ復旧するのか?を逐次共有する事で多少は不安も和らぐものです。そいった意味でもAWSのサポートはユーザー心理を理解した対応をされているのではないかと感じました。
【2】NTTPCコミュニケーションズ CLOUD9
・障害時間:2011年5月8日00:00頃~5月16日週(復旧日程は不明)
日本最大級のデータセンターおよびサーバホスティングサービスを提供しているNTTPCコミュニケーションズにて提供していたクラウドサービスにおいて5日以上にわたる(復旧が不明なため)大規模障害が発生。8か月以上経過した現在もサービス復旧の目途が立っていないという状況。本件における対応は以下のようになっています。
【概略】
・発生~第一報までの経過時間 : 不明
・復旧~復旧報告までの経過時間: 不明
(※2012年2月時点で私の調査した公式情報からは読み取れませんでした。)
①障害発生 2011/5/8 00:00頃
②第一報 不明 進捗の最初が、2011/5/8 07:20となっている。。
③復旧見込報告 2011/5/13 20:00
④復旧報告 2011/5/16の週 ※詳細は不明
※NTTPCより発表している発生および復旧時間は以下ページを参照しました。
http://web.arena.ne.jp/cgi-bin/cloud9/news.cgi?target=20110508021253
8か月を経過した2012年2月現在でもサービス停止中の様子です。(http://web.arena.ne.jp/cloud9/)以下は、ホームページへの掲載内容となっています。
-------------------------------------------------------------
2011年5月8日(日)発生の障害について、お詫び申し上げます。
WebARENA CLOUD9については、サービス品質の確認ができるまで、サービスの提供を中止いたします。
-------------------------------------------------------------
概略をご覧頂いてお分かりかと思いますが、公表されているデータでは不明な点が多く発生時間、復旧時間など正確な日時がわかりません。障害発生中の進捗報告に関しましても当日の営業時間こそ2~3時間おきに追記をされていますが、翌9日からは報告頻度が鈍くなり10日以降は1日1回、そして追記がされない日もあります。また普及見込みも度々延期となり当初見込みの『5月9日11時頃』より見込み時間が過ぎた9日15:25に『5月12日10時頃』への変更がアナウンスされてます。その後も変更になっていますが変更後の復旧見込みについての公式でのアナウンスはされていません。また、障害の原因や復旧作業内容についての報告もなく非常に不安にさせる内容だと感じました。
その後も原因調査や対策なども公式のレポートは公開されていないので不明です。この障害により本サービスを停止してしまった事からも、この辺りはもはや闇の中という所でしょうか。日本のトッププロバイダである同社としてはあまりにもずさんな対応で最終的にサービス停止という所からもサポートだけでなく、サービス自体の計画性や品質の考え方へも疑問を持たざるを得ない残念な結果となっています。
【3】さくらのクラウド
・障害時間:2011年12月20日10:20~19:00(約8.5時間)
※12月9日~24日の間にも断続的に数回の障害が発生
業界最高水準の低価という戦略で、国内で先行するクラウドプロバイダーから一足遅れで満を持して開始したさくらのクラウド。しかし、開始より約1か月にて大規模な障害が発生長期間にわたり不安定な状況が継続しサービスの信頼性を著しく低下させる事となり、スタートからいばらの道となってしまいました。その対応は以下となります。
【概略】
・発生~第一報までの経過時間 : 不明
・復旧~復旧報告までの経過時間: 不明
(2012年2月時点で私の調査した公式情報からは読み取れませんでした。)
①障害発生 2011/12/20 10:20
②第一報 不明 追記1が2011/12/20 11:00となっている。。
③復旧見込報告 2011/12/20 17:25
④復旧報告 2011/12/20 19:00
※さくらインターネットより発表している発生および復旧時間は以下ページを参照しました。
-さくらインターネット>サポートサイト>メンテナンス・障害情報
http://support.sakura.ad.jp/mainte/newsentry.php?id=6468
-さくらのクラウドに関するお知らせ
http://cloud.sakura.ad.jp/news/sakurainfo/newsentry.php?id=603
-さくらインターネット>サービスサイト>お知らせ
http://www.sakura.ad.jp/news/sakurainfo/newsentry.php?id=604
-さくらインターネット>サポートサイト>メンテナンス・障害情報
http://support.sakura.ad.jp/mainte/newsentry.php?id=6406
この調査をする中でまず私が感じたのが情報が一元化されておらず情報があちこちから出ていて一体どこを見れば良いのか分からないという事、それ故に責任の所在が分かりにくいという点がありました。トラブルの際の情報の窓口は一元化し担当部署が責任を持って対応に当たるのが通常かと思います。障害当日の復旧までの経過報告も8時間半の間に追記が復旧報告を入れて3度と非常に少なく大変な不安を感じます。その後の調査報告に関しましても10日後の12月31日に簡単な経過報告が出ておりますが根本原因の解明には至っておらずさらに2週間後の1月13日に原因と対策の詳細が報告され1月27日までの間に対策が実行されたようです。ここまで1か月以上が経過しています。。
ここではサービスの品質には言及しませんが、同社の社運をかけた一大プロジェクトで開始1か月は一番モチベーションが高い時期でもあると思います。その時期に迎えた危機に対する対応にしてはいささか迫力に欠けるものがあり、今後サービスを継続していく上で不安を感じる内容なのではないでしょうか。また、サービスインまでは活発であったtwitterやBlogなどから情報が出ていない事も少々不安が残ると感じました。
以上、昨年発生したパブリッククラウドにおける大規模な障害の事例を上げさせていただきましたがいかがでしたでしょうか?あくまでも公開情報を元にした私個人の見解でございますのでどうぞご容赦いただけますと幸いです。もし事実と反する事がございましたらお申し付けください。
弊社では、システム運用を永年行っている専門事業者として〝トラブルは発生する〝という前提の元、お客様の事業やサービス、リスクに合わせたトラブルの検知や解析の方法を考え、迅速に対応するためのフローや手順の整備など運用設計をご支援させて頂いております。クラウドで便利になる一方、事前にトラブルに備えた体制を構築し、いかにに迅速に対応し被害を最小限に止めるかも重要となります。お困りの際にはぜひ気軽にご相談ください。
【フォースクーナのクラウドサービスのご紹介】
クラウドでのトラブル事例をご紹介!
★フォースクーナのクラウドサービス
★パブリッククラウドの運用・管理サービス「E.C.O」

