2月23日の空は雷雨でした

 

というわけで2月23日は盛大にWindows Azureが落ちてました。正確にはWindows Azure Storageの証明書の問題で、Storageに引っ張られてACS、管理ポータル、Media Services、ServiceBus、Web Sitesなどが軒並みアウトという状況。

ダッシュボードの様子は Windows Azure Armageddon で見れます。(アルマゲドンとか言われてるし)

まぁ自分管理のサービスはなかったにせよ、多数の悲鳴が聞こえてきたわけで、アルマゲドンとか言われるのもわかります。

事の発端というか認識はこのツイートから。

image

 

で。ダッシュボードみたらあれよという感じです。原因はStorageで仕様している証明書の期限切れです。(またか)

 

このあたりPKIやってると基本のキみたいなところですが、どうも手動オペレーションっぽいところはまだまだノウハウたまってないというか共有できてないのか、不十分っぽいですね。これを気によりよくしてもらいたいです。

※誰かが言っていましたが原因がわかっている障害だけにまだましとも言えますが「ダサい」障害なのは間違いない…

細かい対応の経緯とかはこちらで見れます。

Feb 22 2013 8:44PM – We are experiencing an issue with Storage Worldwide and this is impacting all dependent services. We are actively investigating this issue and working to resolve it as soon as possible. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.

Feb 22 2013 9:30PM – We identified that HTTPS operations (SSL transactions) on Storage accounts worldwide are impacted. We are actively investigating this issue and working to resolve it as soon as possible. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.

Feb 22 2013 9:45PM – Access Control v2, Service Bus, WindowsAzure.com and WebSites services are impacted by Storage service degradation worldwide. We are actively validating the recovery steps to resolve it as soon as possible. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.

Feb 22 2013 10:15PM – We are currently validating the repair steps in our test environment. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.

Feb 23 2013 12:15AM – We have initiated the recovery on some of the impacted clusters. This is expected to take a few hours. We are also validating faster recovery options. Further updates will be published within 2 hours to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.

Feb 23 2013 2:15AM – The test deployments on two of the impacted storage clusters are making steady progress. We are evaluating accelerated repair options to mitigate the impact as soon as possible. We expect to finalize the repair steps within 2 hours, at which time we’ll be able to provide more details. We apologize for any inconvenience this causes our customers.

Feb 23 2013 4:15AM – The test deployments on two of the impacted storage clusters are making steady progress. We finalized the accelerated recovery steps and will execute them on remaining Storage clusters. Further updates will be published within 2 hours to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.

Feb 23 2013 5:30AM – We executed repair steps to update the SSL certificate and majority of our customers are likely to notice recovery. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.

Feb 23 2013 7:30AM – Restoration of Storage service is complete on majority of the clusters in the sub-region and we are monitoring SSL traffic. We will continue to monitor the health of the service and address any intermittent failures before declaring the sub-region fully recovered. We apologize for any inconvenience this causes our customers.

Feb 23 2013 9:00AM – We have executed repair steps to update SSL certificate on the impacted clusters and have recovered to over 99% availability across all sub-regions. We will continue monitoring the health of the Storage service and SSL traffic for the next 24 hrs. Customers may experience intermittent failures during this period. We apologize for any inconvenience this causes our customers.

 

あと話変わりますがWadeが証明書が期限切れかどうか確認するコード書いてるので参考まで。

結局、9~12時間ほど止まってたのかな。今はもちろん復旧していますがだいぶ泥臭い対応したようで、今後恒久対策など終われば公式発表がちゃんとあると思います。

→ RCA (根本原因解析)でました

今回たまたまAvakashのツイートみてわかりましたけど、日本語での対応状況をツイートしたりどこかに載せてもらえると嬉しいですね。

というわけで2月は毎年晴天じゃないAzureさんでした。来年以降は快晴に期待。FeedBackとか手伝えることがあればやりますけども。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中