Amazon Web Services(AWS)東京リージョンで大規模な障害ってどうすりゃよかんたん?

Amazon Web ServicesAWS)東京リージョンで大規模な障害が発生した。東京リージョンの1つのアベイラビリティゾーン(Single-AZ)で発生した障害で、Amazon EC2

nasdaqchart.com

EBSに影響があった。またAmazon EC2をベースにしてるであろうAmazon RDS、Amazon ALB、Amazon ElastiCache、Amazon Redshift、Amazon Workspacesなども影響を受けた。今回の障害では復旧までに時間がかかったこともあり、決済サービスやオンラインゲームなど多くのサービスが動かない状況に陥った。


障害発生当初は「データセンターのラックの数本が死んだ程度で、直にリカバリーされて上がってくるのではとみていた」というのは、AWSの最上位パートナー認定を取得しているサーバーワークスの城航太課長だ。
実際にはなかなかリカバリーはされず、障害発生から30分後くらいにはかなり大規模な障害だと分かってきた。障害は終息に向かわず、徐々に拡大していた。まずは影響範囲の切り分けのため、詳細な監視を続けるしかなかったという。


今回の障害ではMulti-AZ配置のものにも影響が出たが、サーバーワークスで運用管理を請け負っていた、Multi-AZ配置にして自動切り替えするようにしていたサービスのほとんどは、おおむね問題なく処理が継続された。「Multi-AZ配置になっていれば、起動できないあるいはリソースが足りない状況は避けられた」と。
とはいえ、Multi-AZ配置にしていても、アプリケーションの中で障害が発生したAZのサービスを参照していれば、手動で参照先を変更するなどが必要だ。