アマゾンはクラウドサービスの失敗の理由について話しました

アマゾンは、クラウドインフラストラクチャの大規模な障害は、プロセスを自動化するように設計されたツールの障害が原因であると述べました。クラッシュは、ディズニーの遊園地やNetflixのストリーミングから、ロボット掃除機やコンサートのオンラインチケット販売まで、多くのビジネスやサービスに影響を及ぼしました。

前日に発表された声明の中で、同社は、ネットワークの信頼性を向上させるために設計されたプログラムの1つが機能しなくなり、「多数の」システムの予期しない動作を引き起こした12月7日に問題が発生したと述べました。これにより、Amazonインフラストラクチャのアクティビティが急増し、ユーザーは一部のクラウドリソースにアクセスできなくなりました。「雪玉効果により、自動的に実行される誤ったコードが発生しました。元々の問題は、内部統制と監視システムのシャットダウンでした」と、ForresterのアナリストであるBrentEllisは声明についてコメントしました。

問題は12月7日ニューヨーク時間10:30（モスクワ時間18:30）頃に始まり、会社の専門家が問題を解決するのに数時間かかりました。インターネットに接続されたスマートホームシステムやその他のデバイスが機能しなくなったという苦情がソーシャルネットワークに多数ありました。一部の専門家は、会社の説明が不十分であると考えました。「彼らはそれが何であるかを知らなかったので、この予測不可能な行動が何であったかを説明しません。彼らはそれをランダムに修正しようとしていました。そのため、非常に時間がかかりました」と、DuckbillGroupのクラウドエキスパートであるCoreyQuinn氏は述べています。

全体として、AWSサービスは非常に信頼性があります。この規模の障害が最後に観察されたのは2017年で、会社の従業員が課金システムの修理中に必要以上のサーバーを誤ってオフにしたときでした。しかし、今週の事件は、Amazon、Microsoft、Googleなどの少数の大手テクノロジー企業が運営する一元化されたデータセンターに依存している製品とサービスの数を思い出しました。

そして、この問題に対する簡単な解決策はありません。一部の専門家は、企業は複数のプロバイダーのインフラストラクチャでサービスを複製する必要があると述べていますが、他の専門家は、そのような戦略は非現実的であり、Amazonだけでなく各クラウドプロバイダーに障害が発生すると障害が発生することを指摘しています。「この事件が多くのクライアントに大きな影響を与えたことを私たちは知っています。私たちはそれから学び、将来の可用性を向上させるためにそれを使用するために最善を尽くします」と同社は声明で述べた。

2021-12-11 09:20:14

著者: Vitalii Babkin

前 | 次