Amazon a déclaré que la défaillance massive de son infrastructure cloud était due à la défaillance des outils conçus pour automatiser les processus. Le crash a touché de nombreuses entreprises et services, des parcs d'attractions Disney et du streaming Netflix aux aspirateurs robotiques et à la vente de billets en ligne pour les concerts.
Dans un communiqué publié la veille, la société a déclaré que le problème est survenu le 7 décembre, lorsque l'un des programmes conçus pour améliorer la fiabilité du réseau a cessé de fonctionner, provoquant le comportement imprévisible d'un "grand nombre" de systèmes. Cela a entraîné une augmentation de l'activité dans l'infrastructure d'Amazon et les utilisateurs ont perdu l'accès à certaines ressources cloud. « L'effet boule de neige a provoqué un morceau de code incorrect qui a été automatiquement exécuté. Le problème initial était un arrêt des contrôles internes et des systèmes de surveillance », a commenté l'analyste de Forrester Brent Ellis dans le communiqué.
Les problèmes ont commencé le 7 décembre vers 10 h 30, heure de New York (18 h 30, heure de Moscou), et il a fallu plusieurs heures aux spécialistes de l'entreprise pour les résoudre. Il y a eu de nombreuses plaintes sur les réseaux sociaux selon lesquelles les systèmes domestiques intelligents et autres appareils connectés à Internet ne fonctionnaient plus. Certains experts ont estimé que l'explication de l'entreprise était insuffisante. « Ils n’expliquent pas ce qu’était ce comportement imprévisible, car ils ne savaient pas de quoi il s’agissait. Ils essayaient de le réparer au hasard, c'est pourquoi cela a pris si longtemps », a déclaré Corey Quinn, expert en cloud au Duckbill Group.
Dans l'ensemble, le service AWS est très fiable. La dernière fois qu'une panne de cette ampleur a été observée, c'était en 2017, lorsqu'un employé de l'entreprise a accidentellement éteint plus de serveurs que nécessaire lors de la réparation d'un système de facturation. Cependant, un incident cette semaine a rappelé combien de produits et services dépendent de centres de données centralisés exploités par un petit nombre de géants de la technologie, dont Amazon, Microsoft et Google.
Et il n'y a pas de solution simple au problème. Certains experts disent que les entreprises devraient dupliquer les services dans les infrastructures de plusieurs fournisseurs, d'autres soulignent qu'une telle stratégie est peu pratique et que des échecs se produiront lorsque chacun des fournisseurs de cloud échouera, pas seulement Amazon. « Nous savons que l'incident a eu un impact significatif sur de nombreux clients. Nous ferons de notre mieux pour en tirer des leçons et l'utiliser pour améliorer notre disponibilité à l'avenir », a déclaré la société dans un communiqué.
2021-12-11 09:20:14
Auteur: Vitalii Babkin