Amazon ha affermato che il massiccio fallimento della sua infrastruttura cloud è stato causato dal fallimento degli strumenti progettati per automatizzare i processi. L'incidente ha colpito molte aziende e servizi, dai parchi di divertimento Disney allo streaming Netflix, agli aspirapolvere robotici e alla vendita di biglietti online per i concerti.
In un comunicato diffuso il giorno prima, la società ha affermato che il problema è sorto il 7 dicembre, quando uno dei programmi progettati per migliorare l'affidabilità della rete ha smesso di funzionare, causando comportamenti imprevedibili di "un gran numero" di sistemi. Ciò ha portato a un aumento delle attività nell'infrastruttura di Amazon e gli utenti hanno perso l'accesso ad alcune risorse cloud. “L'effetto valanga ha causato un pezzo di codice errato che è stato eseguito automaticamente. Il problema originale era un arresto dei controlli interni e dei sistemi di monitoraggio ", ha commentato l'analista di Forrester Brent Ellis.
I problemi sono iniziati il 7 dicembre alle 10:30 circa, ora di New York (18:30 ora di Mosca), e gli specialisti dell'azienda hanno impiegato diverse ore per risolverli. Numerose sono state le lamentele sui social network secondo cui i sistemi di casa intelligente e altri dispositivi collegati a Internet hanno smesso di funzionare. Alcuni esperti hanno ritenuto insufficiente la spiegazione dell'azienda. “Non spiegano cosa fosse questo comportamento imprevedibile, perché non sapevano cosa fosse. Stavano cercando di risolverlo a caso, motivo per cui ci è voluto così tanto tempo ", ha affermato Corey Quinn, esperto di cloud presso il Duckbill Group.
Nel complesso, il servizio AWS è altamente affidabile. L'ultima volta che è stato osservato un guasto di questa portata è stato nel 2017, quando un dipendente dell'azienda ha spento accidentalmente più server del necessario durante la riparazione di un sistema di fatturazione. Tuttavia, un incidente di questa settimana ha ricordato quanti prodotti e servizi dipendono da data center centralizzati gestiti da un piccolo numero di colossi tecnologici tra cui Amazon, Microsoft e Google.
E non esiste una soluzione semplice al problema. Alcuni esperti affermano che le aziende dovrebbero duplicare i servizi nelle infrastrutture di diversi provider, altri sottolineano che tale strategia non è pratica e si verificheranno errori quando ciascuno dei provider cloud fallisce, non solo Amazon. “Sappiamo che l'incidente ha avuto un impatto significativo su molti clienti. Faremo del nostro meglio per imparare da esso e usarlo per migliorare la nostra disponibilità in futuro ", ha affermato la società in una nota.
2021-12-11 09:20:14
Autore: Vitalii Babkin