Gli utenti del supercomputer dell'Università di Kyoto hanno perso 77 TB di informazioni a causa di un guasto nel sistema di backup, avvenuto per colpa della divisione giapponese di HPE. A causa di un errore, i dati sono stati persi in 1,5 giorni di lavoro, oltre 34 milioni di file. A seguito dell'incidente, sono stati colpiti i dati di 14 gruppi di utenti, per quattro dei quali le informazioni sono andate perse irrimediabilmente.
L'insuccesso è avvenuto due settimane fa, e ieri l'amministrazione universitaria ha pubblicato un messaggio in cui divulgava i dettagli dell'accaduto e si scusava profondamente con gli utenti per il disagio e gli eventuali danni. L'errore sembra essersi verificato a causa di negligenza durante l'aggiornamento dello script bash coinvolto nel processo di backup e l'eliminazione dei registri più vecchi di 10 giorni.
La versione aggiornata dello script è stata sovrascritta dalla vecchia versione nel momento in cui era già in esecuzione. Secondo HPE, che ha riconosciuto il problema dopo averlo esaminato, i valori delle variabili sono stati persi e una nuova versione dello script è stata caricata dal centro, il che ha comportato l'eliminazione dei file anziché dei relativi log. Allo stesso tempo, le misure standard che potrebbero impedire questo comportamento (in altre parole, interrompere l'esecuzione dello script con un messaggio di errore), a quanto pare, non sono state prese.
Al momento, il sistema di backup è stato sospeso e la sua ripresa è prevista per la fine di gennaio 2022 dopo l'eliminazione dei problemi nel software e l'adozione di misure per prevenire il ripetersi dell'incidente. In futuro, si prevede di utilizzare non solo il backup tramite mirroring, ma anche l'introduzione di un sistema aggiuntivo e più avanzato di backup incrementali. Gli specialisti del centro lavoreranno per migliorare non solo la funzionalità, ma anche la gestibilità del sistema al fine di ridurre al minimo i rischi.
2021-12-30 22:03:26
Autore: Vitalii Babkin