Les utilisateurs du supercalculateur de l'université de Kyoto ont perdu 77 To d'informations en raison d'une défaillance du système de sauvegarde, survenue en raison de la faute de la division japonaise de HPE. En raison d'une erreur, des données ont été perdues en 1,5 jour de travail - plus de 34 millions de fichiers. À la suite de l'incident, les données de 14 groupes d'utilisateurs ont été affectées, pour quatre d'entre eux, les informations ont été irrémédiablement perdues.
L'échec s'est produit il y a deux semaines, et hier, l'administration de l'université a publié un message dans lequel elle divulguait les détails de l'incident et s'excusait profondément auprès des utilisateurs pour la gêne occasionnée et les dommages possibles. L'erreur semble s'être produite en raison d'une négligence lors de la mise à jour du script bash impliqué dans le processus de sauvegarde et de la suppression des journaux de plus de 10 jours.
La version mise à jour du script a été écrite sur l'ancienne version au moment où elle était déjà en cours d'exécution. Selon HPE, qui a reconnu le problème après l'avoir étudié, les valeurs des variables ont été perdues et une nouvelle version du script a été chargée à partir du milieu, ce qui a entraîné la suppression des fichiers plutôt que de leurs journaux associés. Dans le même temps, les mesures standard qui pourraient empêcher ce comportement (en d'autres termes, arrêter l'exécution du script avec un message d'erreur), n'ont apparemment pas été prises.
Pour le moment, le système de sauvegarde a été suspendu, et sa reprise est prévue pour fin janvier 2022 après l'élimination des problèmes dans le logiciel et la prise de mesures pour éviter que l'incident ne se reproduise. À l'avenir, il est prévu d'utiliser non seulement la sauvegarde via la mise en miroir, mais également l'introduction d'un système supplémentaire et plus avancé de sauvegardes incrémentielles. Les spécialistes du centre travailleront à améliorer non seulement la fonctionnalité, mais aussi la maniabilité du système afin de minimiser les risques.
2021-12-30 22:03:26
Auteur: Vitalii Babkin