Benutzer des Supercomputers der Universität Kyoto verloren 77 TB an Informationen durch einen Fehler im Backup-System, der auf das Verschulden der japanischen Abteilung von HPE zurückzuführen ist. Aufgrund eines Fehlers gingen in 1,5 Arbeitstagen Daten verloren - mehr als 34 Millionen Dateien. Infolge des Vorfalls waren die Daten von 14 Nutzergruppen betroffen, bei vier davon gingen die Informationen unwiederbringlich verloren.
Der Ausfall ereignete sich vor zwei Wochen, und gestern veröffentlichte die Universitätsleitung eine Nachricht, in der sie die Details des Vorfalls offenlegte und sich bei den Benutzern für die Unannehmlichkeiten und möglichen Schäden zutiefst entschuldigte. Der Fehler scheint durch Unachtsamkeit beim Aktualisieren des am Backup-Prozess beteiligten Bash-Skripts und beim Löschen von Protokollen, die älter als 10 Tage sind, aufgetreten zu sein.
Die aktualisierte Version des Skripts wurde zum Zeitpunkt der Ausführung über die alte Version geschrieben. Laut HPE, das das Problem nach der Untersuchung quittierte, gingen die Variablenwerte verloren und eine neue Version des Skripts wurde aus der Mitte geladen, was zum Löschen der Dateien und nicht der zugehörigen Protokolle führte. Gleichzeitig wurden offenbar nicht die üblichen Maßnahmen ergriffen, die dieses Verhalten verhindern könnten (also die Ausführung des Skripts mit einer Fehlermeldung stoppen).
Derzeit ist das Backup-System ausgesetzt, die Wiederaufnahme ist für Ende Januar 2022 geplant, nachdem die Probleme in der Software behoben und Maßnahmen ergriffen wurden, um eine Wiederholung des Vorfalls zu verhindern. Für die Zukunft ist geplant, nicht nur Backup durch Spiegelung zu nutzen, sondern auch die Einführung eines weiteren, fortschrittlicheren Systems der inkrementellen Backups. Die Spezialisten des Zentrums werden daran arbeiten, nicht nur die Funktionalität, sondern auch die Handhabbarkeit des Systems zu verbessern, um Risiken zu minimieren.
2021-12-30 22:03:26
Autor: Vitalii Babkin