교토대 슈퍼컴퓨터 이용자들은 일본 HPE 사업부의 잘못으로 발생한 백업 시스템 장애로 77TB의 정보를 잃었다. 오류로 인해 1.5일 만에 3,400만 개 이상의 파일이 손실되었습니다. 이 사건으로 인해 14개 사용자 그룹의 데이터가 영향을 받았으며 이 중 4개는 복구할 수 없는 손실을 입었습니다.
실패는 2주 전에 발생했고 어제 대학 행정부는 사건의 세부 사항을 공개하고 사용자에게 불편과 피해를 입힌 것에 대해 깊이 사과하는 메시지를 게시했습니다. 백업 과정에 관련된 bash 스크립트를 업데이트하고 10일 이상 경과된 로그를 삭제하는 과정에서 부주의로 인해 오류가 발생한 것으로 보입니다.
스크립트의 업데이트된 버전은 이미 실행되고 있던 시점에 이전 버전 위에 작성되었습니다. 조사 후 문제를 인정한 HPE에 따르면 변수 값이 손실되고 중간에서 새 버전의 스크립트가 로드되면서 관련 로그가 아닌 파일이 삭제되는 결과가 나왔다. 동시에 이 동작을 방지할 수 있는 표준 조치(즉, 오류 메시지와 함께 스크립트 실행 중지)는 분명히 취해지지 않았습니다.
현재 백업 시스템은 중단된 상태이며, 소프트웨어 문제를 제거하고 사건의 재발 방지를 위한 조치를 취한 후 2022년 1월 말 재개할 예정이다. 향후에는 미러링을 통한 백업 뿐만 아니라 보다 발전된 증분 백업 시스템을 추가로 도입할 계획입니다. 센터의 전문가들은 위험을 최소화하기 위해 기능뿐만 아니라 시스템의 관리 용이성을 개선하기 위해 노력할 것입니다.
2021-12-30 22:03:26
작가: Vitalii Babkin