京都大学のスーパーコンピューターのユーザーは、HPEの日本部門の障害が原因で発生したバックアップシステムの障害により、77TBの情報を失いました。エラーが原因で、1。5日間の作業でデータが失われました(3,400万ファイル以上)。事件の結果、14のユーザーグループのデータが影響を受け、そのうち4つのユーザーグループの情報は取り返しのつかないほど失われました。
失敗は2週間前に発生し、昨日、大学行政は事件の詳細を開示し、ご不便をおかけし、損害を被った可能性があることをユーザーに深くお詫びするメッセージを発表しました。バックアッププロセスに関連するbashスクリプトを更新し、10日より古いログを削除しているときに、不注意が原因でエラーが発生したようです。
スクリプトの更新されたバージョンは、すでに実行されていた時点で古いバージョンの上に書き込まれました。問題を調査した後に問題を認識したHPEによると、変数値が失われ、新しいバージョンのスクリプトが途中から読み込まれたため、関連するログではなくファイルが削除されました。同時に、この動作を防ぐことができる(つまり、エラーメッセージでスクリプトの実行を停止する)標準的な対策が講じられていなかったようです。
現在、バックアップシステムは停止しており、ソフトウェアの問題を解消し、再発防止策を講じた後、2022年1月末に再開する予定です。将来的には、ミラーリングによるバックアップだけでなく、追加のより高度な増分バックアップシステムの導入も使用する予定です。センターのスペシャリストは、リスクを最小限に抑えるために、機能だけでなく、システムの管理性も改善するよう努めます。
2021-12-30 22:03:26
著者: Vitalii Babkin