아마존은 클라우드 인프라의 대규모 실패가 프로세스를 자동화하도록 설계된 도구의 실패로 인한 것이라고 말했다. 사고는 디즈니 놀이공원과 넷플릭스 스트리밍에서 로봇 청소기, 콘서트 온라인 티켓 판매에 이르기까지 많은 비즈니스와 서비스에 영향을 미쳤습니다.
전날 발표된 성명에서 이 회사는 12월 7일 네트워크의 신뢰성을 향상시키기 위해 설계된 프로그램 중 하나가 작동을 멈추고 "많은 수의" 시스템이 예측할 수 없는 동작을 일으키면서 문제가 발생했다고 밝혔다. 이로 인해 Amazon 인프라의 활동이 급증했으며 사용자는 일부 클라우드 리소스에 액세스할 수 없었습니다. “눈덩이 효과로 인해 자동으로 실행되는 잘못된 코드 조각이 발생했습니다. Forrester의 분석가인 Brent Ellis는 성명서에 대해 "원래 문제는 내부 통제 및 모니터링 시스템의 폐쇄였습니다.
문제는 12월 7일 뉴욕 시간 약 10시 30분(모스크바 시간 18시 30분)에 시작되었으며 회사 전문가가 해결하는 데 몇 시간이 걸렸습니다. 인터넷에 연결된 스마트 홈 시스템 및 기타 장치가 작동을 멈춘다는 소셜 네트워크에 대한 수많은 불만이 있었습니다. 일부 전문가들은 회사의 설명이 불충분하다고 지적했다. “그들은 예측할 수 없는 행동이 무엇인지 설명하지 않습니다. 그것이 무엇인지 몰랐기 때문입니다. Duckbill Group의 클라우드 전문가인 Corey Quinn은 "무작위로 수정하려고 했기 때문에 시간이 너무 오래 걸렸습니다."라고 말했습니다.
전반적으로 AWS 서비스는 매우 안정적입니다. 이 정도 규모의 장애가 마지막으로 관찰된 것은 2017년으로, 회사 직원이 청구 시스템을 수리하는 동안 실수로 필요한 것보다 더 많은 서버를 껐습니다. 그러나 이번 주 사건은 아마존, 마이크로소프트, 구글을 포함한 소수의 기술 대기업이 운영하는 중앙 집중식 데이터 센터에 얼마나 많은 제품과 서비스가 의존하는지를 상기시켰습니다.
그리고 문제에 대한 간단한 해결책은 없습니다. 일부 전문가는 기업이 여러 사업자의 인프라에서 서비스를 복제해야 한다고 말하고, 다른 전문가는 그러한 전략이 비현실적이며 아마존뿐만 아니라 각 클라우드 제공업체가 실패할 때 실패가 발생한다고 지적합니다. “우리는 이 사건이 많은 고객들에게 중대한 영향을 미쳤다는 것을 알고 있습니다. 회사는 성명을 통해 "이를 통해 배우고 향후 가용성 향상에 사용할 수 있도록 최선을 다할 것"이라고 말했다.
2021-12-11 09:20:14
작가: Vitalii Babkin