
오크리지 국립연구소(ORNL)는 뉴스 기사에서 새로운 슈퍼컴퓨팅 기술을 적극적으로 테스트하고 구현하는 것으로 자주 언급됩니다. 현재 OLCF 컴퓨팅 센터(Oak Ridge Leadership Computing Facility)는 AMD 프로세서와 가속기를 기반으로 하는 미국 최초의 엑사스케일 프론티어 슈퍼컴퓨터 설치 작업을 진행하고 있습니다.
National Center for Computational Sciences가 Frontier와 거의 동일한 HPE Cray 노드를 사용하는 소규모 Crusher 클러스터를 출시함에 따라 많은 Frontier 아키텍처 기능이 밝혀졌습니다. 이 시스템은 얼리 액세스 플랫폼으로 사용되며 단 두 개의 캐비닛으로 구성됩니다. 첫 번째 노드에는 128개의 노드가 있고 두 번째 노드에는 64개가 있습니다. 총 피크 성능은 40PFlops에서 선언됩니다.
각 노드의 중심에는 AMD EPYC 7A53의 특별 버전이 있습니다. 64개 코어(SMT2 포함)는 별도의 메모리 컨트롤러에서 제공하는 4개의 NUMA 도메인으로 분할됩니다. 8개의 DDR4 채널(노드당 총 512GB)은 205GB/s의 대역폭을 제공합니다. 시스템에는 가속기가 4개뿐이지만 이들은 최신 듀얼 칩 AMD Instinct MI250X이므로 시스템에 8개의 개별 GPU로 표시됩니다.
각 가속기는 각 방향으로 36GB/s를 제공하는 두 개의 Infinity Fabric 링크를 통해 하나의 NUMA 도메인에 연결됩니다. MI250X 내부의 칩은 더 빠른 채널로 서로 연결되어 양방향으로 200GB/s를 제공합니다. 모든 가속기는 "각각"50GB / s 채널 구성표에 따라 상호 연결됩니다. 동시에 공장에 직접 연결됩니다. 각각은 자체 HPE Slingshot 어댑터(200Gb/s)를 사용할 수 있습니다.
한 쌍의 1.92TB SSD만 PCIe 스위치를 통해 CPU에 연결됩니다(쓰기의 경우 4GB/s, 임의 작업의 경우 160만 IOPS). 각 NUMA 도메인은 하나의 가속기와 연결된 두 개의 L3 하위 도메인으로 분할되어 유연한 부하 분산이 가능합니다. 메인 스토리지는 외부 스토리지 시스템인 IBM Spectrum Scale로 총 용량은 250PB, 최고 속도는 2.5TB/s입니다.
시스템은 또한 직접적이지는 않지만 NCSS 네트워크에 액세스할 수 있습니다. 일반 NFS 스토리지에서 각 프로젝트는 90일의 데이터 보존 기간으로 50GB를 얻을 수 있으며 50TB는 이미 Spectrum Scale의 GPFS에서 사용할 수 있습니다. 크러셔는 사전 설치된 많은 소프트웨어와 함께 제공됩니다. 사용자 환경은 Lua로 작성된 Lmod 시스템을 기반으로 하는 모듈식입니다. Slurm은 로드 밸런싱을 담당합니다. RSA SecurID 하드웨어 토큰 키는 인증에 사용됩니다.
2022-01-22 08:18:53
작가: Vitalii Babkin