몇 년 전에 약속한 대로 Intel 그래픽 및 가속기의 주요 빌딩 블록은 Xe 코어가 될 것이며, 이는 원하는 성능과 기능을 달성하기 위해 유연하게 결합되고 다른 하드웨어 블록과 쌍을 이룰 수 있습니다. 이 회사는 이미 최초의 "진정한" 개별 Arc 시리즈 GPU를 발표했으며 Intel Architecture Day에서 Xe HPC 및 Ponte Vecchio 서버 가속기에 대한 세부 정보를 공유했습니다.
Xe HPC는 512비트 및 4096비트 데이터에 대해 각각 8개의 벡터 및 매트릭스 엔진을 포함하는 Xe 코어를 기반으로 합니다. 그들은 512바이트/사이클의 속도로 통신할 수 있는 512KB L1 캐시를 공유합니다.
"클래식" 컴퓨팅에 중점을 둔 벡터 엔진(이전 EU)에 대해 선언된 성능은 FP32 및 FP64의 경우 256 작업/주기 또는 FP16의 경우 512입니다. 매트릭스 엔진은 TF32, FP16, BF16 및 INT8 데이터(각각 2048, 4096, 4096 및 8192 작업/주기)에서만 작동하기 때문에 AI 로드에 더 많이 필요합니다. 이 엔진은 Intel Xeon Sapphire Rapids의 AMX와 다소 유사한 XMX(Xe Matrix eXtensions) 명령과 함께 작동합니다.
개별 코어는 "슬라이스"로 결합됩니다. 각각 16개의 Xe-Core는 16개의 하드웨어 레이 트레이싱 장치로 보완됩니다. 기본 기능 블록인 슬라이스입니다. Intel의 IDM 2.0 이니셔티브의 일부로 5nm 공정 기술을 사용하여 TSMC에서 제조되고 있습니다. 조각은 스택으로 결합됩니다 - 4 개. 모두에게.
스택에는 기본(기본) "기판"(또는 타일), 4개의 HBM2e 메모리 컨트롤러(메모리 자체가 별도의 타일에 배치됨), 144MB의 공통 L2 캐시, 하드웨어 코덱이 있는 미디어 엔진 1개 및 Xe Link 타일 및 PCIe 5 컨트롤러 기본 타일은 Intel 7이며 EMIB를 사용하여 모든 블록을 결합합니다.
TSMC의 7nm 공정 기술을 사용하여 제조된 Xe Link 타일은 8포트 스위치와 결합된 8 스택/가속기 인터페이스를 포함하고 90G 클래스 SerDes 블록을 사용합니다. 이 모든 것을 통해 일대일 방식에 따라 최대 8개의 스택을 결합할 수 있습니다. 이는 일반적으로 NVIDIA의 접근 방식과 유사하지만 후자의 NVSwitch는 여전히 (현재) 외부 구성 요소입니다.
가속기 자체에는 구성에 따라 하나 또는 두 개의 스택이 있을 수 있습니다. Ponte Vecchio의 경우 2개뿐이며 Intel은 성능에 대한 일부 데이터를 제공합니다. FP32 계산에서 45테라플롭 이상, 내부 메모리 패브릭 대역폭 5TB/s 이상 및 2TB/s 이상 외부 연결. 비교를 위해 NVIDIA A100은 19.5테라플롭의 FP32 성능과 AMD Instinct MI100 - 23.1테라플롭의 성능을 선언했습니다.
Intel은 또한 훈련 및 추론에서 ResNet-50 벤치마크 결과를 보여주었습니다. 각각 초당 3400개 및 43000개 이미지입니다. 이 결과는 "실리콘"의 최종 버전에서 얻은 것이 아니기 때문에 예비입니다. 그러나 Ponte Vecchio에는 L3 캐시로 간주될 수 있는 추가 초고속 캐시가 있는 별도의 Rambo 타일이라는 또 다른 이점이 있다는 점을 염두에 두어야 합니다.
전반적으로 Ponte Vecchio는 현재까지 가장 복잡한 칩 중 하나입니다. EMIB 및 Foveros 47 타일을 사용하여 5가지 다른 기술 프로세스를 사용하여 만든 총 트랜지스터 예산이 1000억을 초과합니다. 이러한 가속기는 OAM 폼 팩터와 4개의 가속기가 탑재된 기성 기판 형태로 제공됩니다(다시 , NVIDIA HGX가 떠오릅니다). 그리고 바로 그러한 마더보드가 2개의 Sapphire Rapids 프로세서와 쌍을 이루며 Aurora 슈퍼컴퓨터의 노드를 형성합니다. 새로운 CPU와 Intel 가속기를 사용하는 또 다른 기계는 SuperMUC-NG(2단계)입니다.
베키오 다리의 정식 출시는 2022년으로 예정돼 있지만, 신제품을 비교해야 할 차세대 AMD와 엔비디아 가속기 출시도 멀지 않았다. 지금까지 인텔은 이기종(CPU, GPU, IPU, FPGA 등) 응용 프로그램을 위한 범용 응용 프로그램 개발 도구 세트인 oneAPI가 기반이 되는 소프트웨어 에코시스템의 개발과 같이 똑같이 중요한 문제에 참여하고 있습니다. AMD 및 NVIDIA 하드웨어와 호환됩니다.
2021-08-19 15:25:15
작가: Vitalii Babkin