NVIDIA는 Hopper 아키텍처를 기반으로 하는 H100 가속기에 대한 세부 정보를 공유했습니다.

Hot Chips 34 컨퍼런스에서 NVIDIA는 Hopper 아키텍처를 기반으로 하는 곧 출시될 H100 가속기에 대한 새로운 세부 정보를 공유했습니다. GH100 칩에는 800억 개의 트랜지스터가 포함되어 있으며 NVIDIA와 협력하여 만든 NVIDIA 요구 사항에 맞게 특별히 최적화된 TSMC N4 프로세스 기술을 사용하여 제조되었습니다. 액셀러레이터는 세계 최초로 HBM3 메모리를 탑재하게 된다.

이 칩에는 한 번에 144개의 스트리밍 멀티프로세서(SM)가 있어 물리적으로 128개의 블록이 있는 A100보다 다소 많습니다. 활성 블록은 132개에 불과하지만 NVIDIA는 동일한 주파수에서 이전 세대. 이는 FP32 및 FP64 FMA 모듈 모두에 적용됩니다. 또한 높은 계산 정확도가 필요하지 않은 기계 학습 시나리오에서 점점 더 일반적으로 사용되는 FP8 형식에 대한 지원이 있습니다.

이 모드에서 NVIDIA는 가장 일반적인 FP8 형식인 E5M2와 E4M3을 모두 지원했습니다. 각 FP8 텐서 블록은 결과의 추가 누적 및 변환과 함께 FP8 형식의 두 행렬의 곱셈을 제공하지만 여기서 가장 중요한 것은 새로운 Transformer Engine 블록의 존재로 인해 가장 적합한 FP8 변형을 선택하는 것이 자동으로 수행됩니다. NVIDIA에 따르면 FP8 지원 텐서 프로세서의 고급 아키텍처는 FP16과 비슷한 정밀도를 제공하지만 성능은 2배, 메모리 공간은 절반입니다.

전체적으로 각 SM 블록에는 128개의 FP32 모듈, 64개의 INT32 및 FP64 모듈, 4개의 텐서 코어, 텐서 메모리 가속기 및 256KB의 총 L1 캐시가 있습니다. L2 캐시의 볼륨은 최대 50MB입니다. 현재 구현에서는 18432개 중 16896개의 CUDA 코어가 가능하고 576개 중 528개의 텐서 코어가 사용 가능하며 NVIDIA에 따르면 새로운 4세대 텐서 컴퓨팅 모듈도 두 배 빨라졌습니다. 새로운 DPX 명령어 세트에 대한 지원 구현, 데이터 이동 시 비동기 지원 등

MIG(Multi-instance GPU) 기술이 2세대로 성장했습니다. 이제 이러한 각 가상 가속기는 컴퓨팅 성능이 3배, 메모리 대역폭이 2배가 되었습니다. 후자는 HBM3의 사용을 통해 달성됩니다. 이 버전에서는 각각 16GB(5120비트 버스) 용량의 HBM3 어셈블리가 사용됩니다. 5개의 어셈블리는 3TB/s의 메모리 대역폭으로 80GB의 로컬 메모리를 제공합니다. 어셈블리 시트는 6개지만, 1개는 칩 높이를 평평하게 하는 용도로만 사용된다.

동시에 GH100의 가상화는 가능한 한 완벽합니다. 각 vGPU의 메모리 영역을 격리하는 특수 방화벽 블록과 무결성 검사를 위한 블록을 포함하여 하드웨어 수준에서 신뢰할 수 있는 컴퓨팅에 대한 지원이 제공됩니다. 데이터 기밀 유지. 우리는 이전에 차세대 NVLink 4 상호 연결에 대한 지원에 대해 이야기했습니다. 이 인터페이스는 여러 칩과 가속기를 결합하기 위해 최대 900GB/s를 제공하지만 가장 중요한 것은 유연한 확장 옵션을 제공합니다.

GH100에는 수정된 메모리 계층이라는 또 다른 중요한 혁신이 있습니다. 따라서 SM-to-SM 상호 연결을 통해 각 4개의 SM이 서로 직접 통신할 수 있으며 불필요한 트랜잭션으로 공통 버스를 로드하지 않습니다. 이것은 가상화의 효율성을 높이고 가속기의 "주 경로"의 대역폭을 심각하게 절약합니다. 이는 비동기 실행 및 데이터 교환 지원과 함께 어떤 경우에는 최대 7배까지 지연 시간을 줄입니다.

NVIDIA가 GH100의 완전한 잠재력을 실현하는지 여부는 현재 불분명하지만 이것은 참신함의 이미 심각한 잠재력을 증가시킬 수 있습니다. 그러나 이러한 힘은 헛되지 않습니다. 잘린 버전에서도 최적화된 기술 프로세스를 사용하더라도 SXM5 형식(PG520 보드)의 GH100 기반 가속기의 TDP는 700W입니다.

의심할 여지 없이 GH100은 GA100에 비해 큰 발전이지만 경쟁은 심각할 것입니다. 예를 들어 신제품은 Intel Ponte Vecchio 기반 가속기와 싸워야 하며 1:1 FP32 / FP64 비율을 약속합니다. NVIDIA 솔루션의 경우 2:1 대비 . 흥미로운 사실은 새 칩의 단일 GPC 클러스터가 불과 10년 전에 출시된 전체 GK110 Kepler 칩보다 20% 더 강력하다는 것입니다.

2022-08-28 16:22:56

작가: Vitalii Babkin

이전 | 다음