• 홈페이지
  • 차
  • 암호 화폐
  • 경기
  • 하이 테크
  • 할리우드
  • 과학
  • 우주
  • 스포츠
  • 세계

NVIDIA는 Hopper 아키텍처를 기반으로 하는 H100 가속기에 대한 세부 정보를 공유했습니다.

NVIDIA는 Hopper 아키텍처를 기반으로 하는 H100 가속기에 대한 세부 정보를 공유했습니다.

Hot Chips 34 컨퍼런스에서 NVIDIA는 Hopper 아키텍처를 기반으로 하는 곧 출시될 H100 가속기에 대한 새로운 세부 정보를 공유했습니다. GH100 칩에는 800억 개의 트랜지스터가 포함되어 있으며 NVIDIA와 협력하여 만든 NVIDIA 요구 사항에 맞게 특별히 최적화된 TSMC N4 프로세스 기술을 사용하여 제조되었습니다. 액셀러레이터는 세계 최초로 HBM3 메모리를 탑재하게 된다.

이 칩에는 한 번에 144개의 스트리밍 멀티프로세서(SM)가 있어 물리적으로 128개의 블록이 있는 A100보다 다소 많습니다. 활성 블록은 132개에 불과하지만 NVIDIA는 동일한 주파수에서 이전 세대. 이는 FP32 및 FP64 FMA 모듈 모두에 적용됩니다. 또한 높은 계산 정확도가 필요하지 않은 기계 학습 시나리오에서 점점 더 일반적으로 사용되는 FP8 형식에 대한 지원이 있습니다.

이 모드에서 NVIDIA는 가장 일반적인 FP8 형식인 E5M2와 E4M3을 모두 지원했습니다. 각 FP8 텐서 블록은 결과의 추가 누적 및 변환과 함께 FP8 형식의 두 행렬의 곱셈을 제공하지만 여기서 가장 중요한 것은 새로운 Transformer Engine 블록의 존재로 인해 가장 적합한 FP8 변형을 선택하는 것이 자동으로 수행됩니다. NVIDIA에 따르면 FP8 지원 텐서 프로세서의 고급 아키텍처는 FP16과 비슷한 정밀도를 제공하지만 성능은 2배, 메모리 공간은 절반입니다.

전체적으로 각 SM 블록에는 128개의 FP32 모듈, 64개의 INT32 및 FP64 모듈, 4개의 텐서 코어, 텐서 메모리 가속기 및 256KB의 총 L1 캐시가 있습니다. L2 캐시의 볼륨은 최대 50MB입니다. 현재 구현에서는 18432개 중 16896개의 CUDA 코어가 가능하고 576개 중 528개의 텐서 코어가 사용 가능하며 NVIDIA에 따르면 새로운 4세대 텐서 컴퓨팅 모듈도 두 배 빨라졌습니다. 새로운 DPX 명령어 세트에 대한 지원 구현, 데이터 이동 시 비동기 지원 등

MIG(Multi-instance GPU) 기술이 2세대로 성장했습니다. 이제 이러한 각 가상 가속기는 컴퓨팅 성능이 3배, 메모리 대역폭이 2배가 되었습니다. 후자는 HBM3의 사용을 통해 달성됩니다. 이 버전에서는 각각 16GB(5120비트 버스) 용량의 HBM3 어셈블리가 사용됩니다. 5개의 어셈블리는 3TB/s의 메모리 대역폭으로 80GB의 로컬 메모리를 제공합니다. 어셈블리 시트는 6개지만, 1개는 칩 높이를 평평하게 하는 용도로만 사용된다.

동시에 GH100의 가상화는 가능한 한 완벽합니다. 각 vGPU의 메모리 영역을 격리하는 특수 방화벽 블록과 무결성 검사를 위한 블록을 포함하여 하드웨어 수준에서 신뢰할 수 있는 컴퓨팅에 대한 지원이 제공됩니다. 데이터 기밀 유지. 우리는 이전에 차세대 NVLink 4 상호 연결에 대한 지원에 대해 이야기했습니다. 이 인터페이스는 여러 칩과 가속기를 결합하기 위해 최대 900GB/s를 제공하지만 가장 중요한 것은 유연한 확장 옵션을 제공합니다.

GH100에는 수정된 메모리 계층이라는 또 다른 중요한 혁신이 있습니다. 따라서 SM-to-SM 상호 연결을 통해 각 4개의 SM이 서로 직접 통신할 수 있으며 불필요한 트랜잭션으로 공통 버스를 로드하지 않습니다. 이것은 가상화의 효율성을 높이고 가속기의 "주 경로"의 대역폭을 심각하게 절약합니다. 이는 비동기 실행 및 데이터 교환 지원과 함께 어떤 경우에는 최대 7배까지 지연 시간을 줄입니다.

NVIDIA가 GH100의 완전한 잠재력을 실현하는지 여부는 현재 불분명하지만 이것은 참신함의 이미 심각한 잠재력을 증가시킬 수 있습니다. 그러나 이러한 힘은 헛되지 않습니다. 잘린 버전에서도 최적화된 기술 프로세스를 사용하더라도 SXM5 형식(PG520 보드)의 GH100 기반 가속기의 TDP는 700W입니다.

의심할 여지 없이 GH100은 GA100에 비해 큰 발전이지만 경쟁은 심각할 것입니다. 예를 들어 신제품은 Intel Ponte Vecchio 기반 가속기와 싸워야 하며 1:1 FP32 / FP64 비율을 약속합니다. NVIDIA 솔루션의 경우 2:1 대비 . 흥미로운 사실은 새 칩의 단일 GPC 클러스터가 불과 10년 전에 출시된 전체 GK110 Kepler 칩보다 20% 더 강력하다는 것입니다.


2022-08-28 16:22:56

작가: Vitalii Babkin

이전 | 다음

• GPS 및 태양광 충전 기능을 갖춘 Coros Dura 사이클 컴퓨터가 발표되었습니다

• 리얼미, 12GB 램을 탑재한 새로운 P1 Pro 5G 스마트폰 출시

• OnePlus Nord CE4 Lite, 5500mAh 배터리로 출시

• JBL 오디오 시스템이 탑재된 Lenovo Tab Plus 발표

• Hisense S7N CanvasTV 4K QLED 발표

• MSI가 게임용 모니터 MAG 27QRF QD E2 Monster Hunter Edition 출시

• AOC, Fast VA 화면과 280Hz 주사율을 갖춘 Gaming C27G2Z3/BK 모니터 출시

• 삼성은 애플의 예에 따라 자율주행 분야의 야망을 포기했습니다

• 영국에서 AI 안전성 평가 플랫폼 출시

• 법원이 코르타나 개발 시 기술 도용으로 Microsoft에 2억 4200만 달러의 벌금 부과

• 샤오미, 독특한 디자인의 Civi 4 Pro 스마트폰 공개

• 인텔 N100 프로세서와 16GB RAM을 장착한 콤팩트 PC인 GEEKOM Mini Air12의 가격은 249달러로 평가되었습니다

• Apple Watch 업데이트로 인해 배터리가 지나치게 빨리 소모됩니다

• iQOO 12 스마트폰, 70배 줌으로 사진 촬영 가능

© 2021-2023 Yoopply 한국어 - 매일 세계 뉴스
Deutsch | 日本 | France | Italy | 한국어 | Portugues

차 | 암호 화폐 | 경기 | 하이 테크 | 할리우드 | 과학 | 우주 | 스포츠 | 세계 | 소프트웨어

회사 소개 | 개인 정보 정책
Facebook | Twitter
Yoopply
40004, Ukraine, Sumska, Sumy, Pratsi str. building 37
Phone: +380958165974
Email: acca.in.ua@gmail.com