올 여름 2세대 DTU AI 칩 기반 가속기를 선보인 Enflame은 Suixi 2.5 칩이 탑재된 새로운 추론 가속기 Cloudblazer Yunsui i20을 출시했습니다. GlobalFoundries의 12nm FinFET 공정을 사용하여 제조되었으며 컴퓨팅 코어 GCU-CARE 2.0의 업데이트된 고성능 아키텍처가 있어 제작자에 따르면 주류 7nm GPU에 필적하는 효율성을 달성할 수 있었습니다.
이 회사는 신제품의 주요 기능 중 향상된 컴퓨팅 성능, 텐서, 벡터 및 스칼라 계산을 수행하는 기능, C++ 및 Python용 API, 주요 프레임워크 및 모델 형식(TensorFlow, PyTorch , ONNX). 번들 소프트웨어는 가상화 기술을 지원하는 유연한 마이그레이션 옵션과 안전한 프로세스 격리를 통해 다중 사용자 및 다중 작업 환경을 제공합니다.
Yunsui i20은 최대 819GB/s의 대역폭을 가진 16GB HBM2e 메모리를 갖추고 있습니다. 이 신제품은 모든 주요 형식을 지원하고 클라우드를 포함하여 보편적인 추론 플랫폼을 제공합니다. 피크 컴퓨팅 FP32 성능은 32테라플롭, TF32(NVIDIA와의 호환성에 관한 경우 지정되지 않음) - 128테라플롭, FP16/BF16 - 128테라플롭, INT8은 256탑에 도달합니다. Yunsui i20은 1세대 제품과 비교하여 FP 성능이 1.8배, INT 컴퓨팅이 3.6배 향상되었습니다.
FP32, TF32, FP16 / BF16 및 INT8 계산의 성능은 19.5, 156, 312 및 624테라플롭(INT용 최고)이고 메모리 볼륨과 대역폭은 각각 40/80GB 및 1555/1935GB/s입니다. AMD MI100은 32GB의 HBM2 메모리(1.23TB/s)를 가지고 있으며, FP32, FP16, BF16의 성능은 각각 46.1, 184.6, 92.3테라플롭입니다. 세 가지 가속기 모두 PCIe 4.0 인터페이스가 있습니다.
독점적인 TopsRider 소프트웨어 스택의 최적화는 메모리 하위 시스템의 부하를 줄임으로써 성능 향상에 크게 기여했습니다. 그 결과 모델 실행의 평균 성능은 3.5배, 컴퓨팅 파워 사용 효율성은 평균 2배 증가했습니다. 또한 새로운 프로그래밍 모델과 자동화 기술은 개발 효율성을 가속화하고 모델 마이그레이션 비용을 절감할 수 있습니다. 회사는 이 모든 것이 Yunsui i20을 보다 경쟁력 있는 솔루션으로 만들 것이라고 확신합니다.
가상화 기술 덕분에 Yunsui i20은 서로 격리된 6개의 독립적인 도메인으로 나눌 수 있습니다. 이는 이전에는 NVIDIA에서만 제공되었던 것입니다. 차세대 AI 가속기로 완전히 마이그레이션된 다른 제품과 함께 Enflame은 스마트 시티 및 디지털 정부와 같은 혁신 부문은 물론 금융, 운송 및 에너지와 같은 전통 산업에서 상당한 시장 점유율을 얻을 것으로 기대하고 있습니다. 더 진보된 기술이 필요할 것입니다 AI 솔루션.
Enflame 팀과 다른 중국 개발자들이 달성한 명백한 성공에도 불구하고 - 딥 러닝을 위한 YITU Technology SoC, AI 기능이 통합된 Horizon Robotics Sunrise 2 IoT 칩, T-Head Semiconductor(Alibaba 자회사)의 Hanguang 800, Huawei 시리즈 Ascend 등 - People's Daily에 따르면 AI 칩의 외국 제조업체는 여전히 80% 이상의 점유율로 중국 시장을 지배하고 있습니다.
2021-12-14 18:50:40
작가: Vitalii Babkin