• 홈페이지
  • 차
  • 암호 화폐
  • 경기
  • 하이 테크
  • 할리우드
  • 과학
  • 우주
  • 스포츠
  • 세계

Tesla는 자체 디자인의 D1 칩에 대해 말했습니다.

Tesla는 자체 디자인의 D1 칩에 대해 말했습니다.

Tesla는 이미 회사 실험실에서 만든 자체 D1 프로세서를 발표했으며 Dojo AI 슈퍼컴퓨터의 기반이 될 것입니다. AI 운전자를 위한 가상 훈련장을 만들고 도로의 실제 상황을 자세히 재현하려면 이러한 시스템이 필요합니다. 당연히 이러한 시뮬레이터에는 엄청난 컴퓨팅 성능이 필요합니다. 우리 세계에서 교통 상황은 매우 복잡하고 변경 가능하며 많은 요인과 변수를 포함합니다.

최근까지 Dojo와 D1에 대해 많이 알려지지 않았지만 Hot Chips 34 컨퍼런스에서 이 Tesla 솔루션의 아키텍처, 디자인 및 기능에 대해 많은 흥미로운 사실이 밝혀졌습니다. 프레젠테이션은 AMD에서 17년 동안 서버 프로세서 설계 분야에서 일한 Emil Talpes가 진행했습니다. 다른 저명한 개발자들과 마찬가지로 그는 현재 Tesla에서 회사의 하드웨어를 만들고 개선하기 위해 일하고 있습니다.

D1의 주요 아이디어는 확장성이므로 새로운 칩 개발 초기에 제작자는 일관성, 가상 메모리 등과 같은 전통적인 개념의 역할을 적극적으로 재고했습니다. - 정말 큰 컴퓨팅 시스템을 구축할 때 모든 메커니즘이 최상의 방식으로 확장되는 것은 아닙니다. 대신, 분산 컴퓨팅 시스템의 기존 구현보다 훨씬 앞서 상호 연결이 생성된 SRAM을 기반으로 하는 분산 스토리지 네트워크가 선호되었습니다.

Tesla 프로세서의 기본은 RISC-V 세트의 일부 명령을 기반으로 하는 정수 컴퓨팅 코어였지만 회사에서 사용하는 기계 학습 코어의 요구 사항에 최적화된 다수의 독점 명령으로 보완되었습니다. 개발자에 따르면 벡터 수학 블록은 거의 처음부터 만들어졌습니다.

Dojo 명령어 세트에는 스칼라, 매트릭스, SIMD 명령어뿐만 아니라 로컬 메모리에서 원격 메모리로 데이터를 이동하기 위한 특정 기본 요소와 장벽이 있는 세마포가 포함됩니다. 후자는 시스템 전체에서 메모리 작업을 조정하는 데 필요합니다. 기계 학습을 위한 구체적인 지침은 Dojo에서 하드웨어로 구현됩니다.

시리즈의 첫 번째 칩인 D1 칩은 가속기 자체가 아니라 특정 가속기가 필요하지 않은 고성능 범용 프로세서로 간주합니다. 각 Dojo 계산 단위는 로컬 메모리 및 I/O 인터페이스가 있는 단일 D1 코어로 표시됩니다. 이것은 64비트 슈퍼스칼라 커널입니다.

또한 커널은 클록당 성능을 향상시키도록 설계된 다중 스레딩(SMT4)을 지원하므로(서로 다른 작업을 분리하는 대신) 이 SMT 구현은 가상 메모리를 지원하지 않으며 보호 메커니즘은 기능면에서 다소 제한적입니다. 특수 소프트웨어 스택 및 독점 소프트웨어는 Dojo 자원 관리를 담당합니다.

64비트 커널에는 디코더의 너비에 해당하는 최대 8개의 명령어를 포함할 수 있는 32바이트 페치 창이 있습니다. 그는 차례로 사이클당 두 개의 스레드를 처리할 수 있습니다. 결과는 정수 계산 장치(2개의 ALU) 또는 벡터 장치(64바이트 너비 SIMD + 8×8×4 행렬 곱셈)로 보내는 스케줄러로 전달됩니다.

각 D1 코어에는 1.25MB SRAM이 있습니다. 이 메모리는 캐시가 아니지만 400GB/s의 속도로 데이터를 로드하고 270GB/s의 속도로 저장할 수 있으며 이미 언급했듯이 작업을 수행할 수 있는 칩에 특수 명령이 구현되어 있습니다. 다른 Dojo 코어의 데이터와 함께 이를 위해 SRAM 블록에는 자체 메커니즘이 있으므로 원격 메모리 작업에 추가 작업이 필요하지 않습니다.

지원되는 데이터 형식의 경우 스칼라 블록은 8~64비트의 정수 형식을 지원하는 반면 벡터 및 행렬 블록은 혼합 정밀도 계산(FP32, BF16, CFP16 및 CFP8)을 포함한 광범위한 부동 소수점 형식을 지원합니다. D1 개발자는 구성 가능한 8비트 및 16비트 데이터 표현의 전체 세트를 사용하게 되었습니다. Dojo 컴파일러는 가수와 지수의 값을 동적으로 변경할 수 있으므로 시스템이 최대 16개의 다른 벡터 형식을 사용할 수 있습니다. , 변경되지 않는 한.

이미 언급했듯이 D1 토폴로지는 12개의 코어마다 하나의 논리 블록으로 결합되는 메쉬 구조를 사용합니다. 전체 D1 칩은 18×20 코어 어레이이지만 칩에 있는 360개 코어 중 354개 코어만 사용할 수 있습니다. 645mm2 다이 자체는 7nm 공정 기술을 사용하여 TSMC 시설에서 제조됩니다. 클럭 주파수는 2GHz이고 SRAM의 총량은 440MB입니다.

D1 프로세서는 BF16/CFP8 모드에서 362Tflops를 개발하고 FP32 모드에서 이 수치는 22Tflops로 떨어집니다. FP64 모드는 D1 벡터 블록에서 지원되지 않으므로 이 프로세서는 많은 기존 HPC 워크로드에 적합하지 않습니다. 그러나 Tesla는 내부 사용을 위해 D1을 구축했으므로 호환성에 대해서는 크게 신경 쓰지 않습니다. 그러나 새로운 세대인 D2 또는 D3에서는 회사의 목표에 맞는 경우 이러한 지원이 나타날 수 있습니다.

각 D1 다이에는 4면 모두에서 8TB/s의 결합된 성능을 가진 576비트 외부 SerDes 인터페이스가 있으므로 D1을 연결할 때 병목 현상이 발생하지 않습니다. 이 인터페이스는 결정을 단일 5x5 매트릭스로 결합합니다. 이러한 25개의 D1 결정 매트릭스를 Dojo 교육 타일이라고 합니다.

이 타일은 측면당 4.5TB/s의 대역폭, 총 11GB의 SRAM 및 자체 15kW 전원 시스템을 갖춘 외부 인터페이스가 있는 완전한 열전기 기계 모듈로 설계되었습니다. 한 Dojo 타일의 처리 능력은 BF16/CFP8 형식에서 9PFlops입니다. 이 수준의 전력 소비에서 Dojo는 액체 냉각만 가능합니다.

타일은 훨씬 더 생산적인 매트릭스로 결합될 수 있지만 Tesla 슈퍼컴퓨터가 물리적으로 정확히 어떻게 구성되어 있는지는 완전히 명확하지 않습니다. 외부 세계와 통신하기 위해 DIP 블록인 Dojo 인터페이스 프로세서가 사용됩니다. 이들은 타일이 호스트 시스템과 통신하고 제어 기능, 데이터 어레이 저장 등을 할당하는 인터페이스 프로세서입니다. 각 DIP는 IO 기능을 수행할 뿐만 아니라 32GB의 HBM 메모리(지정되지 않음, HBM2e 또는 HBM3)도 포함합니다.

DIP는 Tesla에서 개발한 전체 전송 프로토콜(Tesla Transport Protocol, TTP)을 사용하여 900GB/s 및 이더넷(50GB/s)의 처리량을 제공합니다. 카드의 외부 인터페이스는 PCI Express 4.0이며 각 인터페이스 카드에는 한 쌍의 DIP가 있습니다. 타일의 각 행에 5개의 DIP가 설치되어 HBM 스택에서 타일까지 최대 4.5TB/s의 속도를 제공합니다.

전체 시스템에서 tile-to-tile 액세스가 너무 많은 홉(Edge-to-Edge 액세스의 경우 최대 30개)을 필요로 하는 경우 시스템은 400GbE 팻 트리 네트워크에 의해 외부적으로 연결된 DIP를 사용할 수 있으므로 시스템이 최대 4개의 홉 수. 이 경우 처리량이 저하되지만 일부 시나리오에서는 지연 시간이 더 중요합니다.

기본 버전에서 Dojo V1 슈퍼컴퓨터는 BF16/CFP8 모드에서 1 Eflops를 생성하고 최대 1.3TB의 모델을 SRAM에 직접 로드할 수 있으며 다른 13TB의 데이터는 DIP HBM 어셈블리에 저장할 수 있습니다. 전체 Dojo 시스템의 SRAM 공간은 단일 플랫 주소 지정을 사용합니다. Dojo의 전체 규모 버전은 최대 20 eflops의 성능을 갖습니다.

회사가 그러한 괴물을 출시하고 가장 중요한 것은 작동하고 유용한 소프트웨어를 제공하는 데 얼마나 많은 노력이 필요한지 알 수 없지만 분명히 많습니다. 이 시스템은 PyTorch와 호환되는 것으로 알려져 있습니다. Tesla는 현재 TSMC로부터 기성품 D1 칩을 받고 있습니다. 한편, 회사는 세계 최대의 설치된 NVIDIA AI 슈퍼컴퓨터를 만들고 있습니다.


2022-09-06 07:41:21

작가: Vitalii Babkin

이전 | 다음

• GPS 및 태양광 충전 기능을 갖춘 Coros Dura 사이클 컴퓨터가 발표되었습니다

• 리얼미, 12GB 램을 탑재한 새로운 P1 Pro 5G 스마트폰 출시

• OnePlus Nord CE4 Lite, 5500mAh 배터리로 출시

• JBL 오디오 시스템이 탑재된 Lenovo Tab Plus 발표

• Hisense S7N CanvasTV 4K QLED 발표

• MSI가 게임용 모니터 MAG 27QRF QD E2 Monster Hunter Edition 출시

• AOC, Fast VA 화면과 280Hz 주사율을 갖춘 Gaming C27G2Z3/BK 모니터 출시

• 삼성은 애플의 예에 따라 자율주행 분야의 야망을 포기했습니다

• 영국에서 AI 안전성 평가 플랫폼 출시

• 법원이 코르타나 개발 시 기술 도용으로 Microsoft에 2억 4200만 달러의 벌금 부과

• 샤오미, 독특한 디자인의 Civi 4 Pro 스마트폰 공개

• 인텔 N100 프로세서와 16GB RAM을 장착한 콤팩트 PC인 GEEKOM Mini Air12의 가격은 249달러로 평가되었습니다

• Apple Watch 업데이트로 인해 배터리가 지나치게 빨리 소모됩니다

• iQOO 12 스마트폰, 70배 줌으로 사진 촬영 가능

© 2021-2023 Yoopply 한국어 - 매일 세계 뉴스
Deutsch | 日本 | France | Italy | 한국어 | Portugues

차 | 암호 화폐 | 경기 | 하이 테크 | 할리우드 | 과학 | 우주 | 스포츠 | 세계 | 소프트웨어

회사 소개 | 개인 정보 정책
Facebook | Twitter
Yoopply
40004, Ukraine, Sumska, Sumy, Pratsi str. building 37
Phone: +380958165974
Email: acca.in.ua@gmail.com