• 홈페이지
  • 차
  • 암호 화폐
  • 경기
  • 하이 테크
  • 할리우드
  • 과학
  • 우주
  • 스포츠
  • 세계

IBM, Telum 프로세서 공개: 8코어, 5GHz, 256MB L2 캐시 및 AI 가속기

IBM, Telum 프로세서 공개: 8코어, 5GHz, 256MB L2 캐시 및 AI 가속기

금융 기관, 예약 시스템 및 기타 비즈니스 크리티컬 운영자는 안정성 때문에 IBM의 "대형 기계"를 사랑합니다. 시스템 이름의 문자 z가 Zero Downtime - Zero Downtime을 의미하는 것은 당연합니다. Hot Chips 33 컨퍼런스에서 이 회사는 역사상 처음으로 자체 이름 Telum(라틴어로 dart)을 받은 차세대 z-프로세서를 공개했습니다. "무기"라는 이름이 선택된 이유는 다음과 같습니다. 새 아키텍처에서 IBM은 특히 사기 방지를 위해 특별히 설계된 System z에서 이전에 사용되지 않았던 새로운 솔루션을 도입했습니다.

IBM의 주요 고객 중 일부(대형 금융 기업 및 은행)는 시스템이 초당 수천, 수천 건의 트랜잭션을 처리하고 가능한 한 안정적으로 처리해야 하기 때문에 내장된 AI 도구를 오랫동안 기다려 왔습니다. Telum 개발의 목표 중 하나는 시스템 외부로 데이터를 보내지 않고 트랜잭션 처리 중에 실시간으로 발생하는 추론 계산의 도입이었습니다.

따라서 Telum의 추론 가속기는 캐시 하위 시스템에 직접 연결되어 모든 z/Architecture 프로세서 및 메모리 보호 메커니즘을 사용합니다. 그리고 그 자신도 z의 특징적인 여러 접근 방식을 가지고 있습니다. 따라서 별도의 "펌웨어"가 특정 클라이언트의 작업을 최적화하기 위해 변경할 수 있는 가속기의 작동을 제어합니다. 코어 중 하나와 이 코어와 통신하는 가속기 자체에서 실행되며 메모리 및 캐시 액세스, 보안 및 데이터 무결성, 실제 계산 관리를 담당합니다.

가속기는 두 가지 유형의 엔진을 포함합니다. 첫 번째는 FP16 데이터를 사용하는 MAC 작업을 위한 128개의 SIMD 블록을 가지며 행렬 곱셈 및 컨볼루션에 필요합니다. 두 번째에는 32개의 SIMD 블록만 있지만 FP16/FP32 데이터와 함께 작동할 수 있으며 네트워크 활성화 기능 및 기타 복잡한 작업에 최적화되어 있습니다. 이들은 초고속 메모리 블록(스크래치패드)과 데이터 이동 및 준비를 담당하는 "스마트" IO 엔진으로 보완되며, 이는 즉시 다시 포맷할 수 있습니다.

Scratchpad는 L2 캐시에서 데이터를 다운로드하고 계산 결과를 다시 보내는 블록에 연결됩니다. IBM은 전용 AI 가속기가 있으면 코어에서 기존 SIMD 블록을 병렬로 사용할 수 있다는 점을 별도로 강조하여 AVX-512 VNNI를 분명히 암시합니다. 그러나 Sapphire Rapids는 이제 코어에 별도의 AMX 장치가 있지만 기능면에서는 더 적습니다.

가속기는 가상화된 환경을 포함하여 사용자 공간에서 액세스할 수 있습니다. 이 회사는 새로운 가속기를 사용하기 위해 가져온 ONNX 모델을 최적화하는 데 도움이 되는 IBM Deep Learning Compiler를 제공합니다. TensorFlow, IBM Snap ML 및 널리 사용되는 다양한 개발 도구에 대한 기본 지원도 있습니다. 6테라플롭 FP16 이상의 성능을 가진 프로세서당 하나의 AI 가속기가 있습니다.

사기 방지를 위한 테스트 RNN 모델에서 칩은 1.1ms 이내의 지연 시간으로 116,000번의 추론 작업을 수행할 수 있으며 32개의 프로세서로 구성된 시스템의 경우 이 수치는 이미 360만 번의 추론 작업이며 지연 시간이 증가합니다. 1.2밀리초 AI 액셀러레이터 외에도 모든 코어에 공통적인 (de-)압축(gzip) 액셀러레이터가 있으며 각 코어에는 CSMP용 엔진도 있습니다. 글쎄, 정렬 및 암호화를 위한 가속기는 어디에도 가지 않았습니다.

작동 가능성을 확인하고 다시 확인하기 위한 수백 가지 메커니즘이 신뢰성을 담당합니다. 따라서 예를 들어 레지스터와 캐시가 복제되어 yal이 실패할 경우 완전히 재부팅하고 중단된 위치에서 정확히 작업 실행을 계속할 수 있습니다. 그리고 반드시 암호화해야 하는 RAM의 경우 RAID 어레이의 일종인 RAIM(Redundant Array of Memory) 모드가 사용됩니다. 이 모드에서는 한 캐시 라인이 8개의 모듈 사이에서 한 번에 "스미어링(smeared)"됩니다.

전임자 z15에서 많은 것을 물려받은 Telum은 여전히 ​​근본적으로 다릅니다. 프로세서에는 5GHz 이상의 주파수에서 작동하는 "스마트" 깊은 비순차 실행 및 SMT2를 지원하는 8개의 코어가 포함되어 있습니다. 각 코어는 32MB의 L2 캐시에 의존하므로 다른 최신 CPU는 배경에 비해 둔해 보입니다. 하지만 그렇게 간단하지 않습니다.

캐시는 대역폭이 320GB/s 이상인 양방향 링 버스를 통해 서로 통신하므로 볼륨이 256MB이고 평균 대기 시간이 12ns인 가상 L3 캐시를 형성합니다. 각 Telum 칩에는 1개(SCM) 또는 2개(DCM) 프로세서가 포함될 수 있습니다. 그리고 하나의 노드에는 320GB / s의 동일한 속도로 각각의 구성표에 따라 최대 4개의 칩, 즉 최대 8개의 CPU가 결합될 수 있습니다.

따라서 노드의 프레임워크 내에서 2GB 볼륨의 가상 L4 캐시가 형성됩니다. IBM에 따르면 캐시의 플랫 토폴로지는 z15에 비해 대기 시간이 짧은 새로운 프로세서를 제공합니다. 최대 32개의 프로세서까지 확장할 수 있지만 개별 노드는 "단" 45GB/s의 속도로 다중 연결로 연결됩니다.

IBM은 소켓당 z15보다 40% 향상된 성능을 보고하고 있습니다. Telum에는 220억 개의 트랜지스터가 포함되어 있으며 일반 모드에서 TDP가 400W입니다.


2021-08-24 04:55:13

작가: Vitalii Babkin

이전 | 다음

• GPS 및 태양광 충전 기능을 갖춘 Coros Dura 사이클 컴퓨터가 발표되었습니다

• 리얼미, 12GB 램을 탑재한 새로운 P1 Pro 5G 스마트폰 출시

• OnePlus Nord CE4 Lite, 5500mAh 배터리로 출시

• JBL 오디오 시스템이 탑재된 Lenovo Tab Plus 발표

• Hisense S7N CanvasTV 4K QLED 발표

• MSI가 게임용 모니터 MAG 27QRF QD E2 Monster Hunter Edition 출시

• AOC, Fast VA 화면과 280Hz 주사율을 갖춘 Gaming C27G2Z3/BK 모니터 출시

• 삼성은 애플의 예에 따라 자율주행 분야의 야망을 포기했습니다

• 영국에서 AI 안전성 평가 플랫폼 출시

• 법원이 코르타나 개발 시 기술 도용으로 Microsoft에 2억 4200만 달러의 벌금 부과

• 샤오미, 독특한 디자인의 Civi 4 Pro 스마트폰 공개

• 인텔 N100 프로세서와 16GB RAM을 장착한 콤팩트 PC인 GEEKOM Mini Air12의 가격은 249달러로 평가되었습니다

• Apple Watch 업데이트로 인해 배터리가 지나치게 빨리 소모됩니다

• iQOO 12 스마트폰, 70배 줌으로 사진 촬영 가능

© 2021-2023 Yoopply 한국어 - 매일 세계 뉴스
Deutsch | 日本 | France | Italy | 한국어 | Portugues

차 | 암호 화폐 | 경기 | 하이 테크 | 할리우드 | 과학 | 우주 | 스포츠 | 세계 | 소프트웨어

회사 소개 | 개인 정보 정책
Facebook | Twitter
Yoopply
40004, Ukraine, Sumska, Sumy, Pratsi str. building 37
Phone: +380958165974
Email: acca.in.ua@gmail.com