IBM revela processadores Telum: 8 núcleos, 5+ GHz, cache L2 de 256 MB e acelerador de AI

As instituições financeiras, sistemas de reserva e outras operadoras essenciais aos negócios adoram as "grandes máquinas" da IBM por sua confiabilidade. Não é à toa que a letra z no nome dos sistemas significa Tempo de inatividade zero - tempo de inatividade zero. Na conferência Hot Chips 33, a empresa revelou uma nova geração de processadores z, que pela primeira vez na história recebeu seu próprio nome Telum (dardo em latim). O nome "arma" foi escolhido por um motivo: na nova arquitetura, a IBM também introduziu novas soluções que não eram utilizadas anteriormente no System z, projetadas, em particular, para combater a fraude.

Alguns dos principais clientes da IBM - grandes corporações financeiras e bancos - há muito esperam por ferramentas integradas de IA, uma vez que seus sistemas devem processar milhares e milhares de transações por segundo, e fazê-lo da forma mais confiável possível. Um dos objetivos no desenvolvimento do Telum foi a introdução de cálculos de inferência que ocorrem em tempo real durante o processamento de uma transação e sem o envio de nenhum dado para fora do sistema.

Portanto, o acelerador de inferência em Telum está conectado diretamente ao subsistema de cache e usa todo o processador z / Architecture e mecanismos de proteção de memória. E ele próprio também carrega uma série de abordagens características de z. Assim, um “firmware” separado controla o funcionamento do acelerador, que pode ser alterado para otimizar as tarefas de um determinado cliente. Ele é executado em um dos núcleos e no próprio acelerador, que se comunica com este núcleo e é responsável por acessar a memória e o cache, segurança e integridade dos dados e gerenciar os cálculos reais.

O acelerador inclui dois tipos de motores. O primeiro tem 128 blocos SIMD para operações MAC com dados FP16 e é necessário para multiplicação e convolução de matrizes. O segundo possui apenas 32 blocos SIMD, mas pode trabalhar com dados FP16 / FP32 e é otimizado para funções de ativação de rede e outras tarefas mais complexas. Eles são complementados por um bloco de memória ultrarrápida (scratchpad) e um motor IO "inteligente" responsável por mover e preparar os dados, que pode reformatá-los na hora.

O Scratchpad é conectado a um bloco que baixa dados do cache L2 e envia de volta os resultados dos cálculos. A IBM enfatiza separadamente que a presença de um acelerador AI dedicado permite o uso de blocos SIMD convencionais nos núcleos em paralelo, sugerindo claramente o AVX-512 VNNI. No entanto, Sapphire Rapids agora também tem uma unidade AMX separada no núcleo, que é, no entanto, mais modesta em funcionalidade.

O acelerador pode ser acessado do espaço do usuário, inclusive em um ambiente virtualizado. Para trabalhar com o novo acelerador, a empresa oferece o IBM Deep Learning Compiler, que ajudará a otimizar os modelos ONNX importados. Também há suporte pronto para uso para TensorFlow, IBM Snap ML e uma variedade de ferramentas de desenvolvimento populares. Existe um acelerador AI por processador com desempenho de mais de 6 teraflops FP16.

No modelo de teste RNN para proteção contra fraude, o chip pode realizar 116 mil operações de inferência com uma latência de 1,1 ms, e para um sistema de 32 processadores esse número já é de 3,6 milhões de operações de inferência, e a latência aumenta. 1,2 ms. Além do acelerador AI, há também um acelerador de (des) compactação (gzip) comum a todos os núcleos + cada núcleo também tem um mecanismo para CSMP. Bem, os aceleradores para classificação e criptografia também não chegaram a lugar nenhum.

Centenas de mecanismos diferentes para verificar e verificar novamente a operabilidade são responsáveis pela confiabilidade. Assim, por exemplo, os registros e o cache ficam duplicados, permitindo em caso de falha do yal fazer um reboot completo e continuar a execução das tarefas exatamente do local onde foi interrompido. E para a RAM, que é necessariamente criptografada, o modo Redundant Array of Memory (RAIM) é usado, uma espécie de RAID-array, onde uma linha de cache é "espalhada" entre oito módulos de uma vez.

Telum, herdando muito de seu predecessor z15, ainda é radicalmente diferente dele. O processador contém oito núcleos com suporte para execução fora de ordem profunda "inteligente" e SMT2, operando a uma frequência de mais de 5 GHz. Cada núcleo depende de 32 MB de cache L2, então outros processadores modernos parecem sem graça em comparação com seu fundo. Mas não é tão simples.

Os caches se comunicam entre si por meio de um barramento em anel bidirecional com uma largura de banda de mais de 320 GB / s, formando assim um cache L3 virtual com um volume de 256 MB e com uma latência média de 12 ns. Cada chip Telum pode conter um (SCM) ou dois (DCM) processadores. E em um nó podem haver até quatro chips, ou seja, até oito CPUs, combinadas de acordo com o esquema each-s-each com a mesma velocidade de 320 GB / s.

Assim, dentro da estrutura do nó, um cache L4 virtual com um volume de 2 GB é formado. A topologia plana de caches, de acordo com a IBM, fornece novos processadores com latência menor em comparação com o z15. É possível escalar para até 32 processadores, mas nós individuais são vinculados por várias conexões a "apenas" 45 GB / s em cada sentido.

A IBM está relatando uma melhoria de desempenho de 40% em relação ao z15 por soquete. Telum contém 22 bilhões de transistores e tem um TDP de 400W no modo normal.

2021-08-24 04:55:13

Autor: Vitalii Babkin

Anterior | Próximo