A Enflame, que neste verão apresentou aceleradores baseados na segunda geração de seus chips DTU AI, lançou um novo acelerador de inferência Cloudblazer Yunsui i20 com um chip Suixi 2.5. É fabricado utilizando o processo FinFET de 12nm da GlobalFoundries e possui uma arquitetura de alto desempenho atualizada de núcleos computacionais GCU-CARE 2.0, graças aos quais, segundo os criadores, foi possível atingir uma eficiência comparável ao GPU de 7nm convencional.
Entre os principais recursos do novo produto, a empresa destaca o aumento do poder de computação, a capacidade de realizar cálculos de tensor, vetor e escalar, API para C ++ e Python, bem como suporte para os principais frameworks e formatos de modelo (TensorFlow, PyTorch , ONNX). O software empacotado fornece opções de migração flexíveis com suporte para tecnologias de virtualização, bem como ambientes multiusuário e multitarefa com isolamento de processo seguro.
O Yunsui i20 possui 16 GB de memória HBM2e com largura de banda de até 819 GB / s. O novo produto suporta todos os formatos principais e fornece uma plataforma de inferência universal, inclusive para as nuvens. O desempenho de FP32 de computação de pico atinge 32 Teraflops, TF32 (não é especificado se for sobre compatibilidade com NVIDIA) - 128 Teraflops, FP16 / BF16 - 128 Teraflops e INT8 atinge 256 Tops. Comparado com a primeira geração de produtos, o Yunsui i20 aumentou o desempenho do FP em 1,8 vezes e a computação INT em 3,6 vezes.
desempenho em cálculos FP32, TF32, FP16 / BF16 e INT8 é 19,5, 156, 312 e 624 Teraflops (Tops para INT), e o volume de memória e largura de banda são 40/80 GB e 1555/1935 GB / s, respectivamente. AMD MI100 tem 32 GB de memória HBM2 (1,23 TB / s) e o desempenho do FP32, FP16 e BF16 é de 46,1, 184,6 e 92,3 teraflops, respectivamente. Todos os três aceleradores possuem interface PCIe 4.0.
A otimização da pilha de software proprietário TopsRider fez uma contribuição significativa para melhorar o desempenho, devido ao qual a carga no subsistema de memória foi reduzida. Como resultado, o desempenho médio da execução do modelo aumentou 3,5 vezes e a eficiência do uso do poder de computação - em média, 2 vezes. Além disso, o novo modelo de programação e tecnologias de automação podem acelerar a eficiência do desenvolvimento e reduzir o custo de migração do modelo. A empresa está convencida de que tudo isso tornará o Yunsui i20 uma solução mais competitiva.
Graças à tecnologia de virtualização, o Yunsui i20 pode ser dividido em 6 domínios independentes isolados uns dos outros - anteriormente oferecido apenas pela NVIDIA. Junto com outros produtos que também são totalmente migrados para a próxima geração de aceleradores de IA, a Enflame espera ganhar participação de mercado significativa em setores inovadores, como cidades inteligentes e governo digital, bem como em indústrias tradicionais, como finanças, transporte e energia, onde serão necessárias tecnologias mais avançadas Soluções de IA.
Apesar dos óbvios sucessos alcançados pela equipe Enflame e outros desenvolvedores chineses - YITU Technology SoC para aprendizado profundo, chip Horizon Robotics Sunrise 2 IoT com recursos de IA integrados, Hanguang 800 da T-Head Semiconductor (subsidiária da Alibaba), Huawei série Ascend e outros - fabricantes estrangeiros de chips de IA, de acordo com o People's Daily, ainda dominam o mercado chinês com uma participação de mais de 80%.
2021-12-14 18:50:40
Autor: Vitalii Babkin