この夏、DTU AIチップの第2世代に基づくアクセラレーターを発表したEnflameは、Suixi2.5チップを搭載した新しい推論アクセラレーターCloudblazerYunsuii20をリリースしました。 GlobalFoundriesの12nmFinFETプロセスを使用して製造され、コンピューティングコアGCU-CARE 2.0の更新された高性能アーキテクチャを備えています。これにより、作成者によると、主流の7nmGPUに匹敵する効率を達成することができました。
新製品の主な機能の中で、同社は、コンピューティング能力の向上、テンソル、ベクトル、スカラー計算を実行する機能、C ++とPythonのAPI、および主要なフレームワークとモデル形式(TensorFlow、PyTorch)のサポートに注目しています。 、ONNX)。バンドルされたソフトウェアは、仮想化テクノロジーをサポートする柔軟な移行オプションと、安全なプロセス分離を備えたマルチユーザーおよびマルチタスク環境を提供します。
Yunsui i20は、最大819GB /秒の帯域幅を持つ16GBHBM2eメモリを備えています。新製品はすべての主要なフォーマットをサポートし、クラウドを含むユニバーサル推論プラットフォームを提供します。ピークコンピューティングのFP32パフォーマンスは32テラフロップス、TF32(NVIDIAとの互換性については指定されていません)-128テラフロップス、FP16 / BF16-128テラフロップス、INT8は256トップに達します。第一世代の製品と比較して、Yunsui i20はFPパフォーマンスを1.8倍、INTコンピューティングを3.6倍向上させました。
FP32、TF32、FP16 / BF16、およびINT8計算のパフォーマンスは19.5、156、312、および624テラフロップス(INTのトップ)であり、メモリボリュームと帯域幅はそれぞれ40 / 80GBと1555 / 1935GB / sです。 AMDMI100には32GBのHBM2メモリ(1.23 TB / s)があり、FP32、FP16、およびBF16のパフォーマンスはそれぞれ46.1、184.6、および92.3テラフロップスです。 3つのアクセラレータすべてにPCIe4.0インターフェイスがあります。
独自のTopsRiderソフトウェアスタックの最適化は、パフォーマンスの向上に大きく貢献しました。これにより、メモリサブシステムの負荷が軽減されました。その結果、モデル実行の平均パフォーマンスは3.5倍になり、計算能力の使用効率は平均2倍になりました。さらに、新しいプログラミングモデルと自動化テクノロジーにより、開発効率が向上し、モデル移行のコストが削減されます。同社は、これらすべてがYunsuii20をより競争力のあるソリューションにするだろうと確信しています。
仮想化テクノロジーのおかげで、Yunsuii20は互いに分離された6つの独立したドメインに分割できます。これは以前はNVIDIAによってのみ提供されていました。 Enflameは、次世代AIアクセラレーターに完全に移行された他の製品とともに、スマートシティやデジタル政府などの革新的なセクターだけでなく、金融、運輸、エネルギーなどの従来の業界でも大きな市場シェアを獲得することを期待しています。より高度な技術が必要になります。AIソリューション。
Enflameチームや他の中国の開発者によって達成された明らかな成功にもかかわらず-ディープラーニング用のYITUテクノロジーSoC、統合AI機能を備えたHorizon Robotics Sunrise 2 IoTチップ、T-Head Semiconductor(Alibabaの子会社)のHanguang 800、HuaweiシリーズAscendなど-人民日報によると、AIチップの外国メーカーは依然として中国市場を支配しており、80%以上のシェアを占めています。
2021-12-14 18:50:40
著者: Vitalii Babkin