Intel Visionイベントでは、第2世代のHabana AIアクセラレーターが発表されました。ディープラーニングタスク用のGaudi2と、推論システム用のGrecoです。現在、両方のチップは16nmプロセスではなく7nmプロセスを使用して製造されていますが、それだけが改善されているわけではありません。
Gaudi2はOAMフォームファクタで提供され、TDPは600Wです。これはガウディが持っていた350ワットのほぼ2倍ですが、第2世代のチップは第1世代とは大きく異なります。したがって、オンボードメモリの量は3倍になりました。最大96GB、現在はHBM2eであるため、帯域幅は1から2.45 TB/sに増加しました。 SRAMの量は2倍の48MBになりました。メモリを補完するのは、データをその場で目的の形式に変換できるDMAエンジンです。
Gaudi2の計算ユニットには、主に2つのタイプがあります。行列乗算エンジン(MME)とテンソルプロセッサコア(TPC)です。 MMEは、その名前が示すように、行列の乗算を高速化するように設計されています。 TPCは、SIMD操作を操作するためのプログラム可能なVLIWブロックです。 TPCは、一般的なすべてのデータ形式(FP32、BF16、FP16、FP8、およびINT32、INT16、INT8)をサポートします。 HEVC、H.264、VP9、JPEG用のハードウェアデコーダーもあります。
Gaudi2の特徴は、MMEとTPCの並列動作の可能性です。作成者によると、これによりモデルのトレーニングプロセスが大幅にスピードアップします。 SynapseAI独自のソフトウェアは、TensorFlowおよびPyTorchとの統合をサポートし、既製のモデルを転送および最適化して新しいモデルを開発するためのツール、TPC用のSDK、監視およびオーケストレーション用のユーティリティなども提供します。ただし、同じNVIDIAのようなソフトウェアエコシステムの豊かさはまだ遠いです。
新製品のインターフェース部分には、PCIe 4.0 x16とすぐに24個(以前は10個しかありませんでした)のRDMA ROcE v2を備えた100GbEチャネルが含まれます。これらは、同じノード内でアクセラレータを相互に接続するために使用されます(それぞれ3チャネル)。 )およびノード間。 Intelは、8つのGaudi2と既製のAIプラットフォームを備えたHLBA-225(OCP UBB)ボードを提供しています。これは、Supermicro X12サーバーをベースにしていますが、新しいボードとDDNAI400X2ストレージを備えています。
最後に、最も興味深いのはパフォーマンスの比較です。多くの一般的なワークロードでは、新製品はNVIDIA A100(80 GB)よりも1.7〜2.8倍高速です。一見すると、その結果は印象的です。ただし、A100は決して新しいものではありません。さらに、H100アクセラレータは今年の第3四半期にリリースされる予定であり、NVIDIAによると、A100の平均3〜6倍の速度であり、新機能のおかげで学習速度が向上する可能性があります。 9回まで。一般的に、H100はより用途の広いソリューションです。
Gaudi2はすでにHabanaのお客様にご利用いただけており、Gaudi3チップのさらなるソフトウェア最適化と開発のために、インテル自体が数千のアクセラレーターを使用しています。グレコは今年の後半に発売され、量産は2023年の第1四半期に予定されているため、まだ多くの情報はありません。たとえば、加速器はゴヤに比べて貪欲さがはるかに少なくなり、TDPが200ワットから75ワットに減少したと報告されています。これにより、PCIe4.0x8インターフェイスを備えた標準のHHHL拡張カードにパッケージ化することができました。
オンボードメモリの量はまだ16GBですが、DDR4からLPDDR5への移行により、帯域幅を5倍に増やすことができました(40から204 GB /秒)。しかし、チップ自体には128 MBのSRAMが搭載されており、Goyaのように40MBではありません。 BF16、FP16、(U)INT8、および(U)INT4形式をサポートします。搭載されているHEVC、H.264、JPEG、P-JPEGコーデックがあります。同じSynapseAIスタックがGrecoで動作するように提供されています。同社は、ノベルティのパフォーマンスと他の推論ソリューションとの比較を提供していません。
しかし、ハバナの決定はどちらも少し遅れているように見えます。 AIの面での遅れは、おそらく部分的にNervanaソリューションへの賭けの失敗の「せい」です-Habanaソリューションはトレーニング用の未リリースのNNP-Tアクセラレータに取って代わり、新しいNNP-I推論チップは期待できません。それにもかかわらず、Intel内でさえHabanaの運命は雲ひとつないようには見えません。なぜなら、そのソリューションはXeサーバーアクセラレーターと、そして推論システムの場合はXeonとさえも競合しなければならないからです。
2022-05-11 04:51:56
著者: Vitalii Babkin