数年前に約束されたように、インテルグラフィックスとアクセラレーターの主要な構成要素はXeコアであり、これを柔軟に組み合わせたり、他のハードウェアブロックと組み合わせたりして、目的のパフォーマンスと機能を実現できます。同社はすでに最初の「真の」ディスクリートArcシリーズGPUを発表しており、Intel Architecture Dayで、XeHPCとPonteVecchioサーバーアクセラレータに関する詳細を共有しました。
Xe HPCは、Xe Coreに基づいており、それぞれ512ビットデータと4096ビットデータ用の8つのベクトルエンジンとマトリックスエンジンが含まれています。これらは512KバイトのL1キャッシュを共有しており、512バイト/サイクルの速度で通信できます。
「クラシック」コンピューティングに焦点を当てたベクトルエンジン(旧EU)の宣言されたパフォーマンスは、FP32およびFP64の場合は256操作/サイクル、FP16の場合は512です。マトリックスエンジンは、TF32、FP16、BF16、およびINT8データ(それぞれ2048、4096、4096、および8192操作/サイクル)でのみ機能するため、AIロードにはさらに必要です。このエンジンは、XMX(Xe Matrix eXtensions)命令で動作します。これは、Intel Xeon SapphireRapidsのAMXにいくらか似ています。
個々のコアは「スライス」に結合されます。それぞれ16個のXeコアであり、16個のハードウェアレイトレーシングユニットによって補完されます。基本的な機能ブロックであるのはスライスです。これは、IntelのIDM 2.0イニシアチブの一環として、5nmプロセステクノロジを使用してTSMCで製造されています。スライスはスタックに結合されます-4個。みんなで。
スタックには、ベース(ベース)「サブストレート」(またはタイル)、4つのHBM2eメモリコントローラー(メモリ自体は別々のタイルに配置されます)、144 MBの共通L2キャッシュ、ハードウェアコーデックを備えた1つのメディアエンジン、およびXeLinkタイルとPCIe5コントローラー。ベースタイルはIntel7であり、EMIBを使用してすべてのブロックを結合します。
TSMCの7nmプロセステクノロジーを使用して製造されたXeLinkタイルには、8ポートスイッチと結合された8スタック/アクセラレータインターフェイスが含まれ、90GクラスのSerDesブロックを使用します。これにより、1対1のスキームに従って最大8つのスタックを組み合わせることができます。これは、一般にNVIDIAのアプローチに似ていますが、後者のNVSwitchはまだ(今のところ)外部コンポーネントです。
アクセラレータ自体には、構成に応じて、1つまたは2つのスタックが存在する可能性があります。ヴェッキオ橋の場合、それらは2つだけであり、Intelはそのパフォーマンスに関するデータを提供しています。FP32計算で45テラフロップス以上、内部メモリファブリック帯域幅が5 TB /秒以上、外部接続。比較のために、NVIDIA A100のFP32パフォーマンスは19.5テラフロップス、AMD InstinctMI100は23.1テラフロップスと宣言されています。
Intelは、トレーニングと推論におけるResNet-50ベンチマークの結果も示しました。それぞれ1秒あたり3400枚と43000枚の画像です。これらの結果は、「シリコン」の最終バージョンでは得られなかったため、暫定的なものです。ただし、ヴェッキオ橋には別の利点があることに留意する必要があります。それは、おそらくL3キャッシュと見なすことができる、追加の超高速キャッシュを備えた別個のランボータイルです。
全体として、ヴェッキオ橋はこれまでで最も複雑なチップの1つです。 5つの異なる技術プロセスを使用して作成されたEMIBとFoveros47タイルを使用して組み合わされ、トランジスタの総予算は1,000億を超えます。これらのアクセラレータは、OAMフォームファクタと、4つのアクセラレータを搭載した既製のボードの形式で提供されます(ここでも、NVIDIA HGXが思い浮かびます)。そして、Auroraスーパーコンピューターのノードを形成するのは、まさにそのようなマザーボードであり、2つのSapphireRapidsプロセッサーとペアになっています。多数の新しいCPUとIntelアクセラレータを使用する別のマシンは、SuperMUC-NG(フェーズ2)です。
ヴェッキオ橋の公式リリースは2022年に予定されていますが、新製品を比較する必要がある次世代のAMDおよびNVIDIAアクセラレーターのリリースもそう遠くはありません。これまでのところ、Intelは同様に重要な問題に取り組んでいます。ソフトウェアエコシステムの開発です。その基盤となるのは、異種(CPU、GPU、IPU、FPGAなど)アプリケーション用のユニバーサルアプリケーション開発ツールのセットであるoneAPIです。これはAMDおよびNVIDIAハードウェアと互換性があります。
2021-08-19 15:25:15
著者: Vitalii Babkin