
オークリッジ国立研究所(ORNL)は、新しいスーパーコンピューティング技術を積極的にテストおよび実装しているとニュース記事でよく言及されています。現在、OLCFコンピューティングセンター(オークリッジリーダーシップコンピューティングファシリティ)は、AMDプロセッサとアクセラレータをベースにした米国初のエクサスケールフロンティアスーパーコンピュータのインストールに取り組んでいます。
National Center for Computational Sciencesが、Frontierとほぼ同じHPECrayノードを使用する小さなCrusherクラスターを立ち上げたため、多くのFrontierアーキテクチャ機能が明らかになりました。このシステムは早期アクセスプラットフォームとして使用され、2つのキャビネットのみで構成されています。 1つ目は128ノード、2つ目は64ノードです。合計ピークパフォーマンスは40PFlopsで宣言されています。
各ノードの中心には、AMD EPYC7A53の特別なバージョンがあります。 64コア(SMT2を使用)は、個別のメモリコントローラーによって提供される4つのNUMAドメインに分割されます。 8つのDDR4チャネル(ノードあたり合計512 GB)は、205 GB / sの帯域幅を提供します。システムには4つのアクセラレータしかありませんが、これらは最新のデュアルチップAMD Instinct MI250Xであるため、8つの個別のGPUとしてシステムに表示されます。
各アクセラレータは、各方向に36 GB / sを提供する2つのInfinityFabricリンクを介して1つのNUMAドメインに接続されます。 MI250X内のチップは、より高速なチャネルで相互に接続されており、両方向に200 GB / sを提供します。すべてのアクセラレータは、「それぞれが」50 GB / sチャネルのスキームに従って相互接続されます。同時に、それらは工場に直接接続されています-それぞれが独自のHPE Slingshotアダプター(200 Gb / s)を使用できます。
PCIeスイッチを介してCPUに接続されているのは1.92TB SSDのペアのみです(書き込みの場合は4 GB /秒、ランダム操作の場合は160万IOPS)。各NUMAドメインは、1つのアクセラレータに関連付けられた2つのL3サブドメインに分割されているため、柔軟な負荷分散が可能です。主ストレージは、合計容量が250 PB、ピーク速度が2.5 TB / sの外部ストレージシステムIBMSpectrumScaleです。
システムは、直接ではありませんが、NCSSネットワークにもアクセスできます。一般的なNFSストレージでは、各プロジェクトは90日間のデータ保持期間で50 GBを取得でき、50TBはSpectrumScaleのGPFSですでに使用可能です。 Crusherには、多くのプリインストールされたソフトウェアが付属しています。ユーザー環境は、Luaで記述されたLmodシステムに基づいてモジュール化されています。 Slurmは負荷分散を担当します。 RSASecurIDハードウェアトークンキーは認証に使用されます。
2022-01-22 08:18:53
著者: Vitalii Babkin