• ホームページ
  • 車
  • 暗号通貨
  • ゲーム
  • ハイテク
  • ハリウッド
  • 理科
  • 宇宙
  • スポーツ
  • 世界

AIアクセラレーターAWSTrainium:FP32で550億個のトランジスタ、3 GHz、512 GBのHBM、840テラフロップス

AIアクセラレーターAWSTrainium:FP32で550億個のトランジスタ、3 GHz、512 GBのHBM、840テラフロップス

GPUは計算を高速化するために長い間使用されてきましたが、近年、機械学習アルゴリズムに典型的な特定のデータ形式のサポートが大きくなりすぎて、実際には独自のグラフィックブロックが失われています。しかし、近い将来、新しいAWS開発であるTrainiumチップなど、特殊なAIプロセッサによって多くの点でそれらを超える可能性があります。

AWS Re:Inventで、同社はP3dn(Nvidia V100)およびP4(Nvidia A100)インスタンスを使用した機械学習の進歩を強調しました。最初のバリアントは、BERT-Largeモデルが複雑さの例であった2018年にデビューし、256GBのメモリと100GbEネットワークを備えており、印象的な結果をもたらしました。ただし、機械学習モデルの複雑さは毎年ほぼ1桁増加しており、AIアクセラレーターの機能の成長は明らかにこれらの速度に遅れをとっています。

昨年P4dバリアントが導入されたとき、処理能力とメモリが4倍になり、有名なGPT-3モデルはBERT-Largeを500倍複雑に上回りました。そして現在、後者の1,750億のパラメーターは、新しいモデルの10兆と比較して何もありません。また、ローカルメモリの量を増やし(Trainiumには512 GBのHBMがあり、合計帯域幅は13.1 TB / s)、分散学習をより積極的に使用する必要があります。

後者のアプローチでは、ネットワークサブシステムがボトルネックになり、Elastic Fabric Adapter(EFA)スタックを開発する際に、同社は新しいTrn1インスタンスに800 Gb / s(P4dの2倍)の接続を提供することでこれを考慮しました。超低遅延、および2倍の帯域幅を持ち1.6 Tbit / sに達するTrn1nのより最適化されたバージョン。インスタンス内のチップ自体間の通信には、NeuroLinkインターコネクトが768 GB / sの速度で使用されます。

しかし、2週間以内にGPT-3をトレーニングできるようになるだけでなく、使用されるリソースの量も重要です。 P3dの場合、これには600のインスタンスを同時に実行する必要があり、Ampereアーキテクチャに移行しても、この数は200に減少します。ただし、Trainiumチップに基づくトレーニングには130のTrn1インスタンスしか必要ありません。最適化のおかげで、新しいインスタンスの通信コストはわずか7%ですが、Ampereの場合は14%、Voltaの場合はなんと49%です。

Trainiumはシストリックアレイに依存しています(GoogleはTPUに同じアプローチを使用しました)。ネイバーから受信したデータを独立して処理し、その結果を次のネイバーに送信する、非常に密接に関連する多くの計算ユニットで構成されています。このアプローチは、特に、「従来の」GPUに典型的な多数のレジスタとメモリアクセスを排除しますが、そのようなアクセラレータの柔軟性を奪います。

Trainiumでは、AWSによると、柔軟性が維持されています。アクセラレータには、16個の完全にプログラム可能な(C / C ++の)ハンドラーがあります。他の最適化もあります。たとえば、確率的丸めのハードウェアアクセラレーションは、超大型モデルではオーバーヘッドのために「高価」になりますが、混合精度でのトレーニングの効率を向上させることができます。これにより、低精度の計算で最大3.4 Pflops、FP32の計算で最大840Teraflopsを取得できます。

AWS Neuron SDKは一般的な機械学習フレームワークをサポートしているため、AWSは開発者にとって可能な限り苦痛のないTrainiumへの移行を試みました。ただし、たとえばCUDAエコシステムからの移行が難しい場合があるため、同社は顧客をTrn1インスタンスに強制的に誘導することはなく、他のアクセラレータの選択肢を提供し続けます。ただし、Amazonは、独自のニーズに対応する機械学習の観点から、完全に独立しています。最新のCPUGraviton3と推論アクセラレーターInferentiaの両方を備えています。


2021-12-06 22:44:05

著者: Vitalii Babkin

前 | 次

• GPSとソーラー充電機能を備えたCoros Duraサイクルコンピューターが発表されました

• リアルミは12GBのRAMを搭載した新しいP1 Pro 5Gスマートフォンを発売

• OnePlus Nord CE4 Liteが5500mAhバッテリーで登場

• JBLオーディオシステムを搭載したLenovo Tab Plusが発表

• Hisense S7N CanvasTV 4K QLEDが発表されました

• MSIがゲーミングモニターMAG 27QRF QD E2 Monster Hunter Editionを発売

• AOCは280HzのFast VA画面を搭載したGaming C27G2Z3/BKモニターを発売

• SamsungはAppleに続き、自動運転の野心を断念しました

• 英国でAIのセキュリティ評価プラットフォームが開始

• 裁判所が、Cortanaの作成時における技術の盗用でMicrosoftに2億4200万ドルの罰金を科しました

• Xiaomiが異例のデザインを持つCivi 4 Proの携帯電話を披露

• インテルN100プロセッサと16GBのRAMを搭載したコンパクトPC、GEEKOM Mini Air12の価格が249ドルで評価されました

• Apple Watchのアップデートによってバッテリーの急速な消耗が引き起こされています

• iQOO 12スマートフォンは70倍ズームで写真を撮影できる予定

© 2021-2023 Yoopply 日本 - 毎日の世界のニュース
Deutsch | 日本 | France | Italy | 한국어 | Portugues

車 | 暗号通貨 | ゲーム | ハイテク | ハリウッド | 理科 | 宇宙 | スポーツ | 世界 | ソフトウェア

私たちに関しては | 個人情報保護方針
Facebook | Twitter
Yoopply
40004, Ukraine, Sumska, Sumy, Pratsi str. building 37
Phone: +380958165974
Email: acca.in.ua@gmail.com