AWS搭載NVIDIA A100加速雲端運算 EC2 P4d執行個體便啟動

2020-11-18

全新 P4d 執行個體為機器學習訓練與高效能運算應用程式，提供AWS上採用GPU的平台。與預設的FP32精準度相比，使用FP16的執行個體訓練機器學習模型的時間縮短了三倍，使用TF32進行訓練的時間縮短了六倍。NVIDIA A100 GPU於MLPerf Inference基準測試項目，偵測其效能較CPU快上237倍。

Amazon Web Services(AWS)的首個GPU執行個體於十年前亮相，搭載的是 NVIDIA M2050。當時以 CUDA 為基礎的應用程式主要集中在加速科學模擬，而人工智慧 (AI) 和深度學習的興起還遙遙無期。

此後AWS又陸續加入穩定的雲端GPU執行個體，包括K80(p2)、K520(g3)、M60(g4)、V100(p3/ p3dn)和T4(g4)。

隨著全新 P4d 執行個體日前正式上路，AWS在最新NVIDIA A100 Tensor Core GPU支援下，繼續在加速運算領域打穩基礎。

每個P4d執行個體皆搭載8個NVIDIA A100 GPU，用戶可以透過AWS UltraClusters使用 AWS Elastic Fabric Adaptor(EFA)，以及提供可擴展高效能儲存裝置的Amazon FSx，每次依需求調整規模以取得超過4,000 個 GPU。P4d提供400Gbps網路，並且使用NVIDIA的NVLink、NVSwitch、NCCL及GPUDirect RDMA等技術，進一步加速處理深度學習訓練的作業負載。EFA上的 NVIDIA GPUDirect RDMA在伺服器之間將資料從GPU傳遞到GPU，無需通過CPU和系統記憶體，確保低延遲的網路。

此外，許多 AWS 服務都支援P4d執行個體，包括Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster及Amazon SageMaker。P4d還能使用NGC 所提供的各種經過優化的容器化軟體，包括高效能運算應用程式、AI 框架、預先訓練模型、Helm chart，以及TensorRT和Triton 推論伺服器等推論軟體。

目前美國東部和西部地區可使用 P4d 執行個體，未來會開放給其它地區使用。用戶能夠以隨需執行個體 (On-Demand)、Savings Plans、預留執行個體 (Reserved Instance) 或 Spot 執行個體等方式來使用。