全新 P4d 執行個體為機器學習訓練與高效能運算應用程式,提供AWS上採用GPU的平台。與預設的FP32精準度相比,使用FP16的執行個體訓練機器學習模型的時間縮短了三倍,使用TF32進行訓練的時間縮短了六倍。NVIDIA A100 GPU於MLPerf Inference基準測試項目,偵測其效能較CPU快上237倍。
Amazon Web Services(AWS)的首個GPU執行個體於十年前亮相,搭載的是 NVIDIA M2050。當時以 CUDA 為基礎的應用程式主要集中在加速科學模擬,而人工智慧 (AI) 和深度學習的興起還遙遙無期。
此後AWS又陸續加入穩定的雲端GPU執行個體,包括K80(p2)、K520(g3)、M60(g4)、V100(p3/ p3dn)和T4(g4)。
隨著全新 P4d 執行個體日前正式上路,AWS在最新NVIDIA A100 Tensor Core GPU支援下,繼續在加速運算領域打穩基礎。
全新 P4d 執行個體為機器學習訓練與高效能運算應用程式,提供AWS上採用GPU的平台。與預設的FP32精準度相比,使用FP16的執行個體訓練機器學習模型的時間縮短了三倍,使用TF32進行訓練的時間縮短了六倍。NVIDIA A100 GPU於MLPerf Inference基準測試項目,偵測其效能較CPU快上237倍。
每個P4d執行個體皆搭載8個NVIDIA A100 GPU,用戶可以透過AWS UltraClusters使用 AWS Elastic Fabric Adaptor(EFA),以及提供可擴展高效能儲存裝置的Amazon FSx,每次依需求調整規模以取得超過4,000 個 GPU。P4d提供400Gbps網路,並且使用NVIDIA的NVLink、NVSwitch、NCCL及GPUDirect RDMA等技術,進一步加速處理深度學習訓練的作業負載。EFA上的 NVIDIA GPUDirect RDMA在伺服器之間將資料從GPU傳遞到GPU,無需通過CPU和系統記憶體,確保低延遲的網路。
此外,許多 AWS 服務都支援P4d執行個體,包括Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster及Amazon SageMaker。P4d還能使用NGC 所提供的各種經過優化的容器化軟體,包括高效能運算應用程式、AI 框架、預先訓練模型、Helm chart,以及TensorRT和Triton 推論伺服器等推論軟體。
目前美國東部和西部地區可使用 P4d 執行個體,未來會開放給其它地區使用。用戶能夠以隨需執行個體 (On-Demand)、Savings Plans、預留執行個體 (Reserved Instance) 或 Spot 執行個體等方式來使用。