Microchip 人工智慧 GPUDirect Storage GPU PCIe 高效能運算 RAID

儲存裝置/GPU資料路徑傳輸再加速(2)

2023-08-07
人工智慧(AI)、機器學習(ML)及深度學習(DL)等高效能運算應用蓬勃發展,儲存裝置和GPU記憶體之間的資料路徑將決定應用程式是否能實現最佳效能。NVIDIA Magnum IO GPUDirect Storage解決方案能夠在儲存裝置和GPU記憶體之間建立直接路徑,在PCIe 4.0規範下,將資料速率提高至26GBps。
Shutterstock

混合PCIe結構

(承前文)PCIe Gen 4現在是儲存子系統內的基本系統互連介面,但標準PCIe交換器具有與前幾代相同的基於樹狀的基本層級。這意味著主機間通訊需要非透明橋接(NTB)來實現跨分區通訊,使情況變得複雜,特別是在多主機多交換器環境中。Microchip的PAX PCIe Advanced Fabric交換器等解決方案支援傳統PCIe無法實現的備援路徑和迴圈,因此能夠克服這些限制。

結構交換器(Fabric Switch)具有兩個獨立的網域:主機虛擬網域(專屬於每個實體主機)和結構網域(包含所有端點和結構鏈路)。來自主機網域的交易(Transaction)會在結構網域中轉換為ID和位址,反之亦然,而結構網域中的通訊採用非分層路由(Non-hierarchical Routing)進行。如此一來,系統中的所有主機便可共用連接至交換器和端點的結構鏈路。

在嵌入式CPU上運行的結構韌體透過可配置的下行埠數,將符合PCIe標準的交換器虛擬化。因此,無論結構中端點的位置,交換器將始終顯示為具有直連端點的標準單層PCIe裝置。由於結構交換器會攔截來自主機的所有配置平面通訊(包括PCIe列舉過程)並選擇最佳路徑,可實現前述性能。因此,GPU等端點便可綁定網域中的任何主機(圖2)。

圖2 交換器韌體虛擬化的主機網域顯示為每個主機符合PCIe標準的單層交換器

以下範例(圖3)呈現雙主機PCIe結構引擎設置。此處,我們可以看到,結構虛擬化允許每個主機看到一個透明PCIe拓撲,其中包含一個上行埠、三個下行埠和三個與其連接的端點,並且主機能夠正確列舉它們。圖3的有趣之處是具有一個包含兩個虛擬功能的SR-IOV SSD,透過Microchip的PCIe高級結構交換器,同一驅動器的虛擬功能可以分享給不同的主機。

圖3 雙主機PCIe結構引擎

這種PAX結構交換器解決方案也支援在結構之間直接跨域點對點傳輸,因此可減少根連接埠阻塞並進一步緩解CPU效能瓶頸,如圖4所示。

圖4 透過結構路由通訊,可減少根連接埠阻塞

效能優化

在探索了NVMe驅動器和GPU之間,資料傳輸的效能優化過程中涉及的元件之後,現在可以結合使用這些元件來實現理想效果。為了說明這一點,圖5展示主機CPU及其根連接埠可實現最佳結果的各種配置。

如圖5a所示,儘管使用的是高效能NVMe控制器,由於根連接埠的開銷,PCI Gen 4×4(4.5GBps)的最大資料速率仍受限為3.5GBps。不過,透過RAID(Logical Volumns)同時聚合多個驅動器(如圖5b所示),SmartRAID控制器可為四個NVMe驅動器各創建兩個RAID陣列(Volumn),並透過根連接埠創建傳統PCIe點對點路由,可將資料速率提高至9.5GBps。

圖5a 實現26GBps的路徑-1
圖5b 實現26GBps的路徑-2

不過,利用跨域點對點傳輸(圖5c),通訊可以透過結構鏈路而不是根連接埠來路由,進而實現26GBps的速率,為使用SmartROC 3200 RAID控制器可達到的最高速率。在最後一個場景中,交換器提供不受韌體影響的直接資料路徑,並且仍然保持基於硬體的RAID保護和加密服務,同時充分利用GPUDirect Storage的全部潛能。

圖5c 實現26GBps的路徑-3

全新產品滿足高效能運算需求

高效能PCIe結構交換器(例如Microchip的PAX)允許多主機共用支援SR-IOV的驅動器,並動態劃分可在多個主機之間共用的GPU和NVMe SSD池。Microchip的PAX結構交換器可以將端點資源動態重新分配給需要這些資源的任何主機。

該解決方案使用SmartROC 3200 RAID控制器系列支援的SmartPQI驅動程式,因此不需要自訂的驅動程式。Microchip的SmartROC 3200 RAID控制器是目前唯一能夠提供最高可能傳輸速率(即26GBps)的設備。其具有極低延遲,可向主機提供最多16個PCIe Gen 4通道,並向後相容PCIe Gen 2。與Microchip基於Flashtec系列的NVMe SSD結合使用時,可於多主機系統發揮PCIe和Magnum IO GPUDirect Storage的全部潛能。總體而言,上述特性使其能夠建構強大的系統,可即時滿足AI、ML、DL以及其他高效能運算應用的需求。

(本文作者任職於Microchip Technology)

儲存裝置/GPU資料路徑傳輸再加速(1)

儲存裝置/GPU資料路徑傳輸再加速(2)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!