專有互連技術加持 CPU/GPU異質運算效率更高

2024-03-20
AI時代下的伺服器迫切需要提高運算效能,以支援生成式AI、大型語言模型等應用高速成長的需求。為了應對AI帶來的挑戰,處理器業者積極針對AI制定產品策略,同時善用各自專有互連技術提高處理效能。
iStock

人工智慧(AI)快速發展,資料中心正面對與過往相比顯著增加的運算需求。伺服器亟欲提高內部的運算效能,處理器業者也持續跟隨需求推出新品,在GPU方面,有輝達(NVIDIA)的H100,以及超微(AMD)的Instinct加速器;針對CPU,則有英特爾(Intel)Xeon處理器、AMD EPYC處理器和NVIDIA Grace CPU。

針對伺服器內部各晶片及周邊元件的資料傳輸,儘管業界已有成熟的PCIe標準和新興CXL記憶體互連協定,各家處理器晶片業者仍持續以自身晶片產品為主發展互連技術,進一步提高整體性能。

CPU/GPU各有所長 AI帶動晶片高速互連需求

提到AI的運算需求,能夠高速執行技術運算(Technical Calculation),並且擁有更優秀能源效率表現的GPU,似乎是業界最熱中的元件種類。不過,根據分析預測,未來專注於推論的AI伺服器可能占有八成比例,CPU雖然在AI模型的訓練(Training)方面略遜GPU一籌,卻因為其在運算平台的普遍性,以及可對應不同軟體架構的彈性,而有機會在AI推論(Inference)方面扮演重要角色。

因此,預期未來在資料中心的伺服器中,GPU和CPU將分工處理不同任務,共同協助伺服器滿足AI模型的運算需求。在此情況下,GPU-GPU、CPU-CPU及GPU-CPU之間的互連技術將影響處理器的協作效能,為了發揮產品最佳性能,各處理器業者紛紛針對自家產品推出互連技術。

AMD/Intel/NVIDIA各推互連技術

打造高效能的處理器晶片只是滿足AI運算需求的第一步,處理器晶片之間的分工協作也將影響最終的產品性能。AMD、Intel、NVIDIA作為伺服器處理器重要廠商,除了因應AI創造的市場需求擴充其CPU及GPU等處理器產品家族,也透過專有的互連優化技術建立產品差異化,幫助伺服器業者打造效能更高的產品。

AMD Infinity Fabric

AMD EPYC伺服器處理器已經來到第四代,該公司也持續布局其Instinct加速器系列,於2023年發布最新MI300系列產品。在這些產品中,AMD專有的Infinity Fabric技術扮演了協助元件之間高速互連的重要角色,例如EPYC第四代嵌入式9004處理器系列便包括Infinity Fabric控制器;Instinct加速器MI250X所採用的CDNA 2架構中,也以Infinity Fabric鏈路實現同一節點(Node)GPU之間的通訊;而在MI300系列的CDNA 3架構中,該系列最高可以整合八個垂直堆疊的加速器複合晶粒(XCD)和四個I/O晶粒(IOD),同樣以Infinity Fabric技術完成晶粒整合。

Infinity Fabric能夠連接多個AMD CPU及CPU,如前述案例所示,該技術也可用於GPU-GPU的高速互連,或是晶粒之間的互連。AMD於2023年底宣布其針對AI Networking的方向及策略,表示Infinity Fabric將使用Global記憶體池進行GPU互連。此外,AMD網路介面控制器(NIC)也將支援多種模式,以透過乙太網路連接Infinity Fabric節點和叢集(Cluster)。AMD也於MI300系列產品發表時,同步宣布將向生態系統合作夥伴提供Infinity Fabric技術,例如博通(Broadcom)便表示該公司新世代交換器(Switch)將支援Infinity Fabric。

Intel UltraPath Interconnect

Intel於2023第四季推出第五代Xeon處理器(代號Emerald Rapids),而使用E-core的Intel Xeon處理器(Sierra Forest)目前則預計在2024年稍後供貨。此外,針對HPC和AI工作負載需求,Intel也於2023年初推出Xeon CPU Max系列處理器(代號Sapphire Rapids HBM),是基於x86架構的處理器中,唯一具備高頻寬記憶體(HBM)的方案。

圖1 英特爾業務暨行銷事業群商用業務總監鄭智成表示,UPI技術用於CPU-CPU互連,可避免占用頻寬造成資源浪費。

在Intel的伺服器產品中,CPU之間的UltraPath Interconnect(UPI)互連技術是高效拓展伺服器處理性能的關鍵。英特爾業務暨行銷事業群商用業務總監鄭智成(圖1)說明,儘管目前已有PCIe、CXL等產業標準,但如果使用PCIe進行CPU之間的連接,將占用PCIe原有的頻寬,若原本單一CPU設計有80個通道,以PCIe對80通道的兩個CPU進行連接,通道數量將無法達到應有的160個。UPI技術避免頻寬占用問題,能夠實現1+1=2,對於需要對四個、八個CPU進行互連的設計來說,是否採用UPI技術的差異將更為顯著。鄭智成表示,Intel的CPU互連技術能夠讓PCIe回歸進行周邊元件互連的初衷,將CPU之間的連接交給專有的UPI技術,專業分工提升整體運作效率。

NVIDIA NVLink

NVIDIA於2023年底宣布基於Hopper架構的GPU新品H200,將率先採用HBM3e記憶體以支援生成式AI和大型語言模型的需求,預計於2024年第二季開始供貨。針對CPU,NVIDIA也持續布局Grace CPU產品,於2022年推出Grace CPU超級晶片,將與2021年發表的Grace Hopper超級晶片形成互補;對於這些超級晶片產品來說,NVLink是實現高效運算能力的重要互連技術。

NVLink透過軟體協定為GPU和CPU帶來高速連接,第四代NVLink技術可為多GPU系統配置提供1.5倍頻寬,並改善可擴充性。單個NVIDIA H100 Tensor核心GPU最高可支援18個NVLink互連,傳輸速度可達900GB/s,約為PCIe 5.0標準的七倍。該技術延伸推出NVLink-C2C互連技術,Grace CPU超級晶片便透過NVLink-C2C連接兩個CPU;Grace Hopper超級晶片也採用相同技術結合Grace及Hopper架構。目前,NVIDIA也開放將NVLink相關技術用於客製化晶片整合,可實現晶片至晶片(Chip-to-chip)和晶粒至晶粒(Die-to-die)之間的連接,提高設計彈性。

小晶片/異質運算趨勢鮮明 處理器業者CPU/GPU雙軌布局

從三大伺服器處理器業者的產品動態可以感受到,近年來AI應用所創造的運算需求已不容忽視。儘管Intel對於Max系列GPU的產品規畫仍具有不確定性,但整體來說,可以觀察到處理器業者雙線布局CPU、GPU產品系列,搶進資料中心旺盛的市場需求。

未來,預期伺服器內部的運算任務將繼續朝CPU和GPU分工協作的異質運算趨勢發展,而各業者自有的互連技術將在PCIe、CXL等產業標準外,進一步提升運算效能,同時也有助於打造更加靈活的晶片設計,例如小晶片架構的晶粒互連。面對AI應用的強勁需求,Infinity Fabric、Ultra Path Interconnect和NVLink等專有互連技術,將與標準協定一同協助資料中心應對挑戰。

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!