資料中心是支持AI發展的基礎設施,然而,傳統的資料中心伺服器已無法滿足AI/ML的資料處理需求及功耗限制。由CXL聯盟創建的資料協定Compute Express Link(CXL)標準帶來全新技術,透過資源共享和可組合的運算架構推動資料中心轉型,成為資料中心應對新興應用未來需求的關鍵。
人工智慧(AI)正在改變現代科技,包括設計和建造資料中心的方式。資料中心是支持AI發展的基礎設施,然而,傳統的資料中心伺服器已無法滿足AI和機器學習(ML)的資料處理需求及功耗限制。
Compute Express Link(CXL)標準是由CXL聯盟創建的資料協定,在資料中心伺服器的處理器、記憶體緩衝區和加速器之間提供一個開放標準的快取一致性鏈路(Cache-coherent Link),並分解各個元件以提高效率。CXL讓由可互通元件組成的資料中心結構能夠共用資源,並解決棘手的計算問題。隨著分解式資源共享伺服器架構的發展和新協定成為主流,CXL將使基礎設施能處理AI、ML、邊緣運算和其他資料密集型技術所需的PB級資料。
什麼是CXL?
CXL與快速周邊元件互連(PCIe)使用相同的實體電氣層,但具有自己獨特的鏈路和傳輸層協定。透過CXL鏈路,CPU與專用終端硬體(如硬體加速器或記憶體緩衝器)可共用資源池(Resource Pooling),以處理特定的工作負載。
CXL擁有三個主要協定。CXL.io是所有CXL裝置的必備協定,類似PCIe資料交易層(Transaction Layer),負責處理發現、配置和中斷;CXL.cache使CXL加速器能夠存取CPU記憶體,以確保板載高速快取的一致性,這也是兩個裝置共用運算資源的必要前提,如圖1所示;CXL.memory則可支援記憶體擴展裝置(緩衝器),增加可用的持續性記憶體(Persistent Memory),其運行速度接近DRAM,並具有類似NAND的非揮發性,如圖2所示。
CXL裝置有三種類型:
- 類型1裝置是僅具有CXL.cache功能的硬體加速器。
- 類型2裝置是具備板載記憶體的加速器,具有CXL.memory和CXL.cache功能。
- 類型3裝置是僅具有CXL.memory功能的記憶體擴充器。
CXL有哪些優勢?
CXL的主要目標是實現資料中心的容量擴展,以應對新興技術帶來之日益成長的工作負載需求。其獨特的創新技術透過共用記憶體和處理資源,使複雜運算任務的分解變得更加可行且高效,同時保持低延遲下的一致性。
CXL得益於現有的實體層基礎設施,建立在數十年PCI-SIG創新和產業熟悉的基礎之上,並進一步藉由簡化裝置之間的通訊來減少延遲。每個PCIe交易(Transaction)都需要在主機(Host)和端點(Endpoint)之間進行額外通訊(Overhead Communication),以交流有效負載長度。CXL透過使用固定的528位元流量控制單元(Flit),消除這種額外的通訊需求。
CXL 3.0有哪些新功能?
自2019年推出以來,CXL的開發工作一直往實現全運算結構和分解運算的目標穩步前進。CXL 1.1一次僅支援一種裝置/主機關係;CXL 2.0支援多達16台主機同時存取不同部分記憶體和進行切換(Switching)的能力。CXL 3.0則增加了點對點(Peer-to-peer)記憶體存取和多層交換功能,擴大了分解運算的範圍和支援。
CXL 3.0還允許CXL透過PCIe 6.0硬體達到與PCIe 6.0相當的速度(64GT/s),並可向後相容過往的CXL協定和PCIe硬體。最重要的是,CXL 3.0導入了Fabric功能,使CXL標準擺脫了傳統的樹狀拓撲結構。表1列出了CXL 3.0的部分功能。
CXL對AI資料中心的意義?
CXL發展成為高度靈活的鏈路網路,實現了可組合、可擴展的運算結構(Fabric)。Fabric是系統中相互連接的節點,可以與其他節點互動,進而更快、更高效地完成工作,而不受限於傳統的樹狀架構。
資料中心的發展趨勢是將處理動作從單一伺服器系統分解到鏈路交換器網路,以此實現資源池化。如今,AI和ML為資料中心帶來了前所未有的負載,從晶片設計人員到系統整合商都不得不重新思考資料的傳輸、通訊和處理方式。
CXL為資料中心帶來的最重要的元素即是資源池。允許CPU存取其他專用資源以完成複雜運算,是高效、去中心化設計理念的關鍵。CXL 3.0包括多層式交換(Multi-level Switching)、多頭(Multi-headed)和Fabric連接(Fabric-attached)的裝置、增強型Fabric管理和可組合的分解式基礎設施等新功能(圖3),使該標準成為將資料中心Fabric編織在一起的連接鏈路。
設計或驗證CXL產品的挑戰
只有當每個裝置都符合互通性要求時,模組化才能發揮作用。為確保每個供應商的產品都能與其他裝置完美配合,驗證和合規性測試至關重要。然而,合規性測試也將為產品開發帶來挑戰。雖然CXL建立在PCIe互連和電氣構件的基礎上,但即使是經驗豐富的PCIe開發人員,在設計和驗證其CXL裝置時也需要小心謹慎。
其中一項挑戰是在不同的高速快取之間保持一致性,將產生監控操作和資料複製的額外成本。CXL規範建議採用基於偏置(Bias-based)的一致性模型,以減少對於過多監看操作的需求。然而,系統可能會掩蓋偏置的不當行為。雖然可以進行記憶體存取並保持一致性,但如果系統沒有正確遵循偏置規則,就會產生不必要的額外成本。分析和檢測偏置方面的不當行為,可為提升系統效能和減少延遲提供重要洞察。由於CXL裝置存在上述和其他潛在問題,專門的測試軟體可能有益於學習除錯和驗證CXL裝置效能的開發人員。
CXL為資料中心轉型核心驅動力
CXL是資料中心朝分解和模組化設計所邁出的關鍵一步。CXL使多台裝置能夠共同進行複雜的運算,自由共享資源,以處理AI和其他資料密集型產業所生成的PB級資料。
儘管可能仍需要幾年時間和更多代的CXL標準,才能看到CXL對資料中心產業的全面影響,但可以肯定的是,CXL將在實現AI和ML應用方面發揮重要作用。
(本文作者為是德科技產品行銷經理)