超乙太網路聯盟(Ultra Ethernet Consortium, UEC)旨在為人工智慧(AI)和高效能運算(HPC)打造基於乙太網路的通訊堆疊架構,近期更新其標準制定進展,計畫於2024年第三季正式發表UEC規範1.0版本。與此同時,UEC聯盟也持續壯大,自2023年11月已經新增45位成員,顯示業界對於AI網路方案的高度關注。
UEC指導委員會主席J Metz表示,業界對於專門針對AI和HPC工作負載(Workload)需求而設計、開放式且基於乙太網路的網路具有強烈需求,而UEC正致力滿足此產業需求。隨著成員數量增加,UEC距離廣泛的互操作和穩定性更近一步。
超乙太網路聯盟(UEC)針對v1.0發布的白皮書中表示,UEC正著手制定Ultra Ethernet Transport(UET)協定,目標為取代過往的RDMA over Converged Ethernet(RoCE)協定。RoCE讓InfiniBand Trade Association(IBTA)的RDMA傳輸協定能夠運行於IP及乙太網路,IBTA已在多年前完成相關標準。然而,儘管遠程直接記憶體存取(RDMA)讓資料在記憶體之間直接傳輸的特性有助於滿足AI傳輸需求,RoCE仍在傳輸協定服務方面遭遇部分挑戰。
UEC表示,目前單一加速器可能整合多個Tb等級的網路I/O,資料傳輸規模已超過RDMA最初預期,而RoCE普遍採用DCQCN作為壅塞控制演算法,需要手動進行微調(Tuning),並且對於網路的延遲、速度和緩衝能力十分敏感。相較於需要針對網路進行微調的方案,未來AI網路需要類似TCP,可以直接採用的傳輸協定。此外,RDMA常透過運行於無損失(Lossless)網路以便可靠且有效率地進行封包傳輸,而大型無損失RoCE網路同樣需要額外的調整和監測,業界因此需要無須仰賴無損失Fabric的傳輸協定。
面對AI應用傳輸的大量資料,傳統RoCE及InfiniBand無論在頻寬還是Peer數量皆低於目前AI/HPC的運作需求,需要進行負載平衡以確保單一鏈路不會過載。有鑑於傳統RoCE及InfiniBand傳輸標準的限制,UEC致力提供更簡單、更有效的直接記憶體存取,以及AI/HPC工作負載的互連方式。
未來,在傳輸層之外,UEC也將定義標準語義層、實現低延遲傳輸的改良機制,以及標準、多供應商支援的AI/HPC APIs,以便在UEC傳輸協定上進行實作。等到第一版標準於第三季推出,從2024年開始可望看到採用UEC標準的產品問世,目前也已經可以看到相關業者的布局規畫,例如英特爾(Intel)身為UEC的創始成員之一,便規畫包含AI網路控制器(NIC)、整合進XPU的AI連接小晶片等產品,接下來UEC標準發展值得關注。