運算分解/光學連接/訓練在地化 資料中心升級架構應對AI挑戰

2024-02-29
ChatGPT橫空出世,人工智慧高速發展除了對日常生活帶來巨大影響,也導致資料中心等基礎設施壓力遽增。因此,預測運算架構將產生新的變化,以因應AI工作負載需求。
Shutterstock

ChatGPT的誕生超越了全球各界對於人工智慧技術的預期。聊天機器人可以寫論文、創作音樂,甚至可以用不同的語言交談。讀過ChatGPT所創作的詩歌便會知道,儘管ChatGPT尚未通過圖靈測試,但相比三個月前專家對於人工智慧技術的發展預期,此舉儼然是一種質的飛越。在推出此項技術後的五天內,註冊用戶數便突破了100萬人,成為技術採用史上之最。

伴隨著這種強勁勢頭,關於人工智慧的爭論也日趨白熱化,而爭論的焦點就集中在該項技術對我們生活方式帶來的巨大影響。根據某些預測觀點,透過將人工智慧技術運用到製造業、零售業、醫療保健、金融體系、安全等領域,到2030年,AI技術將對全球GDP做出重大貢獻。

但是,這種乍然而起的成功趨勢同樣揭示了人工智慧技術亟需解決的一個問題:運算基礎設施無法處理人工智慧技術所產生的工作負載。在過去五年的時間中,人工智慧網路的規模以每年十倍的速度成長。到2027年,資料中心裡五分之一的乙太網路交換器端口將專用於人工智慧、機器學習和加速運算。

針對上述情況,若欲大規模使用人工智慧技術,無論是從技術層面還是經濟層面而言,都堪稱天方夜譚,還會對環境造成極為惡劣的影響。訓練像GPT-3這樣擁有1,750億個節點的模型,耗電量為1,287百萬瓦時,相近於120個美國家庭一年的用電量。日後,模型性能將可提高十倍,代表運算和能源需求將增加10,000倍。

運算架構重組 三大重點趨勢解析

為了解決需求螺旋式攀升的情況,需要從根本開始重新思考運算架構。儘管無法預判所有未來變化,但根據筆者推斷,我們需要針對以下變化做好準備。

運算平台完全分解

系統中的每個元素(CPU、GPU、DPU、記憶體、儲存、網路等)都必須能夠自行按需進行擴展和改進,才能滿足演算法需求和容量/吞吐量要求,緊跟創新腳步。這代表需要消除這些元素彼此間的相互依存關係。

記憶體就是最佳範例。過去幾年間,記憶體已成為阻礙性能擴展的瓶頸。儘管對更多頻寬和容量的需求一直在增加,但基本上,主機的記憶體介面已經無法繼續擴展。

CXL技術正在走向商業化,能夠越過傳統基於PCIe的介面,透過CXL連接增加處理器的記憶體。CXL也支援不同的處理器和裝置共用補充記憶體池。資料中心還能夠回收舊伺服器中的記憶體來創建CXL池,進而優化其總體擁有成本(TCO)。整體來說,優化目標為實現更好的資源利用率、更高的峰值性能和更好的投資回報率(ROI)。從某種程度而言,儲存和網路已經進行了分解,但在未來,預期將看到資料中心的完全模組化,分立應用中不同的功能和/或元件之間的關係將動態變化。

採用光作為媒介

然而,分解將導致延遲、潛在的頻寬瓶頸並限制性能。為了充分發揮分解的潛力,需要能夠盡可能克服上述局限的媒介。

正如前文所述,功耗是迫切需要解決的問題,功率密度也是如此。為了處理新興任務和用例,需要建構規模更大、更密集的人工智慧平台。在許多情況下,若希望以所需的速度和資料傳輸量對這些平台進行電氣連接,需要在空間上的鄰近性,進而導致功率密度問題,並限制向叢集添加更多人工智慧元件的能力,阻礙進一步擴展的能力。

光學是唯一能夠有效解決這些問題的媒介,現在已經可以將機架連接在一起,在下一階段,光學的部署將可連接機架內,甚至是系統單元(System Pod)的資產。諸如CXL等常見的標準協定將轉向光學。

接下來,我們來談談人工智慧平台規模這件事。以目前的25Tbps乙太網路交換器為例(為了簡單起見,暫時忽略備援、進制(Radix)和拓撲),假定此交換器可容納約500台伺服器,連接速度通常是50Gbps。那麽,這台交換器能夠滿足多少以3.6Tbps(公布的聚合速度為900GB/s)來連接叢集中對等GPU的高階GPU?答案是七個。因此,勢必需要更多的頻寬。銅纜交換器市場依然大有可為,將繼續演進發展,但光學會開始接手高階的交換任務。

四級脈衝振幅調變(PAM4)和同調數位訊號處理器(DSP)有助提升光纖內的資料傳輸效率,而光纖可用於資料中心內部和資料中心之間的通訊,PAM4和DSP兩項技術的興起也使得光學產業的發展方向更加明確:光學將擺脫往日高品質低產量的產業形象。即將推出的1.6T(200G/lambda)光學模組將增加頻寬,同時減少元件數量、成本和功耗,具體性能取決於配置和工作負載。

關於光學技術何時能夠整合至晶片中,以及採用何種整合方式的討論熱度長期居高不下。基於穩步改善性能、生態系統廣泛、頗受客戶青睞等多種因素,在未來幾年中,插拔式光學模組仍將是通用工作負載的標準。不過,共同封裝解決方案也預計將於近期被部署至人工智慧叢集中。雖然共同封裝光學元件的可靠性和性能仍有待驗證,但是透過採用共同封裝的光學元件,有機會進一步優化頻寬、效率和功率密度表現,這些潛在好處也將促進研究,有利於技術突破。

人工智慧訓練在地化

就規模而言,只訓練一個模型,使其無所不知並持續使其變得越來越智慧,這種方法並不可行。

另一種方法是在雲端訓練具有一般能力的「通用」模型,接著根據區域的具體情況、使用情況、目標受眾等特性,在邊緣對模型進行再訓練。接下來,可以考慮將所有經過優化的模型相互連接,以創建無所不知的超級模型,此概念類似於網際網路為眾多網站的集合體。

以人類為例,小孩從一出生便具備與他人對話和互動的能力,這是人類的天性之一,為進化過程中經過訓練所得出的結果。接著,孩子將根據身處的周圍環境,從相關的語言、知識、行為等面向,對與生俱來經過訓練的能力進行微調(Fine Tune)。前述的人類學習模式也適用於人工機器學習。

如此一來,透過模型取得更好、更相關的回應,能耗將持續下降、運算週期縮短,消費者的滿意度也將持續提升。

技術終將取得突破

儘管面臨諸多艱難的挑戰,本文所提到的技術演進仍然在可行範圍之內,並未涉及難得素(Unobtanium)等設想情境。隨著人工智慧技術的創新進步,各式運算形式也將開始採用AI技術,所得到的回報將成正比。

為此,我們需要反覆試驗並不斷試錯,接著以新的模式來取代一些舊的常規做法,來應對人工智慧所帶來的挑戰。

(本文作者為Marvell首席技術官)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!