生成式AI啟動新一波的AI應用熱潮,將LLM導入邊緣端,需要足夠的記憶體容量,確保AI模型順利執行。將SSD用於AI運算,以及In-Memory Compute的技術進展,都讓邊緣端的算力更上層樓。
CXL加快裝置資料傳輸
(承前文)生成式AI逐步導入邊緣,邊緣運算的核心優勢在於,讓資料更貼近終端裝置與使用者。世邁科技(Smart Modular)亞太區市場開發產品經理黃奕璁(圖6)分析,帶動邊緣運算需求成長的因素,包含隨著IoT裝置更多、資料更複雜,上傳到雲端的資料超出網路傳輸可以負荷的量。例如工廠裡面設備有狀況,需要立即停機,邊緣運算就可以即時反應。
如果系統需要從遠端資料收集,在通訊環境不佳的環境,可以在端點建立邊緣設備,收集本地資訊以便後續使用。同時邊緣運算的成本較雲端低,在邊緣先儲存或運算,系統就可以只上傳必要的服務,降低建置成本。邊緣AI也能加強服務的可靠度,不受網路斷線或網路不穩影響。
在邊緣AI的應用中,CXL協定在高速資料傳輸方面扮演重要角色。黃奕璁說明,CXL基於PCIe基礎設施建置,對於記憶體而言是重要的協定。CXL作為CPU對裝置端的傳輸協定,是高速、低延遲的傳輸介面。其三個子協定各自的功能,首先CXL.io類似於PCIe的事件(Event),讓裝置跟CXL相互溝通,主要用於初始化、連接、設備發現、列舉以及寄存器(Register)的存取。
CXL.cache則是用於設備使用主機(Host)的資料傳輸,表示設備可以直接存取主機的RAM,並且需要與CPU的Cache資料維持一致性。如果沒有有效的通訊和資料同步,可能會出現RAM使用衝突。最後,CXL.memory是CPU使用設備上的RAM。CPU可以直接存取設備上的RAM,而不需要與設備的Cache交換資料。因為CPU的Cache直接使用設備上的RAM,因此可以直接通訊,而無需額外的同步操作。
目前CXL技術發展到3.0,但真正落地的CPU產品仍停留在採用1.1版本的協定。預期2024下半年,市場上將出現採用CXL 2.0的CPU產品。可預期接下來CXL技術的演進,以及正式商品化的腳步會加快,更多裝置會支援CXL技術。
SPOT實現低功耗裝置設計
功耗是邊緣AI裝置需要克服的重大瓶頸之一。Ambiq業務總監朱宏庭(圖7)提及,穿戴式設備的功能越來越多元豐富,在小型系統裡面實現這些智慧功能的同時,低功耗設計至關重要。Ambiq的低功耗技術SPOT(Subthreshold Power Optimized Technology),即是瞄準穿戴裝置的低功耗需求。SPOT主要透過消除MCU內部在低電壓情況下的干擾因素,達到大幅降低功耗的目的。
朱宏庭以傳統MCU舉例解釋,傳統MCU電路設計,MCU沒有啟動的時候電壓是0V,啟動的時候電壓大概是1.2V。SPOT的電路設計則是在MCU啟動時,電壓維持在0.5~1.2V。SPOT在0.5V的使用情況下,非常接近0V,容易受到電壓或溫度波動等因素帶來干擾。目前SPOT技術已經通過產品驗證,可避免上述的干擾因素,確保晶片順利量產。
Cube AI為邊緣裝置開發利器
邊緣AI可以實現不少應用,意法半導體AI應用工程師劉豐瑜(圖8)指出,工業用的預測性維護與馬達異常監測,或是停車場的車牌辨識,都不需要算力很高的設備就可以執行。在邊緣AI的裝置開發蓬勃發展下,結合MCU的開發工具,有助於產業即時導入新興的AI功能。
AI終端設備的開發者最在乎的是AI模型執行速度多快、需要多少記憶體,以及導入到裝置之後,AI推論的速度符不符合需求。因此意法半導體(ST)提供的Cube AI工具,可以協助技術人員在模型開發的初期,透過工具模擬模型在硬體上執行時,需要多少記憶體耗用量(Memory Footprint),以及執行速度如何。避免軟體完成開發後,無法順利進行系統整合,也能選定符合需求的硬體規格。
生成式AI與LLM導入邊緣端,仰賴開發工具、In-memory Compute、SPOT低功耗與模型微型化等技術支援。同時NPU與其他處理器的整合,加上SSD支援AI運算所需的記憶體空間、CXL協定加快資料傳輸速度,都大力帶動邊緣AI應用的進展。
算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(1)
算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(2)
算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(3)