算力/記憶體容量/低功耗技術缺一不可　GAI導入邊緣開發大顯神通(3)

2024-06-03

吳心予

生成式AI啟動新一波的AI應用熱潮，將LLM導入邊緣端，需要足夠的記憶體容量，確保AI模型順利執行。將SSD用於AI運算，以及In-Memory Compute的技術進展，都讓邊緣端的算力更上層樓。

CXL加快裝置資料傳輸

(承前文)生成式AI逐步導入邊緣，邊緣運算的核心優勢在於，讓資料更貼近終端裝置與使用者。世邁科技(Smart Modular)亞太區市場開發產品經理黃奕璁(圖6)分析，帶動邊緣運算需求成長的因素，包含隨著IoT裝置更多、資料更複雜，上傳到雲端的資料超出網路傳輸可以負荷的量。例如工廠裡面設備有狀況，需要立即停機，邊緣運算就可以即時反應。

圖6　世邁科技(Smart Modular)亞太區市場開發產品經理黃奕璁提及，CXL協定在高速資料傳輸方面扮演重要角色

如果系統需要從遠端資料收集，在通訊環境不佳的環境，可以在端點建立邊緣設備，收集本地資訊以便後續使用。同時邊緣運算的成本較雲端低，在邊緣先儲存或運算，系統就可以只上傳必要的服務，降低建置成本。邊緣AI也能加強服務的可靠度，不受網路斷線或網路不穩影響。

在邊緣AI的應用中，CXL協定在高速資料傳輸方面扮演重要角色。黃奕璁說明，CXL基於PCIe基礎設施建置，對於記憶體而言是重要的協定。CXL作為CPU對裝置端的傳輸協定，是高速、低延遲的傳輸介面。其三個子協定各自的功能，首先CXL.io類似於PCIe的事件(Event)，讓裝置跟CXL相互溝通，主要用於初始化、連接、設備發現、列舉以及寄存器(Register)的存取。

CXL.cache則是用於設備使用主機(Host)的資料傳輸，表示設備可以直接存取主機的RAM，並且需要與CPU的Cache資料維持一致性。如果沒有有效的通訊和資料同步，可能會出現RAM使用衝突。最後，CXL.memory是CPU使用設備上的RAM。CPU可以直接存取設備上的RAM，而不需要與設備的Cache交換資料。因為CPU的Cache直接使用設備上的RAM，因此可以直接通訊，而無需額外的同步操作。

目前CXL技術發展到3.0，但真正落地的CPU產品仍停留在採用1.1版本的協定。預期2024下半年，市場上將出現採用CXL 2.0的CPU產品。可預期接下來CXL技術的演進，以及正式商品化的腳步會加快，更多裝置會支援CXL技術。

SPOT實現低功耗裝置設計

功耗是邊緣AI裝置需要克服的重大瓶頸之一。Ambiq業務總監朱宏庭(圖7)提及，穿戴式設備的功能越來越多元豐富，在小型系統裡面實現這些智慧功能的同時，低功耗設計至關重要。Ambiq的低功耗技術SPOT(Subthreshold Power Optimized Technology)，即是瞄準穿戴裝置的低功耗需求。SPOT主要透過消除MCU內部在低電壓情況下的干擾因素，達到大幅降低功耗的目的。

朱宏庭以傳統MCU舉例解釋，傳統MCU電路設計，MCU沒有啟動的時候電壓是0V，啟動的時候電壓大概是1.2V。SPOT的電路設計則是在MCU啟動時，電壓維持在0.5~1.2V。SPOT在0.5V的使用情況下，非常接近0V，容易受到電壓或溫度波動等因素帶來干擾。目前SPOT技術已經通過產品驗證，可避免上述的干擾因素，確保晶片順利量產。

Cube AI為邊緣裝置開發利器

邊緣AI可以實現不少應用，意法半導體AI應用工程師劉豐瑜(圖8)指出，工業用的預測性維護與馬達異常監測，或是停車場的車牌辨識，都不需要算力很高的設備就可以執行。在邊緣AI的裝置開發蓬勃發展下，結合MCU的開發工具，有助於產業即時導入新興的AI功能。

圖8　意法半導體AI應用工程師劉豐瑜指出，MCU開發工具有助於產業即時導入新興的AI功能

AI終端設備的開發者最在乎的是AI模型執行速度多快、需要多少記憶體，以及導入到裝置之後，AI推論的速度符不符合需求。因此意法半導體(ST)提供的Cube AI工具，可以協助技術人員在模型開發的初期，透過工具模擬模型在硬體上執行時，需要多少記憶體耗用量(Memory Footprint)，以及執行速度如何。避免軟體完成開發後，無法順利進行系統整合，也能選定符合需求的硬體規格。

生成式AI與LLM導入邊緣端，仰賴開發工具、In-memory Compute、SPOT低功耗與模型微型化等技術支援。同時NPU與其他處理器的整合，加上SSD支援AI運算所需的記憶體空間、CXL協定加快資料傳輸速度，都大力帶動邊緣AI應用的進展。

算力/記憶體容量/低功耗技術缺一不可　GAI導入邊緣開發大顯神通(1)

算力/記憶體容量/低功耗技術缺一不可　GAI導入邊緣開發大顯神通(2)

算力/記憶體容量/低功耗技術缺一不可　GAI導入邊緣開發大顯神通(3)