Edge AI 生成式AI SSD LLM ChatGPT AI PC In-Memory Compute

Edge AI創新應用開發者大會

算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(1)

2024-06-03
生成式AI啟動新一波的AI應用熱潮,將LLM導入邊緣端,需要足夠的記憶體容量,確保AI模型順利執行。將SSD用於AI運算,以及In-Memory Compute的技術進展,都讓邊緣端的算力更上層樓。

生成式人工智慧(AI)啟動新一波的AI應用熱潮,而邊緣AI高度安全、低延遲等優勢,也帶動大型語言模型(LLM)在終端裝置中的應用。將LLM導入邊緣端,需要足夠的記憶體容量,確保AI模型順利執行。將SSD用於AI運算,以及In-Memory Compute的技術進展,都讓邊緣端的算力更上層樓。而CXL協定確保裝置的資料傳輸順暢,SPOT技術則實現終端裝置常見的超低功耗需求。此外,模型微型化技術,以及NPU與其他處理器的整合,也讓AI模型進一步突破算力瓶頸,在邊緣端有更大的發揮空間。

生成式AI走向邊緣

在LLM受到市場關注之前,AI技術以RNN及CNN為主流。隨著ChatGPT發酵,生成式AI啟動AI的新時

代。工業技術研究院電光系統所嵌入式系統與晶片技術組組長盧俊銘(圖1)說明,在雲端運算方面,AI的訓練與推論需要的算力,隨著模型的複雜度提升。同時AI服務的使用人數也大幅增加,因此系統執行AI推論的耗能已經超過訓練。

圖1 工業技術研究院電光系統所嵌入式系統與晶片技術組組長盧俊銘指出,AI服務使用人數大增,因此AI推論的耗能已超過訓練

盧俊銘提及,目前ChatGPT擁有大量的使用者,使用者提問後,ChatGPT回覆的文字就是Token。可預期在使用者大量使用之下,LLM生成的Token數持續增加。ChatGPT也具備多模態的能力,除了文字,也能生成圖片、聲音及影片。受到生成式AI熱潮的帶動,TIRIAS RESEARCH預估2024~2028年的AI用量將快速成長,LLM生成的Token數量將增加151倍。LLM生成的影像數量將成長167倍,而AI相關的營運成本可能達到840億美元,也就是成長50倍。

新興AI技術發展初期通常以雲端運算為主,接著會逐漸導入終端。因為終端貼近使用者,也是資料產生的位置。在終端直接處理資料,可以減少大量資料上傳到雲端的負載,也能節省耗能。生成式AI在雲端運算消耗大量的成本與能源,導致產業開始思考生成式AI的邊緣運算應用。TIRIAS RESEARCH分析認為,如果2028年將20%的生成式AI工作負載轉移邊緣端,可以節省160億美元的基礎建設成本。

面對生成式AI的邊緣運算商機,台灣廠商可以從半導體優勢切入。台灣的產業具備代工伺服器的經驗,也在晶片設計上有較明顯的優勢。未來台灣的半導體產業鏈將走向Chiplet,透過可擴充的設計模式,提供AI所需的算力。軟體方面則「以硬帶軟」,發展軟體的跨領域合作,串連生成式AI軟體從底層到最上層的技術。

模型微型化助生成式AI落地

DeepMentor執行長吳昕益(圖2)認為,生成式AI對於業界最大的衝擊與影響,在於相較CNN模型的時代,現在生成式AI是主角,其他AI技術成為配角。當生成式AI成為應用主流,不少企業期望導入生成式AI。生成式AI落地部署的挑戰之一,是採用適合的訓練及推論晶片。

圖2 DeepMentor執行長吳昕益認為,生成式AI落地部署的挑戰之一,是採用適合的訓練/推論晶片

選擇用於生成式AI的晶片,第一個常見的挑戰是功耗及算力的平衡。功耗取決於生成式AI部署的環境中,能源網路可以提供多少電力。同時也要考量相關的AI應用,需要足夠的算力支援。吳昕益說明,如果客戶使用7nm製成的晶片,算力最高大約為40TOPS。而改用5nm的晶片,算力最高可以達到60TOPS。晶片的算力與其採用的製程高度相關,因此建議設備採用22nm以下的製程,才有機會部署生成式AI。

面對產業內部署生成式AI的晶片需求,滿拓科技(DeepMentor)開發微型化的設備。微型化指的是用更少的位元數,達成精準度相近的推論結果。實務上應用於協助客戶部署生成式AI模型時,從尺寸較大的模型開始導入。再依照客戶需求產出參數檔,將模型進一步縮小。例如將原先32bit的運算,改成8bit或16bit,且模型的精準度沒有損失。

微型化技術的重要性在於,生成式AI的模型相較CNN模型,參數增加一萬倍以上。因此微型化技術有助於將生成式AI的導入成本,降低50%以上,且AI的執行效率可以增加50~200%。

硬體方面,DeepMentor除了提供客戶晶片,也能協助客戶導入生成式AI系統,包含軟體、硬體及晶片。生成式AI設備常見記憶體容量,或傳輸速度不足的瓶頸。因此DeepMentor與群聯電子合作,盡可能優化系統與發揮GPU效能。若是DRAM的容量不足,則使用主記憶體來執行AI運算,協助客戶在沒有大量採購GPU的前提下,也能將生成式AI落地應用。

算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(1)

算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(2)

算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(3)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!