生成式AI啟動新一波的AI應用熱潮,將LLM導入邊緣端,需要足夠的記憶體容量,確保AI模型順利執行。將SSD用於AI運算,以及In-Memory Compute的技術進展,都讓邊緣端的算力更上層樓。
SSD支援AI運算空間
(承前文)生成式AI與LLM發展速度飛快,在推論、微調(Fine Tune)、落地訓練的階段都需要足夠的記憶體容量及頻寬。群聯電子aiDAPTIV+產品經理陳冠文(圖3)指出,GPU內建的記憶體空間大約是24~80GB,只能執行AI推論。AI模型的訓練需要比模型尺寸多20倍的記憶體容量,也就是訓練例如Lama2 70B的模型,需要1.4TB的空間。若是要部署記憶體容量達到將1.4TB的GPU,需要極高的硬體成本。
若要落地部署AI,需要以AI的落地訓練(Domain Training)為基礎,採用可以支援落地訓練的硬體效能。包含記憶體的容量與效能,都要足以支援AI落地訓練,才能建立符合特定場域應用需求的專用模型,來提供該領域工作需要的AI推論結果。為了建立能與工作場域內的人員協作的AI,模型經過針對性的落地訓練。技術人員需要輸入公司內部的文件與技術到模型中,執行AI的落地訓練。經過落地訓練,AI模型就具備該工作場域相關的專業知識。這些專業知識多數是公司內部的機密資料,保留在邊緣端才能避免資料外洩等資安問題。
記憶體方面,主機系統中除了GPU的記憶體,DRAM及SSD的容量也能用來執行AI訓練。群聯電子協助客戶將AI落地的切入點,是將SSD作為AI運算可用的記憶體資源。在GPU的記憶體空間不足以支援AI運算的情況下,系統中的SSD透過中介層的軟體控制,在AI模型Fine Tune、執行落地運算的時候,自動將資料轉移到SSD。並且SSD在AI模型展開後,儲存AI模型的資料。在GPU執行AI運算時,只將需要運算的資料傳輸到GPU,確保AI模型的Fine Tune與運算都能順利執行。
邊緣AI開枝散葉
美商英特爾公司網路暨邊緣運算事業群平台研發協理王宗業(圖4)提及,根據調研機構IDC的統計,預估2024年生成式AI的支出是2023年的兩倍,可能達到403億美元。在產業的AI支出中,很大一部分的占比集中在基礎設施相關的服務。因為企業面對生成式AI快速發展的趨勢,需要升級硬體,來導入生成式AI。
另外,由於生成式AI模型有大量的開源軟體,因此除了大型企業持續推出新的模型,市場上也不斷有開源模型推陳出新。如果企業考慮採用開源模型,需要克服資安挑戰,以及實現可解釋的AI。也就是說,企業不只期待AI服務可以增加員工的工作效率,也希望將AI應用於產品開發。IDC預期2027年,AI將帶動1,500億美元的支出。
市場上已經出現不少AI應用,王宗業指出,2021~2022年可以觀察到AI在製造與醫療產業中,與工作人員協作。例如AI無法取代醫生的醫療專業,但是可以協助醫生提高確認X光片的效率,提升整體醫療品質。製造業方面,則常見用於產品的瑕疵檢測。產品檢測通常都是抽檢,導入AI後則可以進行全檢,有助於提高產品品質。尤其車用電子對於產品品質的要求極高,就亟需透過AI全面檢測產品。
AI PC是實現邊緣生成式AI的終端裝置,對此英特爾推出用於AI PC的Core Ultra。此處理器整合CPU、GPU及NPU,並根據AI模型的需求,提供相應的算力。過去CPU與GPU已經支援AI運算,目前Core Ultra中的GPU TOPS是前一代的兩倍,NPU也能實現高算力且低功耗的目標。因此三種處理器的整合,有助於回應不同AI運算的需求,可以靈活在不同的算力與功耗之間轉換。
記憶體技術/模型精度持續成長
目前新興的AI應用,以自駕車為例,需要非常大的算力支援。國立陽明交通大學電子所講座教授暨台灣半導體研究中心主任侯拓宏(圖5)表示,未來市場面對新的車款可能比起馬力,更在乎汽車的算力。韓國政府也全力推動車載AI的運算效能,期望打造1,000 TOPS以上的車載算力。
AI應用需要強大算力支援的主因,是LLM模型的尺寸越來越大。大約每四個月到半年,整體模型的參數就會呈倍數成長。ChatGPT4的參數成長即符合上述趨勢,其訓練成本高達6,300萬美元,約是ChatGPT的三倍。因此AI的硬體如何在算力方面取得平衡,是現階段的重要議題。
在AI持續成長的算力需求上,技術研發的其中一個方向,是拉近CPU與記憶體之間的距離。因為記憶體是運算效能提升的主要瓶頸,資料讀取容易比運算更慢、更耗電。過去發展的近記憶體運算(Near Memory Computing)讓記憶體變得比較分散,跟運算單元整合,讓處理器與記憶體的距離更近。藉此提高運算的能源使用效率,減少頻繁讀取資料的代價。當記憶體技術發展到元件尺寸更小的MRAM及RRAM,可以在單位面積整合更多記憶體,儲存更多且運算更多資料。小尺寸的記憶體有助於實現記憶體內運算(In-memory Compute),進而強化整體系統的算力。
另一方面,除了記憶體技術持續進展,AI模型在訓練與推論的精準度也不斷成長。過去可能需要用32bit才能完成的AI訓練,現在可能只需要支援4bit運算的硬體,也能達成模型精準度相近的結果。因為部分AI應用對於精度較低的運算容忍度高,在同樣的硬體效能下,將低精度的運算,可以提高單位時間內運算的參數量,進而增加能源使用效率。
算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(1)
算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(2)
算力/記憶體容量/低功耗技術缺一不可 GAI導入邊緣開發大顯神通(3)