Arm LLM 生成式AI 邊緣AI 人工智慧 機器學習 深度學習 行動裝置 PTQ QAT 量化 類神經網路

量化加速LLM/生成式AI進入邊緣(3)

量化(Quantization)有助降低類神經網路模型的記憶體體積與延遲,面對將生成式及大型語言模型導入行動裝置的趨勢,量化技術的重要性持續提升。
Arm

Transformer模型的量化

(承前文)過去幾年,我們見證了AI技術的重大進展,包括GPT與其他知名的LLM。受惠於可用運算力的提升以及transformers模型的創新架構,一切都變得可能。運算力與transformers模型的強大組合讓AI模型可以進行擴充,並可以應用於更多的複雜問題中。

知名的LLM模型建構在transformer架構上。表2列出部分LLM模型所使用的龐大參數量,經過觀察比較可發現這些模型的顯著差異在於它們本身的大小。

表2 LLM的參數數量

假設這些模型使用帶有FP32資料類型的參數,透過簡單算術,可以約略計算出記憶體體積。舉例來說,由於1個FP32參數為4位元組,10億個FP32參數將等同於4×109位元組,也就是4GB。

每10億個參數將轉換成4GB的記憶體體積,使LLM遠遠超出嵌入式與行動裝置所能處理的記憶體範圍。這代表若希望把LLM導入行動領域,必須將量化列入考量。例如,包含70億個參數的較小型LLaMA版本,若量化為INT8,記憶體體積將可從28GB縮小四倍成7GB,進入行動RAM記憶體可接受的範圍。

在前述兩種常用的量化方式PTQ與QAT之間,PTQ是用來量化transformer模型的技術。儘管PTQ不見得總是能提供最佳的準確度,但因為不需要進行額外訓練,實作起來費用相當低廉。對於參數數量動輒數十億的transformer模型來說,訓練費用將極為昂貴,因此PTQ的這項特點十分重要。此外,針對transformer模型,QAT並不對各層提供完整的支援,例如MultiHeadAttention層就無法進行QAT的實作。

最近也開始看到更進一步的4位元PTQ,試圖讓大小更精簡的LLM在行動裝置上運行。例如,參考資料[4]的研究報告便探究LLM使用INT4量化的可行性,並顯示使用INT4對純編碼(Encoder-only)與編碼-解碼(Encoder-decoder)模型來說,並不會帶來任何準確度的退化,或是退化程度很小可以忽略,不過會造成純解碼(Decoder-only)模型的準確度大幅下滑。

在選擇理想的優化策略時,需要額外考量的對硬體核心(Kernel)的支援程度。例如,資料類型的某些組合並不支援GPU矩陣乘法,因此將降成使用CPU(CPU Fallback),對效能帶來負面影響。

將PTQ應用至transformer模型時,該研究也發現另一個有趣的事實。倘若量化延伸至激活值,量化對準確度的影響可能將出現顯著差異。作者以多個模型顯示,權重的量化本身幾乎不會產生任何錯誤,但激活值的量化是造成多數退化的背後原因。

隨著參數數量的增加,必需考量一個重要的議題。該報告展示當模型的參數數量增加到27.2億以上時,一般的8位元量化將如何無法遵循參考的浮點16位元基線精度。此時,該報告將原因歸咎於推論過程中隱形狀態的特徵維度中,出現了極端的異常值。

解決此一挑戰最直接的方式就是針對權重vs激活值,考慮以不同的精度實作量化。作者實作了混合精度(Mixed-precision)的量化方式:針對異常值(Outlier)特徵維度進行16位元的矩陣乘法;對於維度其他99.9%的部分,則進行8位元的矩陣乘法。採用這種新方式讓他們可以在參數多達1,750億的LLM中執行推論,不會產生效能的退化。

破解行動裝置/AI結合挑戰 量化技術持續發展

本文旨在協助讀者建立現行量化方式的相關概念,特別是兩大主要的量化方式PTQ與QAT,以及在TFLite框架中,如何將它們用於行動平台。清楚瞭解這兩種方式如何運作,有助於在不同情境下選擇採用不同量化方式。舉例來說,若無法取用訓練的資料集,那麼PTQ將是唯一的選項,同時也是一種快速的解決方案;若可取用訓練的資料集與運算資源,那麼QAT是可選選項,幾乎不會犧牲任何的準確度。然而,這並非絕對的保證:有些模型的特定層對量化極為敏感,這時QAT便無法派上用場。

本文也指出行動裝置開發人員在量化transformer模型時需要面對的挑戰,為將模型部署到行動平台無可避免的一道步驟。在這種情況下,混合精度量化似乎是最佳的方式。不過,隨著業界持續投入更多心力,致力將LLM與生成式模型導入邊緣,預期該領域將出現更多新發展。針對量化相關內容,若有興趣進一步了解,可參考Arm Community內相關主題的其他文章。

(本文作者任職於Arm;中文版校閱者林宜均為Arm主任應用工程師)

參考資料

[4] Wu, Xiaoxia, Li Cheng, Reza Yazdani Aminabadi, Zhewei Yao, and Yuxiong He. "Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases." Microsoft.

量化加速LLM/生成式AI進入邊緣(1)

量化加速LLM/生成式AI進入邊緣(2)

量化加速LLM/生成式AI進入邊緣(3)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!