搶進邊緣人工智慧領域　類比運算挾高性價比掀起旋風

2021-05-21

Mythic

近年來深度神經網路(DNN)、大資料量及硬體運算性能的提升，刺激跨產業的人工智慧(AI)應用蓬勃發展。AI應用正向邊緣設備(Edge Devices)邁進，適用範圍從監視攝影機的監控安全到生產線中的工業電腦。

業界現在正在採用AI以改善產品與服務，同時將成本降低。神經網路的部署若要滿足用戶體驗，則必須要有能以微型化形式提供高性能、低延遲和低功耗的AI推論方案，而這些都是當前數位CPU/GPU/SoC解決方案無法實現的。

類比運算引擎為微型化、低功耗、高效能的邊緣終端發展開創一條嶄新道路，舉例來說，Mythic類比運算引擎僅需消耗4W的功率，即能提供高達35TOPs處理器運算能力，非常適用於高性能視覺分析中執行複雜的AI工作負載，同時能夠滿足擴增實境/虛擬實境(AR/VR)、安全/監視和工業機器視覺等產業的邊緣設備設計需求。

邊緣設備挑戰

邊緣AI推理的效益眾所周知，包含減少即時決策的延遲、透過將數據保留於本地以保障隱私和安全，並且明顯地降低重複性雲端服務成本。不過，尤其是影像分析中的AI應用，為製造商帶來了無數的挑戰。隨著DNN的複雜性和功能方面急速發展，邊緣設備必須具備即時性與設計可擴展性，以支援新AI工作負載和新應用快速的發展。同時，邊緣設備將遭受成本、功耗和機型大小的限制，AI方案必須於遵守其限制的同時，提供所需的運算資源(圖1)。

至今已有70多家公司正在研發AI處理器，期能解決部署複雜AI模型需足夠性能的難題。儘管每家公司皆聲稱提供創新的AI處理方法，不過都僅實現了相似的數位架構而已。這相似的數位構造是一種結合了CPU、GPU、DSP和自定義邏輯電路，配上具有高速DDR接口(其連接到外部動態隨機存取記憶體(DRAM))的片上高速快取SRAM(L1/L2/L3)製成的AI處理器(圖2)。

這種數位推理處理法為邊緣設備的部署突顯了基本的挑戰。為滿足最新神經網路運算要求，數位AI處理器依賴摩爾定律(Moore's Law)，利用非常昂貴的7nm半導體製程來擴大性能並降低功耗，並迅速邁進5nm技術。雖然最新處理技術能夠改進數位AI處理器的運算和能源效率，對於邊緣系統中的AI推理操作，仍然不會大量地改善總功耗。

對於推理操作方面，執行操作前，數位AI處理器將需要通過晶片上快取子系統訪問儲存在外部DRAM的神經網路參數。DRAM存取占了操作功率的大部分，並因此增加了明顯的延遲，阻礙了即時性能。在成本角度上分析，外部記憶體在兩個方面中增加了系統BOM的成本。首要的是DRAM組件成本。其次，DRAM的功率將增添額外散熱管理的成本，如增大散熱器或風扇，並需更多邊緣設備無法提供的物理空間(圖3)。

儘管有繁多的數位AI處理器選擇，對於邊緣設備製造商而言，要找到一項以低功耗滿足高性能的要求，且其為小機型並價位能滿足其商業目標成本的解決方案，仍是一個巨大的挑戰。

用於邊緣AI處理的記憶體內類比運算Mythic正以其獨特的記憶體內運算技術及Mythic類比運算引擎(Mythic ACE)挑戰AI推理處理的典型數位架構方式。類比運算引擎在成熟的40nm製程技術中將高密度嵌入式快閃記憶體(Flash)與類比數位轉換器互相結合，其可在極低功率下執行高性能運算。與數位AI架構不同的是，其設計將神經網路參數都儲存於晶片上Flash內。僅一個週期裡，乘積累加(MAC)運算於Flash單元和整合的類比數位轉換器(ADC)中執行。在類比運算引擎中執行最高AI運算性能，無需訪問儲存在外部DRAM中的權重參數，基於此，Mythic AI處理器能夠提供與GPU卡同等級的AI運算性能，同時還以單晶片機型將功耗降低多達10倍，這是一種在邊緣設備中完美的AI部署組合。

工業界首款類比矩陣處理器

另一方面，於工業應用的領域也是類比矩陣處理器能發揮所長的關鍵重點。舉例來說，類比矩陣處理器的架構允許將其運算資源分配至特定的神經網路工作負載，以運行確定性執行。因此，設備製造商能夠預計在實驗室內與將其產品於現實世界中部署時，它們都能達到相同的推理性能。邊緣設備製造商能將108片分塊分配至多個神經網路，支援即時性要求。ACE分塊支援INT4、INT8、INT16數學運算，以讓設備製造商在精度、性能和功耗方面獲得進一步的設計空間和靈活性(圖4)。

如圖5為類比矩陣處理器與NVIDIA Jetson AGX Xavier平台比較圖，類比矩陣處理器顯出擁有與其相似的AI運算性能，但有更低的功耗和面積以及更低的成本。

圖5 M1108和NVIDIA Jetson Xavier AGX
資料來源：Mythic、NVIDIA

類比運算滿足多元邊緣應用需求

類比運算在許多應用中帶來優異的表現，例如在AR/VR應用中，圖像感測器須能準確地預測正在移動中的人體部位(人體姿態檢測)，對於創造沉浸式體驗是至關重要的因素。在這種使用情況之下，AI推理解決方案必須維持每秒60幀(FPS)或16毫秒(1/60FPS)的端到端循環時間。此外，在大批量的消費者電子產品，其也需納入低功耗和成本效益的小機型形式，才能符合市場應用要求。

借助採用OpenPose Body25人體姿態檢測神經網路以從所輸入的圖像中檢測25個身體部位，已有AI類比運算的業者推出搭配的AI加速器方案，如Mythic類比矩陣處理器能夠達低至10毫秒的推理延遲。在這種性能下，類比矩陣處理器消耗約4W的功率，從而簡化了熱能管理。表1對比Mythic類比矩陣處理器與NVIDIA顯卡，兩者執行OpenPose Body25推斷的數據。

在安全應用(如影像監控)中，設備製造商在攝影機內實施了AI以檢測物體，包括人類、車輛及車牌，有時還能夠同時進行檢測。監控攝影機通常採用IEEE 802.3xx乙太網供電(PoE)為其攝影機供電。這些攝影機需於PoE的規範所定功率預算內運作。較受歡迎的PoE設備類別為類別1和2，其分別提供15W和25W的功率。這導致AI推理處理器功率預算有限，通常為3至4W。

先進的安全攝影機逐漸需要運作複雜的AI模型以提高其檢測精度，而在很多時候需要於攝影機內部署超過一個模型，其結果是在極低功耗下勉強的GPU級性能要求。在功率預算有限情況之下，AI推理處理器的運算效率將決定可用的攝影機應用。表2將比較Mythic類比矩陣處理器、Intel Movidius Myriad VPU加速器以及NVIDIA Jetson AGX Xavier SoC平台，對其運算效率各自進行了比較。

最後，在工業機器視覺方面，製造業的關鍵目標為提高生產效率，即降低生產成本。用於工業機器視覺的AI推理方案必須實現最大的吞吐量以實現最高的製造效率。製造設施通常將限制AI推理處理需用的視覺系統可用的空間、位置以及功率。AI方案必須以低功耗、小機型及低成本以滿足高性能視覺處理的挑戰性需求。為進行比較，表3顯示了多種工業機器視覺應用加速卡的指標性比較。

機器視覺系統可以分成三種類別：工業電腦(x86架構)、基於Arm嵌入式視覺系統以及基於Arm的智慧視覺攝影機。對於工業電腦機型，配有一片類比矩陣處理器M.2卡，能夠提供的運算資源比Intel價格昂貴的8片Myriad X VPU和FPGA加速卡來得更多，對於NVIDIA的GPU也是同樣的情形。

嵌入式視覺系統通常都有比較高的能效，且其採用無風扇的小機型形式將AI推理方案限制於較小的M.2卡上。比起採用2晶片Intel Movidius Myriad X VPU的M.2卡，類比運算在M.2卡上能夠在與此解決方案成本相近的情況下，以低功耗提供8倍的運算資源。從消費者電子產品到工業機器視覺產業上，將會採用AI以改善其產品和服務，同時將成本降低。創新的神經網路以及用例需求已超出了數位推理方案的能力，借助採用類比矩陣處理器，將滿足邊緣AI設備應用對高性能、低延遲、低功耗推斷處理的需求。