當消費者在線上訂購產品時,自動化可為程序中的每個步驟提高效率,不管是製造原料、提高倉庫生產力還是促進宅配,有時只需要幾小時即可送達客戶家中。若想在自動化方面持續進步,將需要更好的機器感知和智慧和更少錯誤,此時只要將人工智慧(AI)引進邊緣裝置即可達成此目標。
若要打造更快速、更聰明且更準確的系統,需要從更多感測器獲得更多資料,並需增加處理能力。但資料及運算增加也會對系統性能及其功耗和成本要求帶來挑戰。若想實現系統最佳化與縮短開發週期時間,必須以較實際的方式來設計邊緣AI系統。
邊緣AI以本機裝置處理AI演算法取代雲端處理,改變以深度神經網路(DNN)為主要演算法元件的工業和汽車應用。邊緣AI應用需要高速與低功耗處理,以及應用及其工作特有的進階整合,才能在尺寸受限、功率和散熱受限且成本受限的環境中有效運作。例如使用視覺輸入的邊緣AI系統可在生產線上以單一攝影機進行品質控制,或以多部攝影機支援汽車或行動機器人的功能安全。
邊緣AI系統可協助改善倉庫與工廠效率,讓城市、建築與農業更安全、更有效率,並讓居家與零售環境更加智慧化。讓我們來看看幾個需要高效邊緣AI處理的系統:
先進駕駛輔助系統(ADAS)。ADAS技術可讓駕駛體驗更方便、更輕鬆且更安全。多數ADAS功能都是視覺型系統,從多部攝影機感測器取得高解析度輸入,並使用深度學習與電腦視覺演算法來解讀ADAS技術,以提供車輛周圍環境的資訊洞見,讓駕駛體驗更方便、更輕鬆且更安全。多數ADAS功能都是視覺型系統,從多部攝影機感測器取得高解析度輸入,並使用深度學習與電腦視覺演算法來解讀ADAS技術。
自主行動機器人和無人機。就市售可用機器人來說,晶片系統(SoC)必須以高速與低功耗處理複雜的感知與導航堆疊,並需具備最佳系統成本。SoC也必須為影像消除彎曲、立體聲深度評估、調整、影像金字塔生成與深度學習等運算密集工作進行卸載,以實現最大系統效率。
智慧型購物車。智慧型購物車可計算購物車內物品的訂單總計、建議購物清單品項,並讓消費者能對購物車中的雜貨進行結帳,讓客戶享有更客製化的購物體驗,並可跳過結帳時的排隊人龍。大多數智慧型購物車都有多個視覺感測器以攝影機自動偵測物品,電腦視覺智慧型購物車則可計算放入購物車品項的訂單總計、建議購物清單項目,並讓消費者能對購物車中的雜貨進行結帳,讓客戶享有更客製化的購物體驗,並可跳過結帳時的排隊人龍。
邊緣AI運算盒。邊緣AI運算盒是運用在零售自動化、工廠監控和建築監控系統的攝影機系統智慧延伸。儘管有尺寸限制、功率和散熱方面的挑戰,高傳輸速率AI仍可讓運算盒為更多攝影機執行智慧處理。
機械視覺攝影機。適用光學字元辨識、物件識別、瑕疵偵測和機械手臂導引的機械視覺攝影機運用嵌入式AI技術,進一步簡化產品開發並提升系統準確度。
在高效邊緣AI系統中,DNN無法自行運作。高效AI系統需要複雜的視覺管線,通常包含單一或多個攝影機影像處理、傳統電腦視覺,甚至需要多個DNN。有些應用可能還需要影片編碼器和解碼器。為處理所有輸入,系統需要高性能運算。此外,系統可能需要強化安全性和功能安全,以增加系統複雜性和成本。
高效邊緣AI系統應針對下列項目進行最佳化:
性能。嵌入式處理器必須能夠提供系統所需的速度、延遲和準確度,而且即使在嚴苛的環境中也能可靠地運作。
設計限制。嵌入式處理器必須在有電源和散熱限制的設計中運作,包括無風扇設計、具有被動冷卻功能或需要以電池供電方式長時間運作的設計。處理器也必須符合尺寸與重量規格,以符合實體限制。
成本。實現高性能且具成本效益的處理能力,進而獲得最低可物料清單(BOM)成本。
若要打造高效邊緣AI系統,設計人員應考慮哪些架構和核心最適合完成系統所需工作。嵌入式處理器設計選項有同質架構和異質架構兩種類型,通常整合專用處理功能來處理特定工作。應根據所需的核心類型,評估最符合邊緣AI系統需求的架構。
邊緣AI系統的目標是在最適合的核心上執行AI、視覺、視訊和其他工作,讓系統在每瓦性能、每秒每TOPS性能、成本、尺寸和重量上都能提供最佳效果。擁有適合任務適合核心的異質架構,對邊緣AI系統而言至關重要。
並非所有具異質架構的處理器都採用相同設計。矽晶廠商必須選擇適當的處理功能或程序,並決定要對硬體中這些功能進行加速,或採用可配置或可編程方式處理。廠商也必須注意如何將核心整合到系統中。匯流排架構和記憶體子系統必須能夠在核心間有效率地移動資料。
如果SoC的工作加速核心類型不正確,或未有效率管理的核心數量過多,或匯流排基礎架構和記憶體子系統效率不佳,視覺邊緣AI系統就無法有效發揮作用。
邊緣AI系統中可能存在的核心類型包括:
CPU。中央處理單元(CPU)是可處理循序工作負載的通用處理單元。具備優異的編程靈活性,並可從現有的大型代碼庫中獲益。多數邊緣AI系統通常有兩到八個CPU核心,可用來管理平台和功能豐富的應用。但僅有CPU的系統不適合像素級成像、電腦視覺和卷積神經網路(CNN)處理等高度專業化的任務。CPU的功耗也很高,但傳輸量是各種核心類型中最低的。若將單核心CPU系統搭配AI加速和影像處理等專用硬體區塊,即可滿足低成本應用的功率預算需求。
GPU。圖形處理單元(GPU)擁有成千上百個小型核心,適合平行處理工作。GPU原本是為了執行一系列圖形操作而設計,在深度學習應用中十分常見,對DNN訓練特別實用。其中一個主要缺點是由於核心數高,GPU會消耗大量功率,晶片內建記憶體需求也較高。
DSP。數位訊號處理器(DSP)是一款具電源效率的專用核心,通常專為解決多個複雜數學問題而設計。DSP可以低功耗處理真實世界視覺、音訊、語音、雷達和聲納感測器的即時資料。DSP可幫助將每個時脈週期處理最大化。但在編程上並不容易,需要熟悉DSP硬體的功能、編程環境及DSP軟體最佳化,才能達到最佳性能。
ASIC。應用特定積體電路(ASIC)與加速器可以最低功耗為系統應用提供最大性能。若了解欲加速功能的核心,此方式即是熱門選擇。例如CNN的核心運算一向涉及矩陣乘法。針對傳統電腦視覺工作,專用硬體加速器可運算影像縮放、鏡頭失真校正和雜訊濾波等作業。
FPGA。現場可編程邏輯閘陣列(FPGA)是一種積體電路,可針對特定應用重新編程並鎖定硬體區塊。此方式的功耗比GPU和CPU低,但使用的功率比ASIC多。但其硬體編程較不方便,且需對硬體描述器語言(如Verilog或超高速IC硬體描述語言)的專業知識。
德州儀器(TI)的視覺處理器產品組合專為以尺寸與電源限制為主要設計挑戰的應用實現高效率、可擴充AI處理而打造。
這些處理器包含AM6xA與TDA4處理器系列,具備含大量整合視覺系統的SoC架構,其中包括ArmR CortexR-A72或Cortex-A53 CPU、內部記憶體、介面和硬體加速器,可以每秒2至32兆次運算(TOPS)的AI處理能力進行深度學習。
AM6xA系列使用Arm Cortex-A MPU,將深度學習推論、成像、視覺、視訊與圖形處理等運算密集工作卸載到專用硬體加速器和可編程核心。在處理器中整合
進階系統元件,可幫助邊緣AI設計人員簡化系統物料清單。此處理器產品組合包括以一至兩部攝影機進行低功耗應用的AM62A處理器可擴充處理選項,到AM68A(最多八部攝影機)和AM69A(最多12部攝影機)。
CPU和GPU雖然適合其他工作,但不是加快深度學習工作的最佳核心。CPU有輸送量限制且需高功耗;GPU則是所有核心中消耗最多功率者,且記憶體體積龐大。
TI視覺AI處理器整合深度學習加速器,其中包含栓接至可編程C71 DSP,位於ASIC中的矩陣乘法加速器(MMA)。MMA可實現高性能(每週期累積4K 8位元固定乘數)和低功率張量加速,C71 DSP則可加速向量和分頻器運算,並管理MMA。
結合MMA與C71 DSP即可得到實現業界最高性能(每秒推論)與功率(每瓦推論)的加速器。除了應用在深度學習外,核心也可以低功耗處理其他運算密集工作。
智慧型記憶體架構可提高加速器的利用率。加速器有自己的記憶體子系統,適合資料傳輸的專用4D可編程直接記憶體存取(DMA)引擎,以及可將資料直接從外部記憶體傳送至C71核心和MMA功能單元並旁路快取的專用串流硬體。圖磚和超圖磚功能可減少來往外部記憶體間的資料傳輸。
視覺型邊緣AI系統通常包含單一或多攝影機影像處理及傳統電腦視覺工作。在CPU或GPU中,這些工作會消耗大量功率,並有傳輸量限制。
此等級的邊緣AI處理器SoC可加快硬體中運算密集的低階暴力像素處理視覺工作,例如ISP、鏡頭失真修正、多重調整及視覺處理加速器核心中的雙向雜訊濾波。深度和運動感知加速器核心可加快立體深度評估與密集光流,有助於增強對環境的認知。
在硬體中加快這些工作可降低功耗並縮小體積。這些工作雖然在硬體中加速進行,但其可配置性透過加速器功能來滿足您的系統需求,為您提供更多靈活性。
此類整合與加速可省去對自訂ISP或FPGA的需求,並釋出CPU Mega Hertz以處理硬體中運算密集的成像及視覺工作。例如單一視覺處理加速器核心可在30fps下處理達八個2百萬像素或兩個8百萬像素的攝影機。深度和運動處理加速核心可以每秒8千萬像素進行立體深度評估,並以每秒1億5千萬像素進行動作向量。
監控處理器的資料移動和記憶體架構,避免同時執行多個核心時發生各種核心阻斷和延遲,可幫助發揮整體系統效能。
TI視覺AI處理器具備與非阻斷架構與大型內部記憶體的高頻寬匯流排互連。多個專用可編程DMA引擎可在極高速度下將資料移動自動化。此設計可實現硬體加速器的高使用率,並可大幅節省雙數據速率(DDR)頻寬。減少DDR執行個體數量可降低DDR存取所用的功率量,進而降低整體系統功耗。
TI視覺SoC中的進階整合系統元件與功能可為多種邊緣AI應用降低系統BOM成本:
ISP。整合式ISP核心可省去對外部ISP或FPGA設計的需求。機械視覺、智慧型購物車、機器人和ADAS等所有單一和多攝影機AI應用都可因此整合獲益。
安全。整合式汽車安全完整性等級(ASIL)D與SIL 3相容安全微控制器(MCU)與Cortex-R5核心,可幫助在沒有外部安全MCU的情況下實現安全目標。此架構的其他處理作業也符合ASIL B/SIL 2規範,故可實現ADAS、機器人、建築與農業電子控制單元應用。
乙太網路和PCIe交換器。整合式乙太網路與PCIe交換器可省去對外部交換器元件的需求。
保全。整合式安全加速器可提供最先進的安全支援。
DDR記憶體。相較於一般記憶體架構,內嵌式錯誤修正程式碼保護與較少DDR記憶體執行個體(透過智慧型記憶體)可節省成本。
TI的全方位軟體環境,讓使用者無需學習TI硬體或專有軟體,即可部署異質架構並獲得矽性能的最大潛能。透過生產品質驅動器萃取硬體加速器,並利用業界標準應用程式編程介面(API)為應用開發MPU上的高階作業系統提供介面,以實現更快速的軟體開發。TI的低階軟體可自動加速成像、視覺、深度學習與多媒體工作至正確的硬體加速器,讓高效能應用程式編程變得更簡單。
異構架構在應用程序中的應用不斷增加。TI的視覺AI處理器具備加速深度學習、視覺與視訊處理,以及專用系統整合與進階元件整合,讓市售可用邊緣AI系統能針對性能、電源、尺寸、重量和系統成本進行最佳化。TI的邊緣AI軟體開發環境以開放原始碼業界標準API為基礎,並具備硬體加速器的自動加速功能,以加快邊緣AI應用開發。
AI是快速演進的技術,可促進邊緣AI應用各方面創新。此技術也讓需要更高運算需求的應用不斷突破。透過執行嵌入式處理器在低功耗與低系統成本下啟用邊緣AI技術,可為嵌入式應用開創無限可能。