賽微科技 LLM AI 語音辨識 語音控制 人機介面 邊緣AI MCU

人機互動越趨自然 邊緣MCU語音辨識再進擊

2024-04-12
ChatGPT與人類相近的對話模式為人機互動帶來全新想像,推動業界積極探索大型語言模型(LLM)在不同應用的發展潛力。目前,已經可以看到高階消費性電子產品將LLM導入邊緣端,例如高通(Qualcomm)便於MWC 2024揭示在個人電腦(PC)和智慧型手機運行大型多模態模型(LMM)的成功案例。不過,若要真正打造自然的人機互動體驗,環繞我們生活周遭的智慧裝置也需要同步升級,而語音控制作為直覺簡便的互動方式,其發展受到業界關注。
iStock

AI模型邊緣化的發展方向勢在必行,賽微科技副總劉進榮表示,儘管LLM動輒數十億的模型大小及其對運算資源的極高需求,使得此類模型目前仍主要運行在雲端之上,現在也漸漸出現採用GPU、MPU提高裝置算力,以在邊緣端運行LLM的應用,例如AIPC。未來,預期比較高階的IC也將具備生成式AI等模型的運算能力,整體AI運算將從雲端邁向邊緣。

賽微科技副總劉進榮表示,展望未來,預期比較高階的IC也將具備生成式AI等模型的運算能力,整體AI運算將從雲端邁向邊緣。

在邊緣端運行AI模型,除了提高回應即時性並保障資料安全,對於智慧裝置來說,由於許多裝置採用電池供電,避免回傳雲端產生的額外能耗也是考量要點之一。此外,隨著智慧化裝置數量增加,累積下來的運算需求將十分可觀,全交由雲端運算也將為伺服器帶來壓力。因此,業者持續尋找新的AI模型及硬體方案,以透過邊緣運算實現自然的人機互動。

劉進榮認為,只要是需要提升便利性的應用,皆有機會受益於邊緣端的AI語音解決方案,例如汽車內部和導航系統結合的語音控制、智慧家庭的智慧音箱和燈光控制,或是在公共場所協助年長者或視障人士使用公共設施的語音操控系統。面對人機互動在各種應用的龐大商機,賽微科技也推出適合不同邊緣裝置的語音解決方案,進一步拓展自然語音人機互動的應用範疇。

語音控制的模型大小和精準度具有權衡(Tradeoff)關係,劉進榮說明,以賽微科技的模型來說,若要將接收到的語音轉為文字(Speech-to-Text, STT),根據前後文計算出符合使用者期待的精準回應,需要30~50MB的儲存空間和RAM,並且將用到Cortex-A級別的CPU;由於多數MCU並不具備前述性能,賽微科技也推出以連續關鍵字偵測取代STT的方案,在盡可能確保自然互動的前提下,將模型對RAM的需求降至180~260KB,可運行於採用Cortex-M系列的硬體平台。

雖然目前智慧裝置的自然人機互動仍處於早期發展階段,但隨著連續關鍵字偵測等技術將自然語音互動功能帶進Cortex-M85及以下的MCU產品,同時硬體單元出現更多針對AI而誕生的方案,例如Arm的Helium加速和近期可支援Transformer架構的NPU IP,預期語音互動將於智慧裝置逐步普及,並不斷提高精準度及吵雜環境中的辨識穩定性,朝自然人機互動的願景邁進。

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!