貿澤電子 語音控制 D類放大器 物聯網 Alexa Google Assistant

語音指令輕鬆控制 降低功耗/離線操控技術持續演進(1)

2023-05-30
「Ok Google」已經成為簡單方便的控制指令,語音控制能夠減少觸控螢幕,讓裝置更輕便省電,而D類音訊放大器、離線語音控制等相關技術發展更進一步推動語音控制裝置發展,可望成為未來智慧裝置的重要走向。
Pixabay

語音是人們表達思想和願望的一種有效方式。在工業年代之前,人類發現動物可以被訓練用來辨識和回應一些基本命令,以便讓它們執行某些任務。

下一個合乎邏輯的進展應該是開發一種使用語音訊號與機器進行交互,並指揮機器行動的方法。近年來,以語音和音訊成為電子裝置越來越受歡迎的控制介面,其技術也正持續發展,以滿足使用者期望和新應用要求。

本文將解釋採用語音和音訊訊號控制電子裝置和機器的益處,並回顧如何實現這種控制。此外,文中也將展示這種控制介面現在能夠如何嵌入至離線裝置,以及如何大幅度改進音訊控制體驗。

使用語音控制電子裝置

採用語音控制實現與機器交互有幾個明顯好處:

.對人類來說,語音是一種直觀的交流形式,口頭傳達命令使控制更容易。

.即便一個人的眼睛和手正忙於其它事情,依舊能夠實現語音交流。即時語音控制也十分方便,例如在駕車等某些應用場景下,試圖透過觸摸來控制車內其它裝置是違法的。

.語音是控制機器的一種有效媒介,採用語音控制機器,可以在不需要複雜命令情況下進行監聽和回應。

.在裝置中整合語音控制能夠最大限度減少許多裝置對觸控螢幕的需求,對於處於遠端或可攜式電池供電裝置來說尤其重要。在這些裝置中,減小尺寸和降低功耗是常見的設計挑戰。對於具有多個使用者的應用來說,去掉觸控螢幕也更加符合衛生要求。

.如圖1所示,對於某些殘疾人來說,觸控螢幕可能不是最適合的選項,這時語音可以成為一種有效的控制工具。透過語音與機器進行交互的方式,可用於執行諸如開門之類的任務,或者透過遠端通訊傳遞個人最近健康狀況。

圖1 聲控機器人助手 (圖片來源:PaO_STUDIO, Shutterstock)

語音控制裝置音訊前端(AFE)包括麥克風陣列和訊號處理部分。AFE能夠處理來自多通道麥克風陣列之訊號,以消除任何背景雜訊或裝置本身回放(Playback)產生的干擾。接著,該訊號被發送至「喚醒詞(Wake-word)」檢測引擎,例如藉由在裝置上預先進行程式設計,讓其可辨識出「Alexa」或「OK Google」等詞彙。透過使用多種訊號處理演算法,能夠消除多種不需要干擾訊號。

語音控制解決方案主要組成部分包括:

.麥克風陣列:語音啟動系統需要一個或多個麥克風來捕獲音訊控制訊號。在選擇麥克風陣列時,重要考量因素包括尺寸、成本、性能和堅固性。組合來自多麥克風陣列的多個訊號有助於改善音訊訊號鏈的訊噪比(SNR)。

.到達方向(DoA)檢測器:用於確定使用者相對於被控裝置的位置,以便麥克風陣列可以針對語音方向調整波束。

.波束成形器:其接受來自DoA檢測器的聲音訊號,同時去除來自其他方向的雜訊。波束成形器的性能取決於麥克風陣列幾何形狀、SNR以及波束寬度和背景雜訊水準等。

.聲學回音消除器(AEC):可去除裝置揚聲器本身的回放訊號(例如,在裝置揚聲器播放音樂的時候收到語音命令),以便清楚接收使用者的語音命令。

.適應性干擾消除器(AIC):能夠消除來自其他音源的外部雜訊,這些雜訊很難使用傳統波束成形器消除,例如其他設備產生的較強雜訊。

.喚醒詞檢測器:將來自AFE且經過處理的語音訊號與喚醒詞庫進行比較,例如透過「Hey Google」喚醒裝置,便是使用喚醒詞檢測演算法,這種演算法通常是機器學習模型的一部分。較大的模型準確度更高,例如,1MB訓練模型比64kB模型更準確,但處理強度也更高。採用大型喚醒詞模型能夠準確檢測喚醒詞,減少錯誤警報(False Alarm)。

語音指令輕鬆控制 降低功耗/離線操控技術持續演進(1)

語音指令輕鬆控制 降低功耗/離線操控技術持續演進(2)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!