對話式人工智慧(Conversational AI)帶來人機互動新可能,聲控應用也逐漸普及於日常生活中。為了提供理想的使用者體驗,相關裝置的語音辨識能力至關重要。具有高訊噪比(SNR)的MEMS麥克風能夠精準捕捉目標訊號,將在蓬勃發展的聲控應用中扮演重要角色。
對話式AI改變了人們與科技互動的方式,聲控應用也逐漸普及於日常生活。然而,要提供理想的語音應用使用者體驗,最大的挑戰在於如何準確擷取並處理語音,在吵雜的環境中更是如此。在準確進行語音辨識、改善音訊品質方面,具有高訊噪比(SNR)的高品質微機電系統(MEMS)麥克風重要性與日俱增。
本文將說明高SNR MEMS麥克風在對話式AI應用所扮演的角色,並以英飛凌(Infineon)XENSIV MEMS麥克風為例,說明高品質麥克風如何成為內建對話式AI裝置的最佳夥伴。
高SNR MEMS麥克風的角色
高SNR MEMS麥克風能夠擷取清晰準確的音訊,同時大幅減少失真。這類麥克風的評估標準為訊噪比(Signal to Noise Ratio, SNR),也就是目標訊號以及麥克風自有噪音的比例。SNR越高,代表MEMS麥克風能夠更準確地擷取目標訊號,例如使用者對智慧喇叭發出指令時的聲音。因此,高SNR MEMS麥克風是擷取音訊的理想解決方案。
除了準確擷取音訊,高SNR MEMS麥克風也適用於遠場語音拾取(Far-field Voice Pickup),使用者可在遠處或吵雜的環境中向語音助理發出指令。此外,此類麥克風還能從使用者的語音中擷取重要的語境提示,例如語氣和強調;語音助理可藉此提供更準確的個人化回應,改善整體使用者體驗。
MEMS麥克風/對話式AI強強聯手
對話式AI技術日益進步,而採用這項技術的裝置與應用,也改變了我們與數位世界的互動方式。對話式AI的應用範例包括智慧喇叭、汽車聲控系統、智慧家庭系統及智慧會議室系統(圖1)。隨著對話式AI持續發展、效率逐步提升,預計在2023年至2030年間,語音助理市場的年複合成長率(CAGR)將達到33.5%。
儘管語音辨識與自然語言處理技術都有長足進步,實際採用聲控助理時,仍會面臨各種挑戰。資料隱私便是其中一項主要挑戰,使用者會擔心儲存在雲端的語音資料是否安全,以及裝置是否會秘密記錄私人對話。此外,聲控助理可能無法時時滿足使用者的需求,尤其是在吵雜環境中,當聲控助理無法理解語音指令時,容易令使用者感到挫折。
高品質的矽麥克風能夠精確擷取音訊,同時確保對話式 AI 系統的音訊輸入更加清晰,將可協助聲控助理應對上述挑戰。例如,英飛凌XENSIV MEMS麥克風(圖2)便可在高聲壓位準下,依舊實現高SNR與低失真,並且具備緊密的元件間相位和靈敏度匹配、平坦的頻率響應與低頻衰減,以及超低群延遲(Group Delay)。基於上述性能,此類MEMS麥克風可說是內建對話式AI裝置的理想搭檔。
未來語音技術發展值得期待
藉由整合高SNR MEMS麥克風與聲控應用,能夠大大提升語音辨識的準確度,並實現更流暢的人機互動。英飛凌XENSIV MEMS 麥克風即使在吵雜環境也能展現最佳效能,擷取清晰音訊,協助使用者更輕鬆地與虛擬助理互動,改善使用者體驗。儘管目前尚有多項待解決的挑戰,隨著高SNR MEMS麥克風與對話式AI技術持續進步,仍可期待透過軟硬體整合,為未來的語音技術帶來全新可能。
(本文由英飛凌提供)