MEMS

高品質收音解放應用桎梏 MEMS麥克風挑創新大梁

語音將在將來取代按鈕,成為與周遭環境進行直覺互動的一種方式。語音控制如今已經超越電話和錄音機等傳統音訊裝置,整合到數十億部其他裝置上。MEMS麥克風等感測器是人機通訊趨勢的關鍵推動力。

 

SAR Insight發布的報告顯示[1],2023年前,近60億部設備預計將有語音介面的支援功能,如語音觸發條件、語音生物識別,以及內嵌數位助理。目前的新冠病毒肺炎疫情危機突顯了高性能麥克風,在開發精密解決方案中可以發揮關鍵作用的兩個領域,包含具有高品質音訊的線上會議,以及健康狀況追蹤。

由於新冠病毒大流行,許多人在家工作。因此,視訊會議已成為員工與同事溝通的主要方式。在此情況下,先進音訊功能可縮短與朋友和同事之間的感知距離。全世界的團隊都在使用先進的視訊會議系統(圖1)來更有效地溝通,這在無法面對面時尤其重要。

圖1  視訊會議受益於高性能麥克風帶來的音訊品質提升。

高品質的視訊和音訊對於確保高效且便捷的線上會議至關重要。如果回想上一次Skype或Zoom視訊通話,哪件事比較重要,看到同事,還是聽到同事講話?哪一種品質不佳的情況比較惱人:影像模糊,還是語音斷斷續續?通常只有在音質不佳時,音訊才會受到關注。一旦我們習慣了高品質,就很難接受次等品質。這裡的主要目標是盡可能自然再現每位說話者的聲音。

新型的高性能麥克風為更智慧的視訊通話和許多其他功能作好了準備。智慧攝影機可以平移和放大人物和物體,並且能跟上動作,也可以自動軸轉,讓每個人都入鏡。智慧音效可強化通話對象的聲音,同時將背景噪音降至最低。為了提高性能,高性能MEMS麥克風逐漸開始結合先進的音訊處理功能(例如盲訊號分離或波束成形),以定位使用者的位置並去除背景聲音。當今的視訊會議系統是完全整合的單元,包括編解碼器、顯示器、攝影機麥克風及喇叭。

高品質音訊需求日益成長

高品質的視訊會議不再局限於商業使用。與親友通訊的需求(無論是「虛擬歡樂時光」或數位復活節慶祝活動)讓許多新工具問世。結合視訊和音訊功能的新型消費裝置(如Facebook的Portal),都受益於可提供高品質音訊體驗的高性能麥克風。其他新的應用程式也在開發中。例如,如今已經有可以與醫院或養老院住民通訊的機器人,更優質的感測器將使這些互動變得越來越自然。近年來,真無線立體聲(TWS)耳機已成為智慧耳機領域中的一類新裝置。TWS耳機與彼此或音訊源之間不使用線路連接,而是使用藍牙連線。就像較大的頭戴式耳機一樣,TWS耳機配備了一系列音訊功能,其中麥克風再度占了關鍵地位。

例如,主動降噪(ANC)最初是為了減少飛行中發動機的靜態噪聲而開發。如今,更強大的演算法和更好的麥克風使ANC跨越了飛行領域,讓使用者能夠去除辦公室或家裡的背景噪音和聲音。它甚至是當今TWS耳機中的一項功能。不論是在家中還是在嘈雜的環境中,使用麥克風陣列進行波束成形,都可以提供清晰的對話品質。 耳機的設計原本就能將配戴者與外界隔離。儘管這可以為討厭的聲音提供寶貴的被動隔離,但並不一定很方便。在許多情況下,人們也想瞭解周遭情況而不必取下裝置:例如聽取車站廣播、在公園跑步時聽到周圍的聲音,或與他人交談。現在業者已開發出外部感知聆聽模式,讓使用者能夠藉由告訴高性能麥克風希望擷取多少外部聲音環境,建立混合的增強音訊體驗。聲音在進入耳朵之前就已收集,並經過即時修改和播放,營造出清楚、增強的聆聽體驗。一些製造商提供智慧功能,例如,在呼叫配戴者的名字時自動啟用外部感知聆聽模式。將來,麥克風也許能在偵測到來車或在機場進行登機廣播時,自動啟用這項功能。

外部感知聆聽模式是模擬人耳的第一步,但使用360°錄音可以使體驗更進一步。這項技術涉及為耳機配備低底噪的麥克風。然後,配戴者可以使用這些耳機在例如音樂會以360°錄音。這將建立一種身臨其境的體驗,可在之後重播和重現,或與朋友共享。聽眾會感覺自己真的參加了音樂會;沒有任何嘶嘶聲,錄音跟現場毫無差別。

對於提供此處提到之所有應用需要的高品質輸入,麥克風至關重要,才能提供出色的使用者體驗和優異的音訊品質(圖2)。具有同級最佳音訊品質規格的MEMS麥克風可以提供所需的性能。

圖2  高性能麥克風在各種語音控制功能和應用中至關重要。

另一方面,在健康狀況追蹤部份,雖說使用光學感測器監測生命徵象是一項成熟的技術。然而在某些情況下,空間條件限制了現有感測器的使用。節省空間的一種方法是結合多種感測器,例如打造一款可以監測體溫的麥克風。

健康狀況追蹤

健康狀況追蹤是行動裝置不斷成長的市場。隨著使用者更加注重健康,體徵追蹤應用將越來越有吸引力。配備ANC的高性能麥克風可以與體溫感測器結合使用,為追蹤健康狀況和偵測高溫提供實用的解決方案。能夠追蹤配戴者體溫並在發燒時發出警告的TWS耳機可令人安心,使用者可以放心,他們的健康狀況受到監測。儘早發現發燒代表可以迅速開始治療。記錄患者的體溫也有助於診斷和治療。據了解,已有相關業者,如英飛凌(Infineon)已開發出具有I2C溫度感測器的ASIC。將其與MEMS結合使用,可生產出具有溫度感測功能的高性能麥克風,此解決方案結合兩個感測器來節省空間。

創新應用範例:FLUSENSE

麻省大學阿默斯特分校在美國發明的創新裝置展現了在醫療追蹤中使用麥克風的可能性(https://www.umass.edu/gateway/feature/flusense)。Flu-Sense裝置分析咳嗽並偵測人群規模,由三個元件組成:攝影機、麥克風和電腦(圖3)。開發人員面臨的挑戰是找到一種早期方法來預測和監測類流感疾病的爆發,這種疾病的特徵是發燒和咳嗽等關鍵症狀,而將實驗室確認的病例輸入流行病模型需要時間。

圖3  FluSense是監測流感趨勢的創新概念,它結合了麥克風陣列和攝影機以分析咳嗽和患者人數。
資料來源:麻省大學

FluSense解決方案以一種低調被動的方式擷取人群的非語音身體聲音(例如咳嗽),並將此資料與使用醫院候診室拍攝之熱影像估算的患者數量相結合。這些要素共同提供了針對特定人口之流行病學趨勢的關鍵預測資訊。FluSense平台使用Raspberry Pi和類神經運算引擎(Intel Movidius)在邊緣處理低成本的麥克風陣列和熱成像資料,所儲存的資訊均無法識別出個人。

此解決方案可以執行以深度學習為基礎的聲學模型和演算法,以根據熱成像即時估算人群規模。此系統偵測咳嗽的準確性高達87%。開發人員現在的目標是在非臨床環境(例如飯店、大眾運輸和教室)中驗證模型。在這種情況下,高性能麥克風可能會進一步提高偵測率。

麥克風性能

深入探討麥克風的性能,有幾個因素需要考慮:高性能麥克風是什麼?哪些麥克風參數很重要,哪些參數與不同使用案例相關?每個麥克風都能夠記錄一定範圍的聲壓位準(SPL),這就是麥克風的動態範圍。動態範圍的上限定義為聲學過載點(AOP),下限由麥克風的自有噪音定義。麥克風只能擷取SPL高於其自有噪音的訊號。此較低的臨界值稱為麥克風的「底噪」,它定義了訊噪比(SNR)。麥克風無法錄製底噪以下的任何聲音。例如,底噪為30dB SPL的麥克風無法擷取25dB SPL的人類耳語。因此,具有較高SNR(即較低底噪)的麥克風非常適合擷取低振幅的音訊訊號。

SNR和AOP是評估單一麥克風性能的重要參數。但是目前大多數裝置都在陣列中使用多個麥克風。例如智慧型手機具有三個或四個麥克風,而TWS最多包含六個麥克風(每耳三個)。會議系統中的數量甚至更多。

簡而言之,麥克風陣列可以包含2~32個麥克風。麥克風陣列的性能取決於個別麥克風特性和組合陣列特性的組合。個別特性包括AOP和SNR,而組合陣列特性包括靈敏度相符(是否所有麥克風具有幾乎相同的靈敏度)和相位相符(是否所有麥克風具有相似的相位回應)等因素。這些功能結合在一起可以改善整體音訊擷取,並確保陣列產生更高品質的聲音,並具有較低的自有噪音:改善的程度相當於以正常解析度與Full HD畫質方式觀看電影的差別。

高品質音訊原始資料的重要性

Siri和Alexa等虛擬助理是智慧音箱中的語音使用者介面(VUI)。VUI包含一組麥克風,這些麥克風用於擷取更高品質的原始音訊資料作為應用處理器的輸入。從高SNR麥克風輸入的原始資料包含更多資訊,而自有噪音更少,使得邊緣處理器和雲端中的後續處理更加高效。更好的原始音訊資料輸入能達成更高的命中率、更低的誤接受率,因而達成更低的系統喚醒錯誤率。簡而言之,在智慧音箱中配備更好的麥克風,代表日後使用者與系統互動時,就不用重述指示。

通常每個聲學參數都有其重要性,並且可以提供部分特定的使用案例(圖4)。例如,高訊噪比對於在智慧喇叭、視訊會議裝置和類似的遠場應用中擷取遠處或低聲的聲音非常重要。英飛凌進行的一項研究顯示,高訊噪比的麥克風可以擷取比標準麥克風多40%的耳語音訊。高AOP是麥克風靠近喇叭放置時,無失真音樂會音樂錄製和回音消除的關鍵。良好的相位相符對於麥克風陣列和提高波束成形演算法的效能很重要。換句話說,如果要打造必須執行波束成形、從遠處擷取音訊並消除回音的系統,則需要具有上述所有功能的麥克風陣列。

圖4  高性能麥克風具有許多不同的參數。

除了提供上述使用案例的所有音訊參數外,麥克風也應具有防水防塵功能。它們也必須在溫度、濕度、壓力和其他環境因素的變化下,在其規格範圍內運作。在理想的世界中,麥克風根本不會產生任何自有噪音,而是會模仿底噪極低的人耳。然而現實中物理特性定義了技術限制。MEMS麥克風系統中通常有四個噪音來源:MEMS本身、ASIC、封裝及其音源插孔。MEMS元件是智慧型手機中尖端麥克風的最大噪音來源。英飛凌改進了MEMS元件,甚至將MEMS麥克風性能的極限推到了目前同類最佳的雙背板技術之上。英飛凌在此方面的努力最終推動了創新、獲專利的密封雙膜(SDM) MEMS技術的發展。

MEMS麥克風內部構造

在解釋新型SDM的運作原理之前,必須快速瀏覽一下MEMS麥克風的內部,並瞭解不同元件必須克服哪些挑戰,才能實現最佳性能。典型設計結合MEMS感測器和ASIC。MEMS麥克風擷取聲壓變化作為電訊號。然後,ASIC在輸出端以差分類比或數位格式處理這些訊號。處理大音量壓力水準的第一個挑戰是膜的大幅度機械運動,當膜移動到極端時將導致失真。第二個挑戰是設計ASIC,其必須足以處理MEMS元件產生的大訊號。由於音訊處理演算法採用線性訊號,任何高於1%的失真都會導致先進音訊處理所倚賴的音訊品質顯著降低。

方法之一是採用MEMS感測器元件,將移動的膜放置在兩個電容器極板(雙背板或DBP)之間。DBP MEMS麥克風由於其對稱結構而大幅減少失真。透過移動夾住電容器極板的兩個膜(雙膜)以實現相同的效果。

密封雙膜技術

相較於單背板的MEMS麥克風,引進DBP技術讓線性度規格顯著提升。

下一個演進階段是具有SDM的電容式MEMS麥克風。電容區域的密封可實現幾乎無雜訊的音訊擷取,讓SNR從70dB進一步增加到75dB(圖5)。第一批原型產品已實現75dB的SNR,135dB SPL的AOP。首批的新一代裝置已採用上述麥克風,以便提供上述先進音訊功能。

圖5  具有穩健密封雙膜技術的MEMS麥克風樹立了SNR和AOP基準。

隨著音訊應用和功能增加,麥克風技術變得越來越重要。對於各種應用,有不同的因素必須考量,包括音效品質、防水防塵到大小和成本。英飛凌提供XENSIV MEMS麥克風產品組合,涵蓋低成本型號到提供最高性能的產品。具有單背板的裝置堅固耐用且經濟實惠,但聲學性能有限,而具有DBP的MEMS裝置可提供更佳的聲學性能。SDM技術結合了最高的聲學性能(訊噪比高達75dB)和高耐用性(IP57)。具有同級最佳SNR的SDM MEMS麥克風具有防塵和防水功能,是高品質視訊/音訊會議和醫療追蹤等新興應用的理想選擇。

(本文作者Julian Kornprobst為英飛凌科技產品行銷專員、Somu Goswami為英飛凌科技技術行銷專員)

 

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!