提升行動通訊語音品質
遠場雜訊抑制麥克風陣列出線

2009-08-18
隨著可攜式語音通訊裝置的普及,消費者在吵雜環境中使用它們的機會也愈來愈高,例如是機場、交通繁忙的道路、人聲鼎沸的酒吧及俱樂部等人群聚集之處。在這種吵雜環境下,通話的雙方往往難以清楚收聽到對方的說話。
此外,不少通訊系統都是採用電腦的語音辨識、指令及回應系統,這些系統都很容易受到背景雜訊的干擾影響,如果雜訊過大就容易導致這類型通訊系統出現很大的誤差。因此有必要改善語音訊號對背景聲音雜訊的比率,以達到清晰的語音通訊,而採用麥克風陣列設計便可達到此一目的。  

麥克風陣列是指將多個麥克風依據特別的模式排列,以產生一個合成的輸出訊號或是多組訊號。在麥克風陣列中,每一個麥克風都是一個感測器或一個空間窗口(Spatial Window),用於接收(空間取樣)輸入訊號。陣列的整體回應是陣列中每個麥克風個別回應的疊合(Superposition),而且與所採用的演算法完全一致。  

麥克風陣列設計考量  

陣列中多組麥克風訊號所採用的「陣列處理」演算法是根據幾個因素來決定,包括麥克風的間隔距離及排列模式、麥克風的數量及類型,以及聲音的擴散原理。 麥克風陣列主要的功用在於消除周遭雜訊以強化語音輸入訊號,進而改善聽覺輔助系統、語音辨識設備和電訊產品的語音品質。此外,麥克風陣列也可用於方向定位,並且計算音源與麥克風陣列之間的距離。  

麥克風陣列在語音通訊系統中的主要功用是提供高品質的語音訊號,同時降低現場及周圍環境的雜訊。這裡所指的語音訊號品質是指最終的語音訊號非常自然和真實,當中不存在任何的人工噪音(例如是爆音與滴答聲)、非正常靜音、頻率失真、回音或因加強語音訊號處理方法所引起的不定期訊號變化。  

由上可知,訊號/背景雜訊比改進(SNRI)的量測並不是選擇背景雜訊抑制解決方案時的唯一考量,而必須同時考量其他的問題。  

音源距離影響聲音壓力位準  

聲音壓力位準(SPL)會隨著音源距離「x」的增加而減少。圖1和圖2分別表示出SPL的衰減,該數值以分貝(dB)為單位,並且是音源距離「x」的一個函數。以說話為範例,當人們說話的時候,一般以距離嘴唇約1公分的位置作為基準參考點,並將該位置的SPL定義為96dB。在這條件下,SPL的方程式可以dB=96-20log(x/0.01)描述,或表示成dB=96+20log(0.01/x)。  

方程式中的(0.01/x或x/0.01)數值是0.01公尺的參考值距離,也就是以公尺為單位時相對於音源的距離「x」(1公分)。  

當距離「x」增加一倍時,兩條曲線的SPL都下降了6dB。圖1所示為距離音源200公分,而圖2所示為距離音源50公分的局部放大圖,從圖中可以清楚發現聲音壓力會因音源距離的增加而急遽下降,即使距離很短情況也一樣。例如,當與音源的距離為10公分時,SPL便減少了20dB,由96dB下降到約76dB。

圖1 當音源距離為200公分時的聲音壓力曲線圖

圖2 當音源距離為50公分時的聲音壓力曲線圖

近場音源是指處於最低頻率訊號的一個波長範圍之內。假設與語音相關的最低頻率為300Hz,那麼波長λ就等於c/f或是331.1/300或是1.104公尺,其中c代表在攝氏零度與標準海平面高度的條件下的音速。當頻率為3,500Hz時,λ等於c/f或是331.1/3,500或是0.0946公尺(9.46公分)。因此,語音訊號的典型近場就是泛指由音源距離約9.5公分到1.1公尺之間的範圍。  

近場與遠場訊號須同時評估  

一般而言,超過1公尺的距離,語音訊號就將視為是遠場的語音音源。對於麥克風間隔較近的陣列,近場音源會呈現出一個圓球狀的波陣面(Wavefront),並擁有很強的訊號振幅、壓力梯度,以及因應陣列中各個麥克風與音源之間的距離而出現的頻率差別。  

現在假設兩個麥克風的間隔距離為3公分,而最接近音源的一個麥克風與音源距離5公分。圖2所示為第一個麥克風(即最接近音源的一個)會感受到82dB SPL的音頻訊號,而第二個麥克風(即與音源距離8公分)所感受到的音頻訊號為78dB SPL。即使兩者之間的差別只有4dB,但相較於整體的訊號層級,這樣的差別仍然是相當大。  

從頻譜內容的角度來看,麥克風陣列內的所有近場語音訊號都關係密切。與最接近音源的麥克風比較,音源距離最遠的麥克風訊號之振幅將會減少,並且出現訊號由最近麥克風傳送到最遠麥克風的時間延遲。但是要恢復這個方案中的語音訊號並不困難。  

在麥克風陣列語音近場範圍以外的音源將會被視為遠場音源,並對陣列中排列緊密的麥克風傳送平面的波陣面。陣列中每一個麥克風都感受到幾乎相同的音波能量及隨機相位訊號,但這些訊號彼此之間並沒有太多的關聯,除非麥克風之間的距離非常接近才會出現相關聯性。假如這些訊號與麥克風的距離更遠,麥克風的絕對SPL值就會進一步下降。  

以另一個實例來看,如果將相同的麥克風陣列放置到與音源距離150公分(即1.5公尺)的位置,最近音源的麥克風,其SPL值會下降到52.5dB,而距離音源153公分的最遠麥克風,其SPL值則稍微下降到52.3dB。雖然兩者僅有0.2dB的差距,但從音源到最近麥克風的整體訊號層級將出現30dB的下降。  

麥克風輸出之間的不同訊號,當進行了適當的處理及濾波後,便可消除遠場雜訊,使兩個麥克風的放大器與處理電路產生的複合輸出均能提供高清晰度的語音訊號。  

釐清聲音雜訊特質對症下藥

這裡的聲音雜訊環境可分為三種,分別是相關雜訊、非相關雜訊及擴散雜訊。相關雜訊是指當音波傳播到麥克風時,在過程中沒有因環境的阻礙物而出現任何形式的反射、散射或衰減。  

非相關雜訊是指某一位置的雜訊與其他位置的雜訊沒有任何關係,並可被視為空間白噪音(Spatially White)。  

擴散雜訊是指擁有相同能量的雜訊同時發散到所有方向。例如辦公室內的噪音、機場候機室及交通噪音等,換句話說就是指所有充滿噪音的環境。  

而所謂的聲音雜訊型態分別是穩態及非穩態。穩態雜訊是指雜訊的能量相對地穩定,並具備已知及變化緩慢的頻譜內容,並且是可預測的。例如由引擎發出的噪音、空調系統風扇、隨機或是白噪音等等。然而,雜訊抑制演算法能有效控制這類噪音。  

非穩態雜訊是指音量及聲音內容的短暫變化,例如是高聲說話或是叫喊、汽車經過的聲音或拍手等,其發生大多是無法預測的。這類型的雜訊,它們可能在被辨識及抑制以前就會自動地消失,非穩態雜訊一般都會內嵌在穩態雜訊範圍之內。  

最麻煩的情況是當雜訊源與語音訊號擁有相同的出現時間、頻譜及相關雜訊特性,當背景雜訊屬於非穩態以及旁邊有其他人說話時,這種情況就會出現,例如在餐廳、酒吧、車站及派對等。  

演算法/麥克風陣列雙管齊下  

依據不同的使用方法,麥克風陣列解決方案可以成為抑制穩態及非穩態雜訊的一項有效技術。  

配合適當的演算法,陣列中的個別麥克風訊號經過濾波後再組合,以便達到波束成形或空間濾波的效果,進而產生複雜的麥克風陣列極性回應模式,能夠指向或遠離某個聲音位置。因此,可以針對某個位置的聲音進行隔離或加強,也可以進行抑制或拒絕。同樣地,麥克風頻道中的訊號相關性可以幫忙找出主要訊號的方向及正確位置。  

依據麥克風陣列的複雜度以及應用,可以經由配備了數位訊號處理器(DSP)的類比電路,再加上適當的電腦軟體和一系列方法去控制,以達到預期目標。  

定向性波束成形較適合語音應用  

波束成形分為兩種技術:可適性及定向性。在可適性波束成形技術中,可透過資料相關濾波及對資料的變動時間回應去調節波束的方向,目前已開發出好幾種可適性波束成形的方法。雖然在訊號的處理上比較繁複,但優點是設計靈活度更高,包括麥克風的數量、類型及間隔距離。可適性波束成形一般需要數位訊號處理器或電腦軟體組合來實現。  

至於定向性波束成形方面,波束的方向會按照相關音源的方位而最佳化,並且同時可抑制來自其他方向的雜訊。一般來說,排列緊密兼具備固定方向性的差動式麥克風端射陣列都是依靠固定時間延遲或其他方法來改變波束的方向。對於這類應用,任何濾波及訊號處理的方法都必須因應特別的機械設計加以最佳化。定向性波束成形一般需要類比電路、數位訊號處理器或電腦軟體組合來實現。  

對於語音應用來說,大多建議採用定向性波束成形解決方案會比較好,尤其當應用牽涉到語音辨識。假若以類比電路來實現,定向性波束成形必須具備以下特性,包括對雜訊輸入有即時的回應,容易實現且毋須開發任何演算法程式,為穩態及非穩態雜訊提供可接受的SNRI數值,表現極低或是無語音的失真,運算複雜度低並具備低訊號延遲,功耗比其他解決方案小,以及可改善語音品質測試(ITU-T P.835)的整體平均分數(Mean Opinion Score)。  

與定向性方案比較,採用數位訊號處理器或軟體來實行的可適性波束成形,則具有幾項缺點,如功耗較大且須另外開發演算法程式,因此在實現上比較困難;同時,在應用並調整抑制演算法時,需要時間去重複辨識以及匯集雜訊;另外,雖然可適性波束成形可提供較佳的SNRI值,但通常也會為語音輸出訊號帶來較多問題,包括因雜訊匯集時間所引起的延遲、爆音與滴答聲、非正常靜音、頻率失真、回音或與子頻帶頻率訊號處理方法有關的不定期訊號層級變化。  

所有波束成形解決方案都採用小型陣列,它們對由麥克風增益與相位不平衡所引起的誤差都非常敏感,以及由於音訊路徑嵌入於產品內而非設於大氣中所導致的路徑偏差。因此,波束成形解決方案必須對於這些誤差提供某種形式的補償,而這種補償可以設計於波束成形系統之內,也可以是在系統之外加設適合的麥克風和音訊路徑來實現。  

麥克風間隔攸關雜訊抑制效能  

奈奎斯特空間取樣率為相關最高頻率的二分之一個波長(d=λ/2)。因此,為了從空間獲得相關頻率的波長取樣,兩個感測器(即麥克風)必須相隔二分之一個波長。  

然而,當感測器的間隔少於二分之一個波長時(d<1/2λ),過度取樣就會發生,使波長被取樣超過兩次。相反地,假如感測器的間隔大於二分之一個波長(d>1/2λ),空間性取樣不足就會發生,這時第一個感測器在完成一個波長的取樣後,會於第二個感測器進行取樣之前再重新啟動。空間性取樣不足可以將較高頻的訊號混疊到相關的頻帶,導致結果出現混亂。為了防止出現混疊的問題,取樣器的頻寬限制必須高於最高相關頻率。  

研究指出,如能盡量減少感測器間的距離,就可打造出高效能的麥克風陣列,距離只須符合奈奎斯特速率的最低要求即可。在此,再以感測器的間隔為相關音波的八分之一個波長為例說明。  

在一個純語音系統中,頻率範圍為300~3,500Hz,而最大聲音能量則可能出現於500~2,500Hz之間。在這樣的條件下,λ/8的間隔在3,500Hz下便為1.18公分,而於2,500Hz時則為1.65公分。  

由於波長增加,在3,500Hz及2,500Hz頻率以下的語音訊號仍然會被過度取樣,因此1.18公分或1.65公分的間隔能有效地取得更多的訊號樣本。  

另一個計算方法是將間隔定義為2公分,所以當頻率為2,500Hz時,波長的間隔(λ)/(c/df)便為:  

λ/(331.1/0.02×2,500)=λ/6.62  

如果空間取樣率於最高相關頻率下仍然低於λ/2,就須要調整麥克風的間隔,以滿足產品的應用需求。可是,隨著間隔d愈來愈小(空間取樣率愈來愈高),麥克風陣列中的遠場訊號間的相關性更大,使得陣列在各種頻率下,都可發揮更佳的整體背景雜訊抑制效能。相反地,假若間隔變得較大,陣列的整體抑制能力就會下降,對較低頻的訊號難以作出反應。  

一旦決定了感測器的間隔,就可因應頻率的需求而將陣列最佳化。如果採用的是定向性波束成形解決方案,也須同時固定陣列的回應模式。  

不論是任何的產品,在設計的過程中必須要作出一些折衷決定,包括操作頻率範圍與所需雜訊抑制層級、理論與實務麥克風間隔以及整體的陣列系統成本與複雜性等等。  

麥克風陣列解決方案實例  

LMV1088作為麥克風陣列解決方案的實例,該放大器為類比定向性波束成形解決方案,適用於採用全指向性麥克風與差動式雙麥克風端射陣列搭配的組合應用,可為語音應用提供高達20dB的背景雜訊抑制。  

圖3所示為該款遠場雜訊抑制麥克風陣列放大器的基本應用原理圖,圖中兩個麥克風分別位於兩條相距約1.5~2.5公分的線上,或保持相同的音波路徑距離。說話者與手機或耳機的麥克風的最佳化距離為2~10公分(如果超過這個距離,效能將會降低),透過使用圖1和圖2就可以計算出語音訊號隨距離變化的損耗。

點圖放大
圖3 遠場雜訊抑制麥克風陣列放大器基本應用原理圖

此一範例中所使用的放大器不僅可為兩條聲音--麥克風--放大器訊號通道路徑之間的差別提供初始性補償,並且可執行修正濾波以使得語音輸出更加自然,以及還可以提供頻寬限制濾波功能。  

由於內部放大器增益可透過I2C指令進行調整,因此可使用不同靈敏度的麥克風,並促使放大器的輸出訊號層級能配合各種通訊處理器及設備的類比輸入通道訊號要求。  

範例中所使用的麥克風陣列放大器可支援四種操作模式,並透過I2C指令來選擇,包括:同時使用兩個麥克風進行雜訊抑制的預設模式;單獨使用麥克風1或2(無雜訊抑制效果)的獨立模式,以及將兩個麥克風輸出相加一起,使麥克風訊號得到的6dB增益(無雜訊抑制效果)的總合模式。  

此外,此款放大器的類比特性也具備一些傳統數位訊號處理器(DSP)類型解決方案沒有的特性,例如毋須因遷就背景雜訊層級及類型而花費額外的時間去進行雜訊匯集運算,進而可為語音訊號及背景雜訊提供即時回應,並且可消除令人不悅的短暫語音消失。  

不僅如此,由於不採用子頻帶頻率處理演算法,因此不會在輸出產生頻率失真、爆音與滴答聲或其他的人工假訊號,且功耗極低,一般只有DSP解決方案的十分之一。  

以國際測試標準客觀衡量效能  

為了準確比較及測量不同背景雜訊抑制方案的效果,所有的測試設置以及環境條件必須一致,以得到可信賴的結果。  

而幾個標準測試方法中,最多人採用的是國際電信聯盟標準ITU-T Rec.的P0056e、58e、64e、0830e以及ITU-T P835。  

ITU-T P835專門用於包含雜訊抑制系統的主觀測試(Subjective Testing),能夠有效評估系統中的語音輸出品質。該規格標準清楚說明評估雜訊環境中語音主觀品質的方法,特別適合用來評估雜訊抑制演算法。該方法採用獨立的等級標準,並將測試分為三個獨立部分,分別就語音訊號的主觀品質、背景雜訊的主觀品質,以及有背景雜訊下的整體語音品質(平均意見分數)進行獨立的評估。  

除此之外,在IEEE標準規範上,可以採用專門測量電話手機及耳機的傳送效能的IEEE 1209-1994,及針對類比及數位電話機傳送效能的IEEE 269-1992兩項標準。新版的IEEE 269-2002已經包含了這兩項標準。  

將上述的標準綜合後就可看出客觀的數值測量,並可準確評估不同背景雜訊抑制解決方案的主觀語音品質和電子語音辨識效能。  

一般來說,系統的雜訊抑制數值都是由製造商提供,這些數值可能是系統所能達到的最佳水準,但對於某些要求高語音品質的應用而言,這些預設的數值可能不敷應用。  

因此,除非可以在文件中明確地說明所有的測試條件,否則可能產生誤導。但一般的規格書都不會提供很詳細的資料。因此客戶應用也需要更多專業協助才能達成。  

(本文作者任職於美國國家半導體)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!