MEMS麥克風 智慧語音助理 Google Amazon Alexa 語音處理器

優化體驗/靠攏生態系 語音助理商機引台廠切入

2017-11-06
智慧喇叭在2017年初掀起一片熱潮,2016年服務型機器人銷售中,以亞馬遜Echo為首的智慧助理銷售占比達47.4%,銷售量520萬台。但也有市場聲音傳出,智慧喇叭終究是過渡產品,語音助理軟體的應用才是未來,真相如何?本文將進行深入剖析。
2017年高科技產業最熱門的議題非智慧家庭語音助理莫屬,市場調查機構TrendForce表示,2016年服務型機器人銷售量中,以亞馬遜Echo為首的智慧助理銷售占比最高、比重高達47.4%,銷售量達520萬台。智慧助理關鍵零組件包含陣列式設計的微機電麥克風、語音處理器、無線連結元件、喇叭等硬體,再加上猶如靈魂的語音助理軟體,如最知名的Alexa、微軟的Cortana、Google的Google Assistant、Apple的Siri等。 

Alexa也帶動科技業一波智慧助理的開發、應用風潮,「Android之父」安迪.魯賓成立的公司Essential預告將推出居家生活智慧助理Essential Home;宏達電宣佈開放美國地區HTC U11用戶下載HTC Alexa應用程式,讓美國民眾透過手機就能隨時向家中的Alexa發號施令,遙控開關燈、空調溫度。本次將由智慧家庭領域專家深入介紹智慧助理的硬體架構,以及語音助理軟體技術的最新進展,同時剖析相關市場發展與應用走向。 

圖1 資策會MIC資深產業分析師許桂芬表示,智慧家庭服務廠商近年的重點就是建立跨品牌/服務的生態體系。
智慧家庭發展再進一步 

智慧家庭從多年前的數位家庭、網路家庭等概念延續而來,許多大廠包括夏普(Sharp)、三星(Samsung)、微軟(Microsoft)、英特爾(Intel)等都投入多年,近年谷歌(Google)、蘋果(Apple)、亞馬遜(Amazon)等接棒發展。資策會MIC資深產業分析師許桂芬(圖1)表示,智慧家庭從過去的遠端控制,轉為設備能互相溝通,感測到環境變化而主動提供服務,近年廠商的重點就是建立跨品牌/服務的生態體系。 

其中,Google 2014年以32億美元併購智慧溫控器廠商nest,並於2016年推出語音助理Google Home,積極布局智慧家庭。Apple於2014年推出HomeKit智慧家庭平台,拉攏相關廠商開發智慧家庭產品,但驗證流程嚴格,2016年發表Home APP,統一管理智慧家電產品,並整合Siri語音控制。Amazon的Echo引發一陣語音助理風潮,且持續推出新產品以方便消費者購物,企圖培養消費者使用習慣,提升使用頻率,建立顧客忠誠度,並積極與家電廠商合作,將Alexa導入各類家電當中。 

智慧家庭應用主要分為居家安全、智慧節能、健康照護、智慧管家等類型,許桂芬指出,擁有網路布建優勢的電信及有線電視業者,亦以租賃式的安控服務為起點,切入居家安全市場。節能減碳的議題讓能源管理市場不斷成長,預計2017年市場規模為62億美元,2018年將快速成長至87億美元,家電廠商積極推廣於家電產品安裝感測模組,可監看家中用電狀況,方便且有效管理家中各項電器產品,節省電費支出。 

圖2 2015~2019年全球智慧健康照護市場規模

資料來源:Gartner、MIC(8/2017)

在智慧健康照護部分,二戰嬰兒潮進入老年化,全球許多國家都面臨人口老年化,配合穿戴式產品的發展,許桂芬說明,2017年全球智慧健康照護市場規模達228億美元(圖2),廠商運用多元感測器量測多樣生理數據,研發專屬演算法,產品訴求方便可攜、簡易操作,結合大數據分析,達到高齡獨居者照護目的。 

圖3 英飛凌資深應用工程師魏有成解釋,該公司提出雙背板MEMS麥克風架構,能產生更好的訊號品質,訊噪比(SNR)達70dB。
MEMS麥克風受惠智慧喇叭 成長動能大增 

智慧喇叭的發展仰賴微機電(MEMS)麥克風對於聲音訊號的完美搜集,也讓這個技術已經成熟的產品再添成長動能,一般而言,MEMS麥克風由背板(Back Plate)、氮化矽薄膜(Membrane)、1微米寬的空氣隙(Air Gap)組成,其中薄膜要具備低應力且柔軟,能夠靈敏地感測環境音壓的改變。 

現行的MEMS麥克風技術均採用聲波致動薄膜和靜態背板,英飛凌(Infineon)資深應用工程師魏有成(圖3)解釋,該公司提出一個較複雜的雙背板架構,在兩個背板之間嵌入薄膜,也有兩個空氣隙,因此能產生更好的訊號品質,訊噪比(SNR)達70dB,進一步獲得更佳的高頻抗擾性,實現更出色的音訊訊號處理,並將10%總諧波失真(THD)的聲學過載點提升到135dB聲壓位準(SPL)。 

高噪訊比的MEMS麥克風適合高品質錄音和遠場語音擷取應用,魏有成強調,功能強化等同於讓使用者可從兩倍遠的距離說出語音指令,而麥克風截取到相同品質的音訊。擁有豐富類比半導體製程經驗的英飛凌過去一直以提供MEMS麥克風裸晶給聲學元件製造商為主要營運模式,近期因應語音識別的產業趨勢,將持續強化並擴大與合作夥伴的裸晶業務,同時也針對低雜訊高階應用的需求,發展已封裝麥克風產品。 

 麥克風陣列設計左右收音品質

智慧麥克風除了採用類比微機電的製程之外,還有採用數位CMOS製程的麥克風,不管是採用MEMS或是CMOS都是利用半導體製程產生震膜以蒐集聲壓,現在語音助理為了精準收音並消除雜訊,常會採用多麥克風的設計方式,最著名的就是Amazon Echo採用的是6+1的7顆麥克風陣列的設計方式,用來定向聲源資訊,抑制無關噪聲,保證真實環境的語音識別率。 

圖4 鑫創科技產品經理曾建統說明,在麥克風陣列的選擇上,近期的趨勢是發展類似人耳的兩路麥克風設計。
另外,應採用整合類比數位轉換器(Analog-to-digital Converter, ADC)的數位麥克風(Digital Mic)或單純使用MEMS的類比麥克風,鑫創科技產品經理曾建統(圖4)說明,選用數位麥克風或類比麥克風端視系統與應用需求,一般而言,數位麥克風抗干擾能力較佳,不易失真,但相對成本也較高,設計較複雜。而在麥克風陣列的選擇上,類似Echo的設計儘管可以得到最佳的收音效果,但也增加了後端處理器的處理負擔,近期的趨勢是發展類似人耳的兩路麥克風設計,以在成本與效率上最佳化。 

語音處理器純化聲音訊號

在麥克風將聲音收進來後,還要再將聲音轉換成數位訊號並降低雜訊,進行訊號的純化,這部分工作有賴語音處理器發揮其功能,語音處理最主要的幾個功能包括噪音抑制(Noise Suppression)、回音消除(Echo Cancellation)、語音辨識(Voice Recognition Assistance)、遠距收音(Far-field Pickup)、清晰語音溝通(Clear Voice Communication)等部分。 

圖5 富迪科技資深專案經理林益民表示,語音處理器最主要的功能就是消除噪音,並將麥克風蒐集的聲音訊號純化。
噪音抑制簡單的說就是壓噪,富迪科技資深專案經理林益民(圖5)表示,環境聲音如車輛、旁邊人的說話聲音都算是一種噪音,如何找出正確的噪音來源,並保留最大的原音是這部分最大的挑戰。一般噪音分成穩態與非穩態噪音,機器運作固定頻率的聲音是穩態噪音,比較容易消除;非穩態噪音就是非預期出現的聲音如旁人說話的聲音,可能會跟主要的聲音混在一起,不僅辨識困難,也比較難消除。 

遠距收音的功能就是較遠的距離之下一樣能收到清晰的聲音,做法就是首先偵測人聲,並放大人聲,但不放大噪音。這部分技術會遭遇一些挑戰,林益民解釋,殘響(De-reverberation)就是其中之一,如在一個沒有很多吸音材質的密閉環境,就很容易使聲音不斷反彈,出現所謂的殘響,如果沒有好的噪音抑制技術就無法將殘響濾除,對收音品質造成很大的影響。 

圖6 資策會MIC產業分析師林巧珍指出,2022年智慧家庭語音助理裝置市場規模將成長10倍。Amazon與Google最為積極。
Amazon、Google雙強語音助理爭出頭 

根據Strategy Analytics估計,2022年智慧家庭語音助理裝置市場規模將較2016年成長10倍,產值約達5億美元。目前國際大廠中就以Amazon與Google最為積極,資策會MIC產業分析師林巧珍(圖6)指出,Amazon Echo的語音助理Alexa,專注於資訊娛樂、線上購物與家庭自動化三大核心功能。Google Home裝置功能則圍繞使用者食、衣、住、行、育、樂需求,其中資訊、娛樂相關功能優先。 

Google除了智慧喇叭之外,還有手機、穿戴式裝置、車載資通訊系統等平台,預期未來會將語音助理應用在多個平台上。而Amazon免費開放並持續優化Alexa第三方開發工具,積極拉攏各家電業者,希望透過家電廠商在消費者家中客廳與廚房的滲透率,攻占智慧家庭市場,以語音指令界面提供更自然、快速的購物體驗。 

現階段,Google與Amazon的布局還是以擴大生態鏈為主要目標,Amazon雖不像Google擁有許多終端平台,但該公司透過積極授權Smart Home Hubs、穿戴式裝置、PC、手機與智慧家電,順利擴大Alexa的產業滲透率,亦可透過不斷累積的數據來透析消費者,達到提升其電子商務業務導購成效之目的。 

由於語言成為語音助理發展先天的門檻,人機溝通的順暢程度成為發展的關鍵之一,林巧珍認為,語音助理在地化、個人化趨勢可期,相關技術與開發工具將受關注。不過,語音助理屬雲端服務,其應用領域預期將更為廣泛,但卻不見得能帶動智慧喇叭等硬體產品的出貨量,智慧喇叭可能屬於過渡產品性質,不會發展成一個獨立的產品區隔。 

無線語音遙控器強化移動性 

語音控制因為Echo Alexa的爆紅成為最熱門的人機介面,從數位控制中樞的角度來看,手機已經是個人隨身最重要的數位中樞,智慧喇叭則希望成為家庭客廳中新的中樞,不過因為智慧喇叭多半是插電裝置,移動性不佳;因此,原本的客廳控制中樞遙控器,加入語音助理與無線連結方案就可以成為一個可攜式的語音控制中樞。 

圖7 Nordic軟體工程師蔡名岳表示,遙控器加入語音助理與無線連結方案就可以成為一個可攜式的語音控制中樞。
以室內無線技術而言,藍牙低功耗(Bluetooth Low Energy, BLE)與RF4CE為主要選項,這兩個技術都是基於802.15.4的通訊協定,且具備低功耗特性,不過目前以BLE為主流,Nordic軟體工程師蔡名岳(圖7)表示,主要原因是目前許多裝置包括手機、家用無線Gateway、電視等都搭載有藍牙晶片,可以直接支援BLE架構,相容互通性沒有問題;另外,以最新的Bluetooth 5標準而言,其低功耗版本最高可提供800Kbit/s傳輸速率,可以輕鬆承載語音指令的傳輸。 

中文自然語言處理開發潛力大 

除了硬體與標準之外,包含語音識別與語意理解的自然語言處理,就是人機互動的靈魂了,人工智慧的發展讓語音識別正確率近年獲得突破性的進展,不過中文由於複雜性較高,還有部分瓶頸尚待突破,同時也是國內廠商的機會與挑戰。資策會智慧所產品經理劉泰利(圖8)說,中文語音辨識的開發可以用隱藏式馬可夫(Hidden Markov Model, HMM)模型,作為訓練模型。 

圖8 資策會智慧所產品經理劉泰利說,中文語音辨識的開發可以用隱藏式馬可夫(HMM)模型,作為訓練模型。
馬可夫模型是一種機器學習的訓練工具,劉泰利進一步說明,該模型將輸入訊息視為一單位一單位,接著進行分析,與人類語音模型的特性類似。語音系統辨識的單位為一個單位時間內的聲音。利用梅爾倒頻譜等語音處理方法,轉換成一個發音單位,為離散型的資訊。馬可夫模型使用的隱藏條件也是一個個被封包的詞,因此使用馬可夫模型來處理聲音訊號比較適合。 

而在更關鍵的語意理解部分,中文與英文最大的不同在於,英文是以單字為單位,只要將單字串連就可以理解其意思;中文雖以字為單位,但中文的詞才是最小語意單位,況且中文字的數量遠超過英文,詞的組合就更多了,所以中文語意理解難度遠高於英文。劉泰利解釋中文語意的分析,斷詞是最重要的工作,好的斷詞規則才可以解析出前後文與句子的完整意義。 

中文語意分析的瓶頸有三個部分,包括:普遍存在的不確定性,涵蓋詞法、句法、語法分析中存在的歧義問題,如中文裡非常多的同音異義;語言知識處理的複雜性,消除歧義所需要的知識在獲取、表達以及運用上存在困難,包括上下文知識與背景知識;輸入的不規則性,如錯別字、口語化、語法錯誤等問題,都增加了語意理解的難度。 

中文語音助理核心為語意理解引擎 

Alexa為目前最知名的語音助理,由於有大量資料長時間累積,在英文尤其是生活消費的需求上,可以提供良好的服務,但對於希望進軍相關應用的廠商而言,儘管可以透過Amazon開放的Alexa Voice Service(AVS)與Alexa Skill Kit(ASK)快速導入,但除了受制於人之外,Alexa目前不支援中文,也沒有針對特殊領域進行優化,不見得符合國內廠商的需要。 

圖9 網際智慧AI互動系統研發經理陳浩法指出,要開發一個專業好用的語音助理,核心技術是語意理解引擎的設計。
語音助理的運作,網際智慧AI互動系統研發經理陳浩法(圖9)指出,最基本的步驟包括喚醒、說話與回應。實際的流程還包括語音指令透過智慧喇叭傳送到Alexa的雲端服務「大腦」,透過亞馬遜語音服務(Amazon Voice Service)與技能(Skills)引擎,解析出語意,形成實際的反應,傳送到裝置的服務(Service for Device),並針對裝置下指令進行控制,完成一個完整的語音控制流程。 

要開發一個專業好用的語音助理,陳浩法認為,核心技術是語意理解,聰明的人機對話服務,門檻非常高,語意理解引擎的設計與知識量都是關鍵。更必須搭配幾個條件,包括:相關領域專業人士,貢獻技能;知識/技能採集專家,挖掘技能;意圖(Intent)及技能設計師,製作技能;語意分析師,優化技能;IT系統整合工程師,整合數據;語音及硬體工程師,語音整合;前端工程師,介面整合;並搭配聰明的虛擬助理中文自然語言理解(Natural Language Understanding, NLU)服務;以及好用的虛擬大腦編輯器等。

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!