Amazon Echo Alexa 智慧音箱 智慧語音助理 MEMS麥克風 語音處理晶片

AI語音助理商機不斷熱燒 智慧音箱軟硬體技術大躍進

2018-09-04
智慧音箱在2018年延續前兩年的熱潮,不過音箱本身並不能創造很大的經濟價值,發展產業鏈才是未來勝出的重點,智慧麥克風與語音處理器是跨產品型態的關鍵零組件,利基型的應用、中文自然語言處理與邊緣運算是台灣廠商值得關注的重點。

2014年電商龍頭亞馬遜(Amazon)推出智慧音箱Echo之後,經過幾年的經營,在2016、2017年大放異彩,引發一股智慧音箱開發風潮,也帶動沉寂已久的智慧家庭商機,除了Amazon,包括Google、Microsoft、Apple、Samsung、Sony、Line,還有大陸的京東、聯想、阿里巴巴、小米等一線大廠都陸續推出智慧音箱,不僅如此,更多二線品牌廠商也趕上這波熱潮,保守估計目前市場上應該有數十款智慧音箱品牌,布局並搶食智慧語音應用背後帶動的龐大商機。

智慧音箱包括三大部分:硬體、軟體服務、系統平台。工研院IEK產業分析師陳右怡說明,硬體規格大致包括開關、燈光、語音處理晶片、麥克風陣列、喇叭、電池、Wi-Fi/藍牙無線通訊模組、顯示面板等,其中語音處理器與麥克風陣列攸關語音輸入品質,也是這波發展過程中較受矚目的關鍵零組件。而軟體服務則是智慧音箱的靈魂--智慧語音助理,搭配技能(Skills),結合雲端的系統平台,形成一個完整的產業生態系,以帶動後續的商業模式。

智慧音箱投入者眾

根據市場研究機構Strategy Analytics研究指出,2018年智慧音箱出貨量接近4,000萬台,2019年將挑戰6,000萬台,2022年還要進一步成長至1億6,000萬台左右,每年都是兩位數的成長率。Samsung繼去年與Microsoft合作推出的Invoke智慧音箱後,2018年8月發表自有產品Galaxy Home(圖1),音箱裡有六組擴音喇叭及低音炮,用來提供環繞的播放音效;並內建八組遠場麥克風,可在較大的範圍內接收語音指令,語音助理就是自家的Bixby,不過發表會上擺滿的產品都跟Apple Homepod一樣不能運作,正式上市時間要再等等。

圖1 Samsung 2018年8月發表搭載Bixby智慧音箱Galaxy Home,並內建八組遠場麥克風,可在較大的範圍內接收語音指令。

整體而言,智慧音箱的發展,產品本身並不是最重要的,Amazon Echo最早就定位是中低價產品,99美元的售價到後來衍生的多種產品都不走高價路線,以其現階段市場領導者的身分,也發揮市場帶動的效果,Amazon以電商的角色,不斷擴展產業生態體系,並成為多數廠商仿效的對象。陳右怡表示,Amazon Echo串連了開發者社群、汽車服務業、智慧裝置、日用品服務、共享/外送服務業、音樂串流服務業等。語音指令在搜尋上,顯然比現有的文字輸入便利,跟據市調機構Gartner的研究,未來50%的各類搜尋,將會利用語音指令的方式呈現。

以可以執行的技能而言,Alexa目前高達17,650項,Google Assistant僅有468項,Microsoft Cortana更只有174項。根據OC&C Strategy Consultants調查,擁有智慧音箱的美國家庭中62%會使用智慧音箱進行語音購物,2017年美國語音購物市場規模約20億美元,預估2022年將達400億美元,5年內翻20倍。由此可知,智慧音箱擁有多少「技能」、能否帶動商業模式的發展,才是其成功的關鍵,這些品牌大廠自然深知要努力將自己的商業模式,轉換延伸到語音應用,並能提供更新、更多的價值才是發展重點。

經過這幾年的發展,智慧音箱已經出現更為細緻的分眾區隔之路,鑫創科技產品經理曾建統(圖2)認為,通用型的智慧音箱主要目的就在扮演智慧家庭控制中樞,除了豐富的技能之外,更需要完整的系統平台與產業生態系加以配合,帶動商業模式的發展,這部分只有資源豐富的大廠具備參賽權。另外,在區域市場與應用上,也發展出許多功能較為單純,但滿足特殊需求的智慧音箱,如廚房針對做菜、車上影音娛樂/唱歌需求的產品,適合中小型廠商切入。

圖2 鑫創科技產品經理曾建統認為,通用型的智慧音箱主要扮演智慧家庭控制中樞,需要完整的系統平台與產業生態系配合。

智慧麥克風設計眉角多

近來有部分人士指出,智慧音箱是過渡型的產品,就像電子書閱讀器一樣曇花一現,不過就實際的發展來看,智慧音箱目前呈現百花齊放的狀況,未來不管產品是否持續發展,語音辨識成為重要的人機介面已是不爭的事實,因此不管終端產品型態是甚麼,絕對都少不了智慧麥克風與語音處理器,這兩個元件的技術與發展就值得更加深入的觀察。

一般而言,MEMS麥克風由背板(Back Plate)、氮化矽薄膜(Membrane)、1微米寬的空氣隙(Air Gap)組成,其中薄膜要求低應力且柔軟,能夠靈敏地感測環境音壓的改變。現行的MEMS麥克風技術均採用聲波致動薄膜和靜態背板,英飛凌(Infineon)提出一個較複雜的雙背板架構,在兩個背板之間嵌入薄膜,也有兩個空氣隙,因此能產生更好的訊號品質,訊噪比(SNR)達70dB,進一步獲得更佳的高頻抗擾性,實現更出色的音訊訊號處理,並將10%總諧波失真(THD)的聲學過載點提升到135dB聲壓位準(SPL)。

智慧麥克風除了採用類比微機電的製程之外,還有採用數位CMOS製程的麥克風,不管是採用MEMS或是CMOS都是利用半導體製程產生震膜以蒐集聲壓,曾建統說明,除了傳統的單背板/單薄膜之外,雙背板/單薄膜、單背板/雙薄膜等改良型的架構都有廠商提出,目的全是為了強化收音效率的訊噪比。而在系統的設計上,Amazon Echo帶動的多顆麥克風陣列設計已成風潮,但效果還是有很大的差異性。

曾建統提醒,智慧語音助理硬體的設計,尤其是麥克風陣列,並不是硬體照抄就好,在設計階段要針對機構與收音麥克風進行陣列演算法的調適,同時生產階段也必須提高機構精準度的要求,這兩個重點對語音助理裝置最終量產結果有很大的影響。就像通用型的Echo使用場景大部分是在客廳,類似的麥克風陣列設計套用到車用產品就不會得到最佳收音品質;而機構生產與組裝若不夠精準,會持續削弱麥克風的訊噪比,原本70dB的產品可能於終端產品僅表現出35dB的效能。

關鍵元件整合設計 取得效能表現最佳化

而在語音處理器部分,最主要是處理聲音的數位化與去除雜訊的訊號純化,由於智慧語音助理的工作是透過AI演算法,將輸入的語音訊號進行語音辨識與自然語言處理,擔負重要的人機介面工作,也是使用者經驗優劣的關鍵,因此語音處理器的幾個主要功能包括噪音抑制(Noise Suppression)、回音消除(Echo Cancellation)、語音辨識(Voice Recognition Assistance)、遠距收音(Far-field Pickup)、清晰語音溝通(Clear Voice Communication)等就顯得非常重要。

語音處理器技術發展已有滿長的一段時間,其實技術已經相當成熟,不過由於智慧音箱將語音變成最主要的人機介面,聲音整體處理效能要求比過去更高,對噪音抑制的壓噪技術而言,環境聲音如車輛、旁邊人的說話聲音都算是一種噪音,如何找出正確的噪音來源,並保留最大的原音是這部分的挑戰。一般噪音分成穩態與非穩態噪音,機器運作固定頻率的聲音是穩態噪音,比較容易消除;非穩態噪音就是非預期出現的聲音如旁人說話的聲音,也比較難消除。

Samsung甫發表的Galaxy Home,為了收音效果特別採用八顆遠場麥克風,遠距收音的功能就是較遠的距離之下一樣能收到清晰的聲音,做法就是首先偵測人聲,並放大人聲,但不放大噪音。曾建統認為,若要提升收音效能的表現,麥克風與語音處理器整合性設計非常重要,除了遠場麥克風、擴大MEMS麥克風晶片尺寸、採用整合類比數位轉換器(Analog-to-digital Converter, ADC)的數位麥克風(Digital Mic)等做法都有,甚麼設計才能在效能與成本上取得最佳表現,目前其實沒有標準答案,建議還是回歸到產品需求,並進行深入的軟體模擬與效能測試,才有機會開發出令市場驚艷的產品。

智慧音箱的使用近期也因為網路的便利性與不設防,產生多起網路安全事件,所以語音處理器的安全機制逐漸被重視,恩智浦半導體大中華區微處理器及微控制器產品行銷經理張小平(圖3)表示,保護隱私資訊不輕易被入侵,需要內建安全裝置的解決方案,除了保護使用者資訊,透過整合的SDK實現演算法加速,滿足語音、影音和音訊的需求,可整合A/V與機器學習,滿足工程師對於統一平台的要求,便於打造語音指令控制的聯網產品。

圖3 恩智浦半導體大中華區微處理器及微控制器產品行銷經理張小平表示,保護隱私資訊不輕易被入侵,需要內建安全裝置。

恩智浦i.MX8M系列應用處理器,兼具處理技術和邊緣運算能力,能夠有效管理並縮短智慧互聯裝置回應命令和詢問的時間。張小平指出,該系列產品可用於智慧電視、電視訂閱服務、條形音箱與其他智慧音箱,以及媒體播放器和DVR/PVR。此外,該系列處理器也適合管理照明、恆溫器、門鎖、居家安全、智慧灑水器等各類系統與設備,能夠讓使用者享受直覺簡單、迅速回應的智慧家庭體驗。如:僅需發出語音指令即可播放特定的電視劇集,如果對其中的演員感興趣,直接口頭詢問相關問題,螢幕上就會進行搜索並顯示結果,整個過程都不會影響電視劇情的播放等。

語音助理為智慧音箱靈魂

在基礎的硬體之外,具備AI功能的智慧語音助理顯然是智慧音箱產業鏈能否順利發展的關鍵,Alexa的跨平台支援與技能多樣性,目前遙遙領先Google Assistant與Microsoft Cortana,陳右怡表示,智慧語音助理的生態系發展難度更高,核心的技術包括AI深度學習演算法、情境感知、自動化控制、大數據分析應用、雲端存取等;發展策略上,可透過開放式AI API發展第三方開發,擴展語音助理的技能,也透過定價/收費/分潤機制讓生態系更成熟;最後就是不斷強大生態系的規模與服務的多樣性與便利性,就像當年的App Store一樣。

而語音助理的服務包羅萬象,所謂「萬能」的智慧語音助理應該不存在,以目前四大語音助理來看,Google專長在搜尋、Siri專長在音樂、Alexa專長在購物、Cortana則是專精於商務,廠商的產業鏈發展也有所側重,陳右怡相信,過幾年不同領域的語音助理霸主將越來越明確。而語言與在地化的經營則是另一個重點,目前英語系的語音辨識與自然語言處理技術上已經頗有突破,發展較為迅速;相較之下,中文的自然語言處理則有相當大的瓶頸,也是台灣與大陸廠商可以深入發展並保有優勢的地方。

掌握特殊應用與邊緣運算趨勢

從硬體終端產品來看,大廠會投入更多資源發展通用型的智慧音箱,產品型態也將更加多樣,整合於智慧手機、筆電、各式家電等的狀況會更加普遍。台灣廠商在軟硬體的發展上,應該投入利基型的硬體產品與服務,曾建統建議,特殊應用的智慧音箱結合在地化語音技術發展,是台灣廠商的機會。中文AI化的困難性為台灣廠商帶來藍海的商機,只要深入累積語言分析與在地化語料,就可以建立競爭門檻,搭配台灣原先就具備深厚基礎的硬體技術能力,可以在智慧音箱市場走出一條自己的路。

人機介面發展到語音是一大進步,不過未來視覺、觸覺與念力都是下一波發展的方向,現在的語音AI技術也有布局未來人機介面的味道。以AI為核心的這些應用,開發的範圍與需求的資源都較過去更大,訴求利基市場也不見得是單一廠商就能負擔所有技術開發,需要與更多產業鏈上下游的廠商合作;智慧音箱也是典型的邊緣運算裝置,未來會將更多AI功能轉移到終端裝置,直接在邊緣進行處理,對於雲端架構規模不如國外大廠的台灣廠而言,採用較小的雲端架構,並透過終端處理部分AI運算,更適合台灣廠商發展。

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!