聰明動口不動手 語音助理變身智慧家庭中樞

2017-06-05
以聲控裝置做為智慧家庭控制中樞,符合家庭使用情境需求,預期將帶動新一波人機溝通的大變革,其實智慧家庭助理除了硬體架構包括麥克風、喇叭、語音處理器之外,更涵蓋了自然語言分析、語意識別、深度學習/人工智慧等深具潛力的技術。

2017年美國消費性電子展CES,Amazon的Alexa獨領風騷,會場內幾乎處處可見內建此智慧語音助理的數位家電產品,無獨有偶Google也推出Google Assistant,Apple則有大家熟悉的Siri,另外,Microsoft的Cortana、Samsung的Bixby、LINE的Clova,也都躍躍欲試想要成為每個家庭的數位管家,發展多年的數位家庭願景又再次看到新的曙光。 

以聲控裝置做為智慧家庭控制中樞,符合家庭使用情境需求,比近年大行其道的觸控更為簡便,預期語音輸入將帶動新一波人機溝通的大變革,其實智慧家庭助理除了必要的硬體架構之外,更涵蓋了自然語言分析、語意識別、深度學習/人工智慧等未來深具潛力的技術。本研討會邀請智慧家庭領域專家深入介紹智慧助理的硬體架構、智慧麥克風設計,以及語音辨識、語意識別技術的最新進展,同時剖析相關市場發展與應用走向。 

語音助理再開智慧家庭契機

智慧家庭的概念最早於1997年被提出,發展至今已屆20年,不過在許多技術未成熟,產業環境也不完善的情況下,一直沒有出現預期的爆發力道。包括2003年Intel與微軟合組數位家庭工作小組(Digital Home Working Group, DHWG)、2006年Intel推出ViiV平台、2008年Intel與多家廠商籌組HomeGrid發展家庭聯網標準等,業界大廠投入智慧家庭的努力不曾停止。 

圖1 資策會MIC產業分析師林巧珍指出,語音控制解放雙手,成為最新的人機介面,將智慧家庭的發展帶入一個全新的階段。


語音助理不是新技術,根據市調機構Gartner統計,2015年全球語音助理市場規模約4億美元,預估2020年可以成長到21億美元,且其中1/4的使用者擁有兩組以上的終端裝置。林巧珍指出,過去語音助理通常是手機的附屬功能,未來將成為一個獨立的裝置,並出現在家中的各個生活空間。除了Amazon、Microsoft、Apple、Google、LINE、Samsung、百度等大廠(圖2),都有語音助理技術與服務。 其後,許多廠商包括Google、Apple、Samsung、騰訊、小米等都對此領域有興趣,不過一直到2016年Amazon Echo大受市場歡迎,智慧語音助理頓時成為智慧家庭中樞系統的突破口,無數的客廳多了一位數位管家:Alexa。資策會MIC產業分析師林巧珍(圖1)說,語音控制解放雙手,成為最新的人機介面,隨著語音辨識正確率提高,更直覺、更便利的人機互動方式,將智慧家庭的發展帶入一個全新的階段。 

 

圖2 國際大廠數位語音助理推出時間與生態系規模

要發展數位家庭,林巧珍認為,導入語音助理AI人工智慧僅是門票,建構完善的產業生態系才是勝出的關鍵,目前看來Amazon的Alexa以超過一萬種技能(Skills)暫時領先。但Alexa現階段僅支援英語、德語,過去大家熟悉的Apple Siri反而在多語系領先,市場目前看來還在萌芽期,未來還有很大的發展空間。另外,語音助理進駐家庭也衍生了資訊安全與隱私權的疑慮,還有待進一步建立市場秩序,以降低其帶來的負面影響。 

智慧麥克風最聽話

Echo由於收音效果良好,可以與使用者進行語音互動,智慧麥克風的技術也在近期受到業界矚目,前幾年語音互動最普遍的就是以Apple Siri為代表的智慧型手機,一般都是採用單麥克風設計,但若聲源距麥克風較遠,且環境中存在大量噪音,多徑反射和混響,收音狀況不佳,會影響語音識別率,於是Echo的多麥克風陣列技術成為主要解決方案之一。 

透過波束成型的技術發揮麥克風陣列的優點,鑫創科技產品經理曾建統(圖3)解釋,該技術是當布置了多個相鄰的聲音感測器,得到聲音訊號具有特定的時間先後與聲音大小關係,就像將石頭扔進池塘裡會產生的漣漪;距離聲源較近的聲音感測器較早輸出稍強的訊號,反之則較晚輸出較弱的訊號。從各麥克風採集到的訊號會被篩選組合,對一些在特定角度的訊號進行訊號放大,而其他角度的環境噪音將被抑制。 

 

圖3 鑫創科技產品經理曾建統解釋,麥克風陣列具有靈活的波束控制、較高的空間解析度、高訊號增益與較強的抗干擾能力。

陣列麥克風的功能還包括聲源定位,曾建統表示,聲源的位置並非固定,須計算說話人的角度和距離,對說話人進行追蹤及後續的語音定向拾取,以進行聲源定位。麥克風陣列技術可不需移動位置以改變其接收方向,具有靈活的波束控制、較高的空間解析度、高訊號增益與較強的抗干擾能力等特點。 

然而麥克風陣列的結構有許多種,應如何選擇?考驗廠商研發能力,曾建統強調,首先要釐清產品定位和使用者情境。若能確認近場環境安靜、聲源與麥克風距離很近,則可採用單麥設計,成本最低;如使用者固定在前方的產品如筆記型電腦與電視,就可選用線型陣列;若使用者可能在四面八方,則建議採用環型陣列,但是該結構最為複雜、成本也最高,要採用多少個麥克風的設計更需要繁複的實地測試以確認最佳效果。 

語音助理型態與整合服務

近年因為人工智慧的話題,業界對於智慧機器人的議題有高度興趣,深度學習技術的發展,也確實讓機器人的應用領域無所不在。資策會智通所產品經理劉泰利(圖4)表示,目前一般認知的智慧機器人至少有三種類型,一是根據腳本設定,觸發運轉動作,像是越來越普及的家事機器人;二是漸進認知學習,行為習慣辨識,具備學習能力會進化,類似Alexa、Siri這類型;第三種是盡可能憑機器滿足使用者的需求,當棘手的問題出現後迅速引入人的服務,屬於綜合型的服務。 

 

圖4 資策會智通所產品經理劉泰利表示,人類的五感代表視聽嗅味觸等感覺,透過不同的技術與元件來模擬。

而智慧機器人則是透過整合設備、技術、服務來創造智慧生活。以人類的感官來比喻,劉泰利說明,人類的五感代表視聽嗅味觸等感覺,透過不同的技術與元件來模擬,如攝影機、光譜儀、無線喇叭、壓力感測器、溫度感測器、電子鼻、陣列麥克風、超音波測距等技術。產生不同的六種感覺包括:視覺、聽覺、嗅覺、味覺、觸覺與意覺。 

而近年因為智慧型手機的發展,一般人使用數位服務,通常是透過App獲得,使用架構類似樹狀分層設計,智慧助理則是透過語音辨識與語意識別,致力讓機器人可以像真人一樣與使用者互動。透過將語音轉換成文字,將文字轉換成語意,判斷可能的服務,並將語意轉換成命令。 

再者,透過提供的服務,再決定要以甚麼類型的載具呈現,劉泰利解釋,Amazon Echo、Google Assistant從電子商務切入,以客廳為場域,以音樂播放器為載具。軟體銀行的Pepper、Sharp的RoBoHoN與Asus的Zenbo具備陪伴功能,就以人形機器人的方式呈現。過去最常見的Siri是存在智慧型手機當中,未來要變成盆栽、電視或家庭遊戲機都可以。 

語音/語意優化創造商機

語音互動的便利性其實我們自小在影集與卡通中都有體驗,語音輸入簡化了數位服務的UI,使用者不用學習複雜的操作規則,使得數位體驗的便利性與涵蓋層面更為擴大,不識字的小孩與老年人都可以輕鬆上手,這是該應用普遍被各界看好的主要原因。不過語音服務也不會完全取代過去鍵盤輸入或觸控的數位互動方式,碩網資訊總經理邱仁鈿(圖5)認為,語音服務雖然帶來更高的便利性,但其限制在指令不能太長,無法顯示圖片、影像的相關服務。 

 

圖5 碩網資訊總經理邱仁鈿認為,語音服務雖然帶來更高的便利性,但其限制在指令不能太長,無法顯示圖片、影像。

深入了解這股語音辨識帶來的產業旋風與商機,邱仁鈿分析,Amazon Alexa切入電子商務所以對於歌曲、電影、電視(影集)等關鍵字非常擅長,Google Assistant則是對與地圖、地址相關的服務具備高辨識率。進一步區分to C與to B的不同服務,面對一般消費大眾的服務,大致會由全球性的大企業所提供,有這類實力的不超過五家;而專業性服務,能做產業、區域、應用等不同區隔加以優化的語音辨識服務,相對就適合台灣的產業特性與廠商投入。 

從語音的辨識與優化的角度來看,大概分成三個部分,語音辨識、自然語言處理與深度學習。邱仁鈿說,語音辨識率的提升是此應用的基礎,可以透過技術模型來強化,開放接口可以介接常用語音辨識系統,音素分析是結合聲學辨識理論、尋找機率最高的聲音元素,社群語言分析是跟隨網路社群的脈動學習新的詞彙,並且理解合理的的句法句型;口音優化是結合在地口音進行差異校正,如「台灣國語」;動態詞庫則是即時解析使用者專屬詞庫,並透過增強學習持續優化校正模型。 

自然語言處理的模型,如圖6所示,透過分詞處理、語法分析、上下文分析、媒合答案、記錄使用者行為、組織顧客情資等步驟,基本上就是用許多斷詞讓機器人可以讀懂,最著名的例子就是Google翻譯,最近該服務導入人工智慧技術,將翻譯準確度顯著提升。 

 

圖6 自然語言處理模型

而深度學習的技術模型中,包含類神經網路運算、大量數據分析、發現規則/自動歸類、產生媒合/推薦策略、記錄使用者行為、回饋到模型/提升準度,系統會根據類神經網路挖掘潛在規則,並結合多種分析策略來尋找問題的答案。透過資料庫的整理歸類,在實際的服務過程中透過機器人服務同步解析,根據解析結果分析出最適合的回覆,並使用機器人直接推薦相關服務。

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!