現今多數的消費性電子設備如智慧手機、平板裝置、PC和電視等,都已有或可能在不久的將來整合一個或多個相機,而汽車和許多其他產品導入相機功能的發展腳步也很快。使用這些相機所能完成的事情正在改變人們與設備互動,以及彼此互動的方式,透過一個或多個影像感測器,相機就能產生描述設備四周的三維空間資料,而且創新的業者已開發出可將這些資料轉變成更有意義的操作解決方案。
手勢操作讓人機互動更便利
手勢是人們世代以來與生俱有的互動語言,為電子設備增添各種類型手勢支援,可讓用戶使用自然語言來操作這些設備,相較於觸控螢幕、操作滑鼠或遙控裝置、旋轉旋鈕或按壓開關,這種方式更加直觀和易於操作。
由於手勢控制可降低使用(在某些情況下替代)滑鼠、按鍵、遙控或按鈕的需求,因此該技術將十分有助於簡化人們與設備的互動。在與語音命令和臉部辨識等其他先進的使用者介面技術結合之後,手勢辨識還可為使用者提供更豐富的使用體驗,優化設備對人類自然語言的理解,從而激起下一波的電子創新浪潮。
|
圖1 手勢操作在家庭環境的應用情境 |
舉例來說,當使用者在廚房做事,且手指沾著烹飪調料時(圖1),此時要以手指觸碰平板電腦或智慧手機的螢幕是很不方便的;同樣地,假使這些觸控式螢幕設備是在海灘上,雖然它們是在伸手可及的範圍內,但因為是在混著沙、防曬油和水的環境下,讓它們也不適合在海灘上使用。
事實上,多數人想到手勢辨識時,通常會想像某人藉著揮舞著手、手臂或身體,試圖控制著在大型顯示幕上的一個遊戲或其他應用程式,包括微軟(Microsoft)Xbox 360的Kinect周邊設備,以及一系列增強用於電視的傳統遙控裝置和用於電腦的鍵盤、滑鼠、觸控式螢幕和觸控板的手勢解決方案,都是可用來說明這種發展趨勢的案例。
走出消費性電子 手勢操作進軍汽車/醫療市場
在最近的消費性電子展會上,已有多家電視製造商展示加入相機的(Camera-inclusive)款式,不僅具有手勢控制功能,還具有多種面部辨識功能;甚至連半導體大廠--英特爾(Intel)也有類似作法,宣稱在其超輕薄筆電(Ultrabook)設計中具有多種成像(Imaging-enabled)功能。
然而,做為一種使用者介面方案的手勢辨識,還可應用到其他各式各樣的領域,而不僅只限於消費性電子產品的應用。例如在汽車市場中,相機早已安裝在車輛的後方,協助倒車;以及安裝在側視鏡,用於盲點警示,而手勢辨識功能可視為是一種便利驅動(Convenience-driven)的附加特性,用來控制後車箱和滑動側門。
手勢辨識還能實現更多的汽車應用功能。當駕駛員走近車輛時,一個接近感測器檢測到口袋或錢包中的點火鑰匙(Ignition Key),並且開啟相機。隨後,駕駛員適當地揮揮手或動動腳就可以打開後車箱蓋或側門。
另一個汽車應用的潛在使用案例是在駕駛艙內,當人們在開車而無法觸碰特定按鈕及旋鈕,但仍希望可接聽電話或操作車載資訊娛樂系統功能表時,一個簡單的手勢將是更安全、更快速,且更方便完成這項任務的方法;許多汽車製造商正在試驗把手勢辨識技術當作使用者在汽車行進中的一種控制方法,以及增強駕駛安全性。
|
圖2 手勢操作在醫療上的應用 |
值得注意的是,在醫療應用領域,使用手勢辨識的機會更多。由於健康和安全的原因,醫護人員可能無法觸碰顯示幕或觸控板,但仍須控制一個系統;或是不在顯示幕操作範圍內,但仍須操作顯示幕上顯示的內容(圖2)。此時,適當的手勢,如揮手或把一根手指當作虛擬滑鼠使用,就是兼具安全與快速的設備控制方式。
微軟公司的Kinect Effect視頻展示多項應用,並也在開發用於Windows Kinect的技術(在概念上也適用於其他2D和3D感測器技術)。
手勢介面也可應用在復健,例如Gesturetek的IREX設備可引導病患進行身體特定部分的互動式練習,同時還能提供相關的保健應用,包括具有生理缺陷的用戶可能無法使用傳統的鍵盤或滑鼠,但能使用臉部表情的辨識做為控制方式。現階段,大學院校也在積極研究採用手勢辨識將手語轉換為文字和語音的研究。
另外,未來還可望產生許多把手勢當作顯示控制的不同應用,例如電影《不可能的任務》中Tom Cruise操作大型透明顯示幕的經典畫面,或者考慮在互動式數位訊號中,可反應觀眾手勢的互動式廣告(更不用說要確定特定的瀏覽者年紀、性別、種族和其他因素),以便優化顯示的影像和與瀏覽者有更好的溝通。即使在要求設備精準控制的工業市場中,手勢控制亦有不錯的發揮空間,如透過手勢操作置於屋頂的暖通空調(HVAC)感測器。
手勢控制設計考量大不同
隨著感測器技術、手勢演算法和視覺處理器性能繼續提升,現今獨特的互動活動形式,未來可能會變得既平凡又普通,在各種應用和市場中都可看到其身影。
由於手勢辨識被用來描述實施方案類型不斷擴大的範圍,所以隨著時間的演變,它的含意已變得更加廣泛。例如,人們可以設計和優化這些特定的解決方案,用於近距離或遠距離的互動活動,用於微細解析的手勢或大動作的全身運動,以及用於連續手勢追蹤或短暫持續時間的手勢。
其實,手勢辨識技術相當多元,功能應用也非常廣泛,在不同的人機介面使用場景都能實現。其中,近距離手勢檢測通常用於掌上型設備,如智慧型手機和平板裝置等,互動動作是發生在接近設備相機的場所;相反地,遠距離手勢控制通常應用在電視、機上盒(STB)和數位看板等設備,在這種應用情境下,使用者和設備之間的距離可能跨越數英呎,因而互動的動作在遠距離的情境下發生。
在兩種使用者場景中,使用者介面的便利性都是手勢控制必要條件,所使用的演算法,特別是手勢實施和檢測的方法,有著很大的不同。在近距離使用中,相機看見手勢的方式,完全與在遠距離互動中相機看見相同的手和手勢的方式不同。
另外,不同手勢語言也有很大差別。例如,當使用手勢操控智慧電視功能表時,使用者可發現使用高解析度、小手勢操作選擇功能表項目,是很直觀的;然而,在使用設備來進行基於全身檢測的遊戲時,需要大動作手勢才能提供適合的體驗。
而且,快速完成手勢和涉及連續手部跟蹤的手勢兩者也有不同,例如可使用從右到左或從左到右不同的手部運動,來翻動電子書頁面,或改變音樂播放應用的歌曲。與此對照,連續的手部跟蹤與控制功能表和其他詳細的使用者介面元件相關,比如Windows 8 UI或智慧電視的螢幕。
促進系統元件協同運作 手勢控制標準統一成關鍵
手勢控制解決方案包括幾個不同的關鍵硬體和軟體元件,為提供具有吸引力的使用者體驗,這些元件須緊密整合。首先是相機,它可以擷取代表使用者動作的原始資料,再透過相關影像處理器整理這些原始資料,以減少訊號中的雜訊,或者(在3D相機應用案例中)計算深度地圖。
隨後再以專用的演算法來解釋經過處理的資料,將使用者的運動轉換為電腦能理解的可行動指令,就能以自然和愉快的方式,將這些可行動的指令與使用者回饋整合起來。這些演算法和應用在處理、儲存和其他資源有限的嵌入式系統中實現的情況是愈來愈普遍,從而增加解決方案的整體複雜性。
毋庸置疑,提供具吸引力的手勢辨識體驗,首重將各種影像元件及演算法緊密整合,這並不是一項簡單的任務,且更精準的手勢辨識應用需求還進一步提高複雜性。不僅如此,手勢控制系統須具有高度的互動性,方能以使用者覺察不到的延遲時間來處理大量資料。視不同應用而定,這些資料通常在輸入視頻串流中出現,具有範圍為QVGA至1,080p畫面解析度和24?60畫面更新率(FPS)。
也因此,系統業者要在市場上順利推出手勢控制產品,須仰賴整個技術供應鏈生態系統中不同成員的共同努力,包括感測器和相機製造商、處理器業者、演算法供應商和應用開發人員。
為提供更好的用戶體驗,將不同的元件優化以達順暢且協同運作,是十分重要的。視覺功能是手勢演算法的核心,必須下許多功夫,以優化特定影像處理器的特別功能;然而,很多功能集是常用的,並可在不同的應用和產品中重複使用,因此開發可提供一般低階視覺功能的跨平台程式庫,就很有其必要性。
在手勢控制這樣的新興市場中,涵蓋生態系統的標準化仍然很少。產生3D資料的相機技術有很多種,每種技術會產生其自有的特性效果,每種3D相機還使用其自有的專有介面;而且手勢字典也並未標準化,一個動作可能在一個系統中意味著一件事情,而在不同的系統中則意味著完全不同的事情,因此,手勢控制技術的標準化在未來是不可避免的,也是這個產業成長和成熟的必要因素。
嵌入式視覺聯盟力推手勢控制
手勢控制是嵌入式視覺(Embedded Vision)的一項關鍵應用的例子,而嵌入式視覺指的是在嵌入式系統、行動設備、PC和雲端運算機制中使用電腦視覺技術。以另一種方式來說,嵌入式視覺是指從視覺輸入中提取意義的嵌入式系統,其與過去十年來變得非常普及的無線通訊技術相似,嵌入式視覺技術有條件在未來10年中被廣泛採用。
相較於以往的設備控制解決方案,嵌入式視覺技術擁有實現更廣泛且具有更高智慧性和回應性的電子產品的潛力,從而為用戶帶來更大價值。這項技術可為現有的產品增添有用的功能,且能為硬體、軟體和半導體製造商提供重要的新興市場;為推廣此一技術,嵌入式視覺聯盟(Embedded Vision Alliance)即是由相關技術開發人員和供應商組成的全球性標準機構,可協助工程師將這一潛力轉化為現實。
嵌入式視覺聯盟成員包括BDTI、CEVA、CogniVue、eyeSight Mobile Technologies和Omek Interactive等,聯盟成立宗旨是為工程師提供實際的教育、資訊和對嵌入式視覺的深刻理解,以協助他們在產品中加入嵌入式視覺功能。
對系統業者而言,將手勢控制體驗轉變為商用產品,須權衡成本、性能及準確性等各種要素,基於此一考量,嵌入式視覺聯盟在論壇中可促進異業對話,更深入了解和解決這些權衡要素,從而加快手勢控制技術產品的開發速度,可讓系統開發人員有效地使用手勢使用者介面技術。
(本文作者Brian Dipert任職於BDTI、Yair Siegel任職於CEVA、Simon Morri任職於CogniVue、Liat Rostock任職於eyeSight Mobile Technologies、Gershom Kutliroff任職於Omek Interactive)