由於可透過z座標判讀影像,3D視覺及手勢辨識技術可使人們與周遭機器更自然的互動。然而,要成功實現相關創意應用,仍需適當的硬體及中介軟體支援。
觸控螢幕技術日益普及,人機互動也愈來愈為人所熟悉。儘管歷經許多瓶頸,人機互動的層次已提升到手勢辨識的技術,並運用至娛樂及遊戲市場,然而這項技術將影響我們的日常生活。長久以來,手勢辨識一直在二維(2D)視覺方面進行研究,隨著三維(3D)感測器技術的問世,手勢辨識的應用範圍將變得更加寬廣而多元化。
2D電腦視覺難以實現手勢辨識
電腦視覺技術試圖擁有與人類近似的智慧以了解事物。如果無法判讀周遭世界,電腦將無法擁有自然的人機介面。電腦在理解知覺方面的關鍵問題,包括劃分(Segmentation)、物體表示(Object Representation)、機器學習(Machine Learning)及辨識(Recognition)。
由於2D感知表示(2D Representation of Scenes)本身的限制,手勢辨識系統必須運用不同的訊號,才能獲得更多有用的資訊。雖然使用的可能性包含全身追蹤(Whole Body Tracking),但是儘管合併多個訊號,只有使用2D方式仍然難以超越手勢辨識的範圍。
3D視覺及手勢辨識的挑戰在於取得第三個座標,也就是「z」座標。人眼能夠看見3D物體,眼睛會自然察覺每個物體的(x,y,z)座標,接著大腦將這些座標判讀為3D影像。
影像分析技術則是機器無法以3D進行辨識的其中一項挑戰。目前有三種常用的解決方案,包括立體視覺(Stereo Vision)、結構光圖樣(Structured Light Pattern)及時差測距(TOF),可解決3D獲取(3D Acquisition)的問題,這其中的每一種解決方案都有各自的功能及用途。以這些技術輸出3D影像之後,手勢辨識技術便得以實現。
‧ |
|
|
立體視覺系統應該是最廣為人知的3D獲取系統。該系統使用兩部攝影機獲取左右立體影像,並且略加偏移(Offset)(按照與人眼觀看的相同順序)。比較兩個影像後,電腦即可形成一個像差影像(Disparity Image)呈現物體在影像中的置換結果。該像差影像能視特定系統的需求以彩色或灰階方式呈現。立體視覺系統目前普遍用於3D電影,以達到刺激而低成本的娛樂效果。 |
‧ |
|
|
結構光圖樣可用於測量或掃描3D物體。在這類系統中,會對物體照射結構光圖樣。使用雷射光干擾的投影或投影的影像,即可建立這種光圖樣。使用類似於立體影像系統的攝影機,結構光圖樣系統即可取得物體的3D座標。單一2D攝影機系統也可用於測量任何單一物體的置換,然後透過軟體分析取得座標。無論使用何種系統,這些座標均可用於建立形體的數位3D影像。 |
‧ |
|
|
時差測距感測器是較新的深度資訊系統。時差測距系統是一種光達(LIDAR)系統,將光脈衝(Light Pulse)從發射器(Emitter)發射到物體,接收器可判斷所測物體的距離,以像素格式來表示光脈衝從發射器發射到物體,並傳回接收器的往返時間。
時差測距系統並非掃描器,無法測量點對點的距離。時差測距系統會一次拍攝完整場景,以決定3D範圍影像。測量物體的座標後,即可建立3D影像,並用於機器人、生產製造、醫療技術及數位攝影等用途的裝置控制系統中。
直到最近,仍未有須要實作時差測距系統的半導體裝置,不過,目前的裝置已經具備實現時差測距系統的處理能力、速度及頻寬。
|
3D視覺技術各有特色
目前尚未有一種3D視覺技術適用於各種應用或市場。表1顯示不同的3D視覺技術及其反應時間、軟體複雜度、成本及準確度等優缺點比較。
立體視覺系統需要大量的軟體複雜性,才能產生高準確度的3D深度資料(3D Depth Data),這些資料一般是由數位訊號處理器(DSP)或多核心純量處理器(Multicore Scalar Processors)所處理。立體視覺系統的成本相當低,而且體積尺寸相當小,相當適合手機和其他消費性裝置使用。不過,立體視覺系統無法擁有其他技術所能達到的準確度和反應時間,因此不適合需要高準確度的系統,例如製造品質保證系統(Manufacturing Quality Assurance Systems)。
結構光技術適用於物體的3D掃描,包括3D電腦輔助設計(CAD)系統。與這些系統相關的軟體複雜度可透過需要昂貴的開發及材料成本的硬布線邏輯(Hard Wired Logics)如特殊應用積體電路(ASIC)、現場可編程閘陣列(FPGA)等來處理。而運算複雜度也會導致反應時間變慢。因此,相較於其他3D視覺技術,結構光系統更能夠達到高準確度。
對於製造和消費性電子裝置等需要快速反應時間的裝置控制,時差測距系統在成本與效能兩方面皆相當適中。
時差測距系統的軟體複雜度一般較低,不過需要高成本的照明元件如發光二極體(LED)、雷射二極體,及高速介面相關元件如快速類比數位轉換器(ADC)、快速序列/平行介面、快速脈衝寬度調變(PWM)驅動器,因此材料成本會增加。
z座標牽動3D影像顯示器發展
加入z座標之後,顯示器和影像會更加自然,讓人類感覺更熟悉。人眼看見顯示器呈現的內容就如同用眼睛觀看周圍的事物一般。加入此第三個座標改變了可使用的顯示器及應用程式類型。
觀看3D影像的顯示器,主要分為立體顯示器和多視角顯示器兩種,以下分別說明。
‧ |
|
|
使用立體顯示器(Stereoscopic Display)時,一般須要使用者配戴3D眼鏡。這類顯示器提供左右眼不同的影像,讓大腦將眼睛看見的兩個不同影像判讀成3D影像。這類顯示器目前用於許多3D電視和3D電影院。 |
‧ |
|
|
多視角顯示器(Multiview Display)不同於立體顯示器,完全不須要使用特殊的眼鏡。這類顯示器可同時投影多個影像,每個影像均略微偏移並具適合的視角,因此使用者能夠從各個視角看見同一個物體的不同投影影像。這類顯示器可達到全像效果(Hologram Effect),預計未來能夠實現全新的3D效果。 |
各種創新應用紛紛出籠
處理和顯示z座標的能力,使得許多新應用得以實現,包括遊戲、製造控制、安全、互動式數位電子看板、遠距醫療照護、汽車及機器人視覺。圖1顯示人體骨架和深度圖感測(Depth Map-sensing)的一些應用範圍。
|
圖1 3D影像實現各種市場的新應用 |
‧ |
|
|
人體手勢辨識是為遊戲、消費性及行動產品添增新想法的新型且受歡迎的方法。使用者能夠以相當自然且直覺的方式與裝置互動,使產品的接受度提高。這些人體手勢辨識產品能夠處理3060fps下從160×120像素到640×480像素等各種解析度的3D資料。原始到深度轉換、雙手追蹤及全身追蹤等軟體模組需要DSP,才能有效快速處理3D資料,達到即時遊戲及追蹤的效果。 |
‧ |
|
|
工業及製造感測器等大多數3D視覺產業應用包括最少1像素到數十萬像素的影像處理系統。DSP技術可用在操控並分析3D影像,以判定製造瑕疵或用來選擇正確的庫存元件。 |
‧ |
|
|
無論是看電視、開車或經過機場,我們每天都會不斷看見廣告。透過互動式數位看板,企業可透過定點行銷工具(Pinpoint Marketing Tool)向各個消費者傳達適合的內容。
例如,當某個人走過電子看板時,看板會出現向客戶打招呼的訊息。如果消費者停下來閱讀訊息,看板便會將該動作判讀為對於產品感興趣,而提供更詳盡的訊息。麥克風能夠讓廣告看板偵測和辨識關鍵詞,以進一步決定要傳達的訊息。
這些互動式電子看板系統需要3D感測器進行全身追蹤、2D感測器進行臉部辨識,以及麥克風進行語音辨識。而這些系統軟體將在高階DSP及通用處理器(GPP)上執行臉部辨識、全身追蹤及Flash媒體播放器等應用,以及MPEG4視訊解碼等功能。
|
‧ |
|
|
3D視覺將前所未有的新應用帶入醫療領域。醫生將不再需要和病患同處於一室。運用高準確度3D感測器所實現的醫療機器人視覺,無論病患位於全世界任何地方,遠端及虛擬醫療照護都將能夠確保每位病患獲得最好的醫療照護。 |
‧ |
|
|
車用2D感測器技術長期以來被運用在偵測交通號誌、車道與障礙物。隨著3D偵測技術的問世,3D感測器的z資料能夠大幅提升場景分析(Scene Analysis)的可靠度。
加入3D視覺系統後,車輛便能夠以全新的方式在日間和夜間避免事故。使用3D感測器時,車輛可準確偵測並判讀周遭環境,以判別物體是否危及車輛和車內乘客的安全。這些系統需要軟硬體支援3D視覺影像及大量DSP和GPP處理,才能即時判讀3D影像,避免事故。
|
‧ |
|
|
視訊會議(Video Conferencing)已經發展多年,從模糊且不連貫的傳輸影像蛻變成目前的高畫質系統。未來,功能更強化的視訊會議將運用3D感測器,達到更真實的互動視訊會議效果。
透過整合2D與3D感測器和麥克風陣列(Microphone Array),這套強化的視訊會議系統將能夠連接其他強化的系統,提供高品質的視訊處理、臉部辨識、3D影像處理、雜訊消除和內容播放器(Flash等)。對於如此大量的視訊及音訊處理,需要效能與周邊兩者準確組合的DSP才能達到所需的功能。
|
留意技術細節
對於許多應用而言,需要2D和3D攝影機系統才能適當發揮技術的效用。圖2顯示這些系統的基本資料路徑。取得感測器資料並傳輸至視覺分析的過程並不像資料路徑所顯示的如此簡單。尤其時差測距感測器需要十六倍的2D感測器頻寬,因此形成相當大的輸入/輸出(I/O)問題。
|
圖2 2D和3D攝影機系統的資料路徑 |
另一個瓶頸是從原始3D資料到3D點雲端(Point Cloud)的處理。對於手勢辨識和3D視覺,需要軟硬體準確搭配才能解決這些問題。如今,DSP/GPP組合處理器及離散式類比元件(Discrete Analog Components)和軟體程式庫使得這個資料路徑得以實現。
3D視訊嵌入式系統挑戰仍多
3D視訊嵌入式系統所面臨的挑戰,包括輸入挑戰、兩種不同的處理器架構,以及缺乏標準中介軟體(Standard Middleware)等問題。
面臨輸入頻寬限制
如前文所述,輸入頻寬限制是3D視覺嵌入式系統重要的挑戰。此外,輸入介面並未標準化,設計人員可選擇使用不同的輸入選項,包括2D感測器的序列和平行介面,以及一般用途外部記憶體介面。在具最佳頻寬的標準輸入介面開發之前,設計人員必須使用既有的輸入介面。
有兩種不同的處理器架構
圖2的3D深度圖處理可分為兩個部分:視覺特定的資料為主(Data-centric)處理及應用上層(Application Upper-level)處理。視覺特定資料為主的處理需要處理器架構執行單一指令多重資料(SIMD)、快速浮點乘法和加法(Fast Floating-point Multiplication),以及快速搜尋演算法(Fast Search Algorithms)。DSP相當適合用來快速有效執行這種處理。對於應用上層處理,高階作業系統(OS)及堆疊能夠提供任何應用上層所需的功能集。
按照處理器架構的需求,採用GPP+DSP+ SIMD處理器提供高資料速率I/O的系統單晶片(SoC)相當適合3D視訊處理,能夠提供必要的資料及應用上層處理。
缺乏標準中介軟體
3D視覺處理的中介軟體由多種來源的許多不同部分所組成,包括開放原始碼(如OpenCV)及專利商業(Proprietary Commercial)原始碼。商業程式庫鎖定人體追蹤應用,這是3D視覺特定的應用。然而,不同的3D視覺應用至今尚未有標準化的中介軟體介面開發。
3D視覺/手勢辨識持續帶來驚奇
正當所有人對於3D視覺大加讚賞之際,工程人員已經著眼於未來的發展。未來會有哪些最新技術推出?研究人員已經著手研究可超越、透視及檢查人體及物體的新方法。
全世界的研究人員正運用多重路徑光分析(Multi-path Light Analysis),探究如何檢視各個角落或各個物體。透視度研究(Transparence Research)將催生能夠透視物體及材質的系統,運用情緒偵測系統(Emotion Detection Systems),應用程式將能夠看透人心,偵測說話的人是否說謊。
3D視覺及手勢辨識技術的可能性無限。然而,倘若沒有所需的硬體及中介軟體支援現今的新技術,研究將無法進展。
另外,提供GPP+DSP+SIMD架構的SoC須能夠達到效能與周邊支援的準確組合,並提供必要的頻寬,才能使優異的技術與應用得以實現。
(本文作者任職於德州儀器)