MR 混合實境 VR AR 虛擬實境 擴增實境 HoloLens SLAM SPAAM HMD 3D地點 點雲圖

多重技術實現虛實精準疊合 頭戴式混合實境擬真度再升級

混合實境(Mixed Reality, MR)是一種介於虛擬實境(Virtual Reality, VR)以及擴增實境(Augmented Reality, AR)之間的技術,虛擬實境是透過包覆式顯示器將眼睛所能看見的視野完全覆蓋,使得使用者沉浸在一個虛擬的世界中;擴增實境則是透過手機相機來看見真實世界的影像並將虛擬的物件擴增到現實世界中,讓使用者在視覺上認為有一個物體存在於真實世界中。而混合實境則是擴增實境的衍生,使用者不只可以看到虛擬物件與現實場景的疊合,更可以透過手勢辨識等方式與虛擬的物件進行互動。

而為了達到混合實境的效果,除了相機之外,還需要其它的設備進行輔助,才能夠讓虛擬物件精準地疊合在現實場景之中。目前市面上的混合實境設備有微軟(MicroSoft)所推出的HoloLens、愛普生(Epson)的BT-300、佐臻(Jorjin)的J-Reality。

相機校正技術

虛擬物件精準疊合是混合實境的核心技術,須透過許多技術才能夠實現,其中較重要的便是相機校正,以及同步定位與地圖建構技術(Simultaneous Localization and Mapping, SLAM)。

在相機校正的技術中,會依照不同的使用設備來探討,而目前主流的設備有兩種,第一種是視頻透視型(Video See-through, VST),透過設備中對外的攝影鏡頭,從真實世界接收真實的影像串流,並同時將虛擬的物件加入串流影像中。此款設備通常會遮住雙眼,透過裝置內的螢幕觀看真實世界與虛擬物件的混疊,故也稱作混合實境顯示器(MR Display),其優點在於真實世界的座標系統經串流後,已被平面化至虛擬作標系統,因此透過準確地影像分析演算,虛擬物件的疊合相對容易,但對使用者來說,看到的影像仍為數位取樣後的成像,而非真實世界的成像。

第二種則是光學透視型(Optical See-through, OST),用戶可以直接觀看真實世界,並透過光學投影的方式,將虛擬物件渲染到使用者眼前的光學透視設備,通常為一片透明的顯示器。其優點在於使用者可準確的觀察真實世界,但因兩個座標系統相互獨立,若想正確地投影兩個座標系統(即視在座標及世界座標),則有較大的難度,因此在過去幾年間,有大量的研究進行探討,兩個座標系統如何更精準、更容易地實現疊合,例如以感測元件輔助、根據眼球投影輔助或是單點主動校準法(Single Point Active Alignment Method, SPAAM)等方法。

SPAAM

SPAAM是由M. Tuceryan於2002年提出。經過多次改良後,又稱作直接線性轉換(Direct Linear Transformation, DLT),是早期十分常見的校準方法。主要流程是在螢幕上投影一個十字準心,將此準心與使用者當前空間中的真實物體進行疊合,使用者確認疊合後,十字準心會再隨機出另一個位置。經多一串座標點蒐集過程後,可得到校正後的結果。

由於SPAAM不使用景深感測器,而是根據當前追蹤器的相對位置,判斷對準之物件在空間中的大略位置,也因此誤差較大,校正方法的精確度亦受限追蹤器的精確度,因此須透過多次的校正程序,才能降低校正誤差。

此外,為了進行回歸分析,該方法需要蒐集一定數量的資料才可開始進行校正程序。若蒐集的資料太少,則無法定義出所有的參數,稱作欠定(Underdetermined);若蒐集的資料過多,則會造成奇異值拆解發生問題,稱作過定(Overdetermined)。

感測元件輔助校準法

由於SPAAM的誤差較大,加上對蒐集的資料要求較高,因此近幾年多數研究,會利用各種感測元件輔助校正。慣性量測單元(Inertial measurement unit, IMU)、相機鏡頭,以及景深感測器是最常見的幾種感測元件。IMU通常會與HMD整合在一起,藉此同步量測HMD的姿態;而相機鏡頭通常會固定於HMD上,用來拍攝前方物體,藉此將原先的轉換矩陣映射成多個矩陣連續相乘。

由於鏡頭與HMD的相對關係是固定的,因此可將轉換矩陣的初始量測值簡化,大幅縮小量測誤差。而景深感測則可更有效地偵測當前環境,大幅縮小轉換時的Z軸誤差。而缺點可能會增加設備的整體重量,使得頭戴式裝置過重。

眼球投影輔助校準法

上述方法雖然能夠實現校正,但對於眼球到HMD螢幕的量測值,仍無法精確量測。因此近幾年的校正研究,亦有專注於眼球的投影技術。該方法捨棄評估轉換矩陣的動作,而是根據螢幕投射至眼球的圖像進行自動校正,因此無須手動進行評估。但由於該方法每個眼睛需要一個拍攝眼球成像的鏡頭,因此硬體建置成本較高,但對於整體運算效能及正確率均可大幅提升。

縱觀以上所述,螢幕和眼球的校正,因為僅須考量瞳距資訊,且戴上HMD後可假設為固定值,而人眼瞳距均落在一個固定範圍內,因此若不進行校正,人眼亦可大略的適應此視差。若視差仍太大,則可透過簡易的SPAAM,快速校正兩眼的投影矩陣,即可獲得不錯的效果。

同步定位與地圖建構技術

要完成虛實疊合的功能,還須進行環境掃描,透過環境掃描來瞭解整個世界座標,進而使得虛擬物件可與現實世界進行互動,而同步定位與SLAM可以幫助我們完成這件事情,透過SLAM的掃瞄,可以存下環境中重要的特徵資訊,主要概念是透過不同感測器(如深度攝影機)於未知環境中來回穿梭移動,並紀錄環境地圖特徵建構2D或3D地圖,來達到定位(Localization)自身位置和姿態、建構地圖(Mapping)、路徑規畫(Navigation)等目的,而在影像前處理方式可分為特徵法與直接法。基於特徵的方法是當前的主流方式,常見的特徵提取方法包括SIFT、SURF、ORB等,找出影像中具有代表性的特徵。

特徵法主張針對前後兩張影像應先提取特徵點與描述子資訊進行特徵匹配。接著就能從這些選取出來的特徵點進行估計相機運動,同時估計特徵點位於空間中的所在位置,如圖1所示。

圖1 特徵法-特徵匹配

直接法概念則是忽略了提取特徵點的步驟,使用攝影機對環境進行空間掃描,直接根據實際環境的像素訊息,來估算相機的運動。因為利用了圖像中所有的資訊,直接法能建構出稠密的點雲地圖,在稠密地圖裡,使用肉眼能輕易觀察環境各處細節與樣貌,而非離散的點雲特徵資訊,如圖2所示。

圖2 室內3D點雲稠密地圖

本文整理了幾種SLAM方法(表1),各個方法都有不同的優缺點,以下分別說明其重點:

表1 SLAM開放原始碼專案整理

.Kintinuous

Kintinuous需要強大GPU運算能力,只依賴深度攝影機提供幾何資訊估算相機姿態,無閉環檢測。(CUDA>=7.0)

.ElasticFusion

ElasticFusion未對大範圍應用做最佳化,只適應於小範圍有空間限制。(CUDA>=7.0)

.ORB-SLAM2

ORB-SLAM2建構稀疏特徵點地圖,建模速度上較慢,畫面更新率<=10HZ,支援單相機、雙相機、RGB-D相機為輸入來源。建模過程如圖3所示。

圖3 ORB-SLAM2利用單相機建構3D點雲稀疏地圖

.LSD-SLAM

LSD-SLAM對於光影變化敏感、誤差比ORB-SLAM大5~10倍、必須假設場景靜止不變。

.RTAB-map

RTAB-map建模速度快效果佳,受光線變化影響小,可儲存2D和3D地圖、PCD檔、PLY檔(點雲)匯出匯入,適應於機器人作業系統,建模過程如圖4所示。

圖4 機器人使用RTAB-map方法建置2D與3D地圖

而圖5顯示2D與3D地圖建置辦公室環境,RTAB-map能將機器人所感測到的地圖資料對應於地圖上。有了建構完成的地圖後,我們必須要知道身處於地圖中的何處,也就是同步定位,才能進行後續路徑規畫與應用。

圖5a 2D辦公室環境地圖
圖5b 3D辦公室環境地圖

假設使用機器人即時定位,由於透過機器人運動與搭載的感測器估算的機器人位置訊息通常具有些微誤差,這些些微誤差會逐漸累積,將會導致無法預期的結果。因此,為了避免累積誤差問題,必須透過閉環檢測的方法,來辨識曾經造訪過的地圖訊息,利用這些線索來修正累積誤差。

整體來說,SLAM的演算法會依照不同的運用情況以及實際場域而有所限制,硬體設備(如深度攝影機、六軸感測器等)的限制也會影響演算法的運算。因此須多方測試才能找到最適合的演算法,在得到定位以及地圖點雲的結果之後,便可以利用此結果來進行虛擬物件的投影疊合。

虛擬物件與真實空間的疊合

虛實疊合包括虛擬內容和真實內容,虛擬內容係指由使用者創建或由數據生成的模型、影像或動畫,真實內容則指由使用者依據真實世界的物件或場景進行掃描或臨摹而生成的模型、影像或動畫(圖6)。

 

圖6 Microsoft HoloLens混合實境虛實疊合示意圖
資料來源:微軟官網

透過SLAM技術得到的定位結果,依據真實世界的物件或場景進行掃描建置場景點雲模型,並記錄關鍵幀的影像與其相機旋轉和位移資訊,建置出來的地圖資料其座標空間通常與虛擬內容不一致。

為達疊合目的,須通過空間對齊步驟方法求得虛擬內容與真實內容最佳的空間對應關係,包括尺寸、旋轉和位移,此結果可用來校準實際場域之地圖資料(三維點雲)的座標,藉此可推算虛擬物體放置於實際空間的座標,達到虛實內容精準疊合的目的。

如圖7所示,混合實境的精準疊合可以運用在工業的設備操作上,透過疊合在按鈕上的三維虛擬物件,就算是不熟悉設備操作的人員,也可以依照智慧眼鏡所顯示的操作指示來完成設備的操作。其他像是醫療手術或是汽車組裝等情境,都是非常適合混合實境的應用情境。

圖7 混合實境虛實疊合示意圖
資料來源:資策會

混合實境的技術已成為現在主流的技術之一,目前除了智慧導覽、智慧醫療等常見應用外,工業應用也同樣適合此技術發展,傳統在產業上指導新進人員維修機台、檢修設備或機器組裝時,以往必須由資深人員一對一或一對多進行陪同指導教學,不僅效率較差,人力、維護成本也相對提高不少。

透過智慧頭戴式裝置的混合實境疊合,透過眼鏡能觀看虛擬內容於真實世界中精準疊合,讓新進人員有直觀的操作教學並循序的引導每一個動作,大幅節省人力成本與時間的投入。

(本文作者皆任職於資策會智慧系統研究所)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!