NVIDIA針對視訊會議推出的NVIDIA Maxine SDK,背後運用眾多深度學習模型,其中包含Vid2Vid Cameo,該模型使用生成對抗網路(GAN),只要使用單一人像平面照片,就能在視訊通話中合成說話者的立體頭像。
參與者只需要在加入視訊通話前上傳一張自己的真實照片或卡通圖片,就能使用這項功能。開會時,AI模型會抓取每個人的即時動作,接著將這些動作套用在先前上傳的靜態圖片上。這意味著只要與會者先上傳穿著正式服裝的照片,就算剛起床且頂著一頭亂髮、身上還穿著睡衣,直接進行會議也沒問題,因為AI會將與會者的臉部動作套用在靜態的參考照片上,在會議平台中顯現體面的打扮。此外,這項AI技術還能將視訊會議所需的頻寬減少十倍,以避免出現畫面抖動和延遲的情況。
Vid2Vid Cameo只需兩個元素,便能建立用於視訊會議的AI對話頭像,包含一張使用者的臉部照片以及一個視訊串流內容,將決定這個影像要如何進行動作。該模型在NVIDIA DGX系統上使用18萬個高品質對話頭像的資料集進行訓練。該網路學習辨識二十個關鍵點,以便在沒有人類加以標柱的情況下,針對臉部動作建立模型。這些關鍵點針對包括眼睛、嘴巴和鼻子在內的特徵位置進行編碼。
接著,模型會從通話者的參考圖片中擷取這些關鍵點,通話者的圖片可事先發送給其他參與視訊會議的人,或從過往的會議中重複使用。如此一來,視訊會議平台只需發送說話者臉部關鍵點的動作資料,而不用在每一個與會者之間發送龐大的即時視訊串流內容。
對接收者來說,GAN模型在接收端使用這些資訊來合成一個模仿參考圖片外觀的視訊內容。這項技術只需要壓縮和來回發送頭部位置及關鍵點,不用發送完整的視訊串流內容,便能將視訊會議的頻寬需求減少十倍,讓用戶擁有更流暢的通話體驗。因此,可在不影響視覺品質的情況下,配合各種頻寬環境調整模型,以傳輸不同數量的關鍵點。使用者也能自由調整產生出的對話頭像視角,從側面或正面顯示、調低或調高攝影機的角度。照片編輯員同樣能將這項功能應用在平面照片上。
NVIDIA研究人員發現,Vid2Vid Cameo可產生更真實清晰的結果,不管參考圖片和視訊內容是否出自同一個人,還是當AI把一個人的動作轉移到另一個人的參考圖片上,它的表現都比最先進的模型更出色。後面這項功能可以把說話者的臉部動作,用在視訊會議裡的數位化身上並讓它們動起來,甚至是讓遊戲或卡通人物呈現出更有真實感的表情和動作。