資料增強技術讓AI模型能夠使用大都會藝術博物館的一個小資料集模擬藝術品,並在醫療等領域中開創新的潛在應用範圍
NVIDIA研究人員利用神經網路訓練技術應用在NVIDIA StyleGAN2模型,他們蒐集了大都會藝術博物館不到1,500張資料集,從新的角度來審視藝術品。他們用NVIDIA DGX系統來加快訓練速度,取材自歷史人物肖像,創造出新的AI藝術。
NVIDIA Research最新人工智慧(AI)模型使用一般生成對抗網路(GAN) 的一小部分學習材料,學習成果如模仿著名畫家的畫風,以及重現癌症組織影像似複雜的技能。
這項稱為自我調整判別器增強(adaptive discriminator augmentation, ADA) 的技術,將訓練所需的影像數量減少了10到20倍,卻依舊能獲得良好的訓練成果。同樣的方法未來可能會對醫療領域產生重大影響,像是建立癌症組織學影像來協助訓練其它的AI模型。
NVIDIA繪圖研究部門副總裁David Luebke表示,這些結果代表人們可以使用生成對抗網路來解決問題,這些問題不是得耗費大量時間來取得海量資料,不然就是難以取得這麼大量的資料。
這項新方法是NVIDIA研究人員在生成對抗網路創新傳統中的最新成果,這些研究人員開發出生成對抗網路模型,像是AI繪畫應用程式GauGAN、遊戲引擎模仿程式GameGAN及寵物照片變臉程式GANimal。這些應用程式可以在NVIDIA AI Playground上取得。
訓練資料的困境
生成對抗網路跟大多數神經網路一樣,長期以來始終遵循一個基本原則,也就是訓練資料越多,模型品質越好。原因在於每個生成對抗網路都由兩個合作的網路組成,一個負責建立合成影像的生成器,還有一個根據訓練資料學習逼真影像外觀相似程度的判別器。
判別器對生成器進行指導,對它生成的每個像素給予回饋,以協助提高合成影像的真實感。然而可供學習的訓練資料有限,判別器無法幫助生成器徹底發揮其潛力,就像是一個新手教練所經歷過的比賽場次,比經驗豐富的專家少得多。
通常要用上五萬到十萬張影像,才能訓練出一個高品質的生成對抗網路。但在多數情況下,研究人員手邊根本沒有幾萬或幾十萬張樣本影像可供使用。
如果只用幾千張影像來進行訓練,許多生成對抗網路會無法產生出極具逼真感的影像。判別器只是單純記住訓練影像,無法提供有用的回饋給生成器時,就會出現這個稱為過度擬合(Overfitting) 的問題。
研究人員在影像分類的任務中,以資料增強技術來解決過度擬合的問題,而資料增強技術以旋轉、裁剪或翻轉等過程來隨機扭曲影像,為現有影像建立副本以擴大規模較小的資料集,迫使模型擁有良好的歸納概括能力。
過去嘗試過把增強技術用在生成對抗網路的訓練影像上,造成生成器學會了模仿這些扭曲後的影像,而不是建立具有可信度的合成影像。
身負重任的生成對抗網路
NVIDIA Research的ADA方法能夠以自我調整的方式來增強資料,代表在訓練過程中不同的時間點調整資料增強量,以避免過度擬合。此舉讓StyleGAN2這樣的模型就算使用少一個數量級的訓練影像,也能達到同等效果。
這麼一來研究人員便能把生成對抗網路用在過去不切實際的應用項目裡,會視為不切實際的原因,在於這些應用項目的範例太少、太難取得,或是得耗費大量時間才能蒐集到一個大型資料集。
藝術家們使用不同版本的StyleGAN來創作令人驚嘆的展示品,並且按照傳奇插畫家手塚治虫(Osamu Tezuka) 的風格創作新的漫畫。Adobe公司還用它來支援Photoshop的全新AI工具Neural Filters。
想要入門學習這個模型無需太多訓練資料,帶有ADA的StyleGAN2可以用於創作稀有的藝術作品,像是來自法國巴黎的AI藝術團隊Obvious使用生成對抗網路創作出的非洲科塔(African Kota) 面具作品。
醫療保健是另一個前途大好的應用領域,在多數測試結果皆為正常的情況下,罕見疾病的醫學影像並不多。醫學專家要花上不少時間來一一標註,才能累積出一個有用的異常病理切片資料集。
使用搭配ADA的生成對抗網路來建立合成影像,可以解決這個問題,為另一個AI模型產生出訓練資料,協助病理學家或放射科醫生在病理影像或MRI研究中找出罕見疾病。一個額外的好處是,有了AI產生出的資料,就不存在患者資料或隱私的困擾,醫療機構便能更容易共用資料集。