Meta歡慶其基礎AI研究團隊(FAIR)成立十週年,並公布於AI領域的最新突破,包含兼具第一人稱及外部視角的AI模型Ego-Exo4D、語音生成模型Audiobox,以及翻譯模型Seamless Communication。
過去十年中,Meta於各類AI領域取得重大進展:研發出可辨識圖像中個別單一物體的Segment Anything技術、建立在不仰賴英文的前提下翻譯100種語言的NLLB(No Language Left Behind絕不拋下任何語言)模型,且近期將「文字轉語音」及「語音轉文字」技術擴展至逾1,000種語言、發布開放且可預先訓練的大型語言模型Llama後,接著推出可供免費用於研究與商用的Llama 2,以及在Connect大會上,介紹已開放給數百萬大眾使用的全新AI產品與體驗。以下將分享Meta基礎AI研究團隊的最新進展。
為教導AI模擬以人類的視角辨識事物,Meta改良Ego-Exo技術,研發出可同時捕捉穿戴者第一人稱(以主角為自我中心)視角,及穿戴者四周的外部(旁觀的、非以主角為自我中心的)視角的Ego-Exo4D技術,在兩個視角的結合下,AI模型能透過更完整的環境資訊,充分理解人類的所見所聞。未來,這項AI創新技術可結合智慧眼鏡,讓虛擬AI教練透過教學影片,引導觀看者快速學習新技能,像是觀看技術人員修理機器的操作過程,並將指導步驟與自身動作進行比對。
年初,Meta發布生成式AI模型Voicebox,協助語音編輯、樣本採集及語音風格塑造,而更新版的Audiobox進一步升級生成式AI技術,使用者可藉由語音指令或文字說明描述欲生成的聲音或語音類型,例如:利用文字「潺潺的溪水與鳥鳴」即可建立配樂、以口頭描述「一名年輕女性以高音及快速的語調說話」來產出語音,讓客製化音訊的打造更加輕鬆。
以SeamlessM4T技術為基礎,新推出的翻譯模型Seamless Communication在跨語言表現上更忠實地呈現原意,並能達到同步翻譯的效果。既有的翻譯服務往往難以捕捉協助人們傳達目的與情緒的重要訊號,如語調、停頓與抑揚頓挫等,SeamlessExpressive是第一個開放且可生動地跨語言溝通的系統,模型將保留講者的情緒與風格,並分析說話速度及節奏,目前支援英文、西班牙文、德文、法文、義大利文及中文;不同於傳統的逐句翻譯,SeamlessStreaming功能則可更即時、高效地翻譯,在講者說話時即時翻譯,使資訊傳達更有效率。
Meta具備獨特的優勢以迎擊AI領域的艱鉅挑戰,透過在軟硬體與基礎設施架構上投注的大量心力,並從中擷取研究知識應用於產品中,以造福數十億人類。基礎AI研究團隊(FAIR)是Meta成功的關鍵,也是世上少數具備所有突破性成功要素的團隊,集結業界一流人才、擁有開放式文化,更重要的是具備探索性研究的自由,使他們能以靈活的姿態,為構建社會連結的未來貢獻心力。
Meta非常重視負責任地研究AI及開放性,在同業的嚴格審視下發表考量周全的應用,有助於Meta更卓越地發展,在創新技術上贏得信賴,並與廣泛的社群合作,從而加速科技進展及吸引更多元的協作者。