NVIDIA分享表達性語言合成研究成果

2021-09-13

原本的自動電話語音和已經發展數十年的GPS導航系統都只能發出生硬的機器合成聲音，而人工智慧(AI)卻讓智慧型手機和智慧音箱中的虛擬助理呈現逼真的語調。不過，AI合成的聲音與真實人聲還是有所差別，原因在於人們說話時帶有複雜的節奏、音調和音色，這是AI難以模仿的。

然而這個差距正迅速縮小，NVIDIA的研究人員正在打造高品質、可控制的語音合成模型與工具，它們能捕捉人類口說聲音中的豐富細節，又不會聽起來人工感很重。這些模型有助銀行和零售商的自動語音客服，也能讓電玩遊戲或書籍中的人物更為生動，並即時為數位分身加上合成語音。

表達性語言合成只是對話式 AI 的其中一項研究，這個領域還包括自然語言處理、自動語音辨識、關鍵字偵測、音訊增強等。這項先進研究成果的部分內容已透過NVIDIA NeMo工具套件成為開放原始碼，可在NGC容器及其它軟體中心取得，並經最佳化調整，能在NVIDIA GPU上高效執行。

NVIDIA的研究人員與創意專家對於對話式AI不是只會坐而言，還會起而行，實際運用突破性的語音合成模型，介紹重塑各產業發展的全球AI創新者。但直到最近，都是由真人擔任這些影片的旁白。過去的語音合成模型對於合成聲音的節奏和音調控制能力有限，因此和真人旁白相比，嘗試以AI製作影片旁白無法激起觀眾的情感。然而，過去一年出現了變化，NVIDIA研究團隊發展出控制能力更強的語音合成模型，透過RAD-TTS，使用個人說話的聲音來訓練文字轉語音模型，可將任何文字提示變成說話者的聲音。

聲音轉換是它的另一項功能，例如畫面上是A在說話(甚至是唱歌)，觀眾們聽到的卻是B的聲音。設計RAD-TTS介面的靈感來源是將人的聲音當成一種樂器，使用者便能夠逐幀微調合成聲音的音調、持續時間和能量。

精選影音

Upcoming Events

NVIDIA分享表達性語言合成研究成果

您可能感興趣的文章

推薦文章

精選影音

AI代理驅動下的物聯網安全防護新思維 — 國立臺灣大學電機系教授暨資安科技研究中心主任林宗男

從汽車資安軌跡看見機器人未來: 機器人資安風險與防禦之道 — VicOne

AI代理驅動下的物聯網安全防護新思維 — 國立臺灣大學電機系教授暨資安科技研究中心主任林宗男

從汽車資安軌跡看見機器人未來: 機器人資安風險與防禦之道 — VicOne

熱門活動

【實體活動】9月8日 PCIe高速互連關鍵技術論壇

【實體活動】8月27日先進封裝技術創新與量產趨勢論壇

【實體活動】8月19日 AI無人載具關鍵技術應用研討會

【實體活動】8月5日 PQC Taiwan 2026 企業後量子安全高峰論壇

【實體活動】8月4日 SiC/GaN功率元件創新技術與應用趨勢論壇

【實體活動】7月28日 AI智慧機器人馬達驅控設計論壇

熱門關鍵字

NVIDIA分享表達性語言合成研究成果

您可能感興趣的文章

推薦文章

精選影音

AI代理驅動下的物聯網安全防護新思維 — 國立臺灣大學電機系教授暨資安科技研究中心主任 林宗男

從汽車資安軌跡看見機器人未來: 機器人資安風險與防禦之道 — VicOne

AI代理驅動下的物聯網安全防護新思維 — 國立臺灣大學電機系教授暨資安科技研究中心主任 林宗男

從汽車資安軌跡看見機器人未來: 機器人資安風險與防禦之道 — VicOne

熱門活動

【實體活動】9月8日 PCIe高速互連關鍵技術論壇

【實體活動】8月27日 先進封裝技術創新與量產趨勢論壇

【實體活動】8月19日 AI無人載具關鍵技術應用研討會

【實體活動】8月5日 PQC Taiwan 2026 企業後量子安全高峰論壇

【實體活動】8月4日 SiC/GaN功率元件創新技術與應用趨勢論壇

【實體活動】7月28日 AI智慧機器人馬達驅控設計論壇

熱門關鍵字

AI代理驅動下的物聯網安全防護新思維 — 國立臺灣大學電機系教授暨資安科技研究中心主任林宗男

AI代理驅動下的物聯網安全防護新思維 — 國立臺灣大學電機系教授暨資安科技研究中心主任林宗男

【實體活動】8月27日先進封裝技術創新與量產趨勢論壇