人機介面典範轉移　6G AI語音辨識全面啟動

2026-03-26

誠君

安裝於手機內的行動通訊應用程式已徹底改變了人類與數位世界的互動方式。然而，隨著科技的不斷進步，用戶的期望也不斷提高。其中，最重大的發展趨勢之一是將AI語音辨識技術整合到未來的6G行動通訊應用程式中，以支援更廣泛的新應用服務。

6G語音辨識的優勢

如附表1，與5G相比，未來的6G語音辨識具有下列的主要優勢：

・更低的延遲：6G行動通訊的目標是將訊號延遲降低至1毫秒(ms)以下，這意味著語音辨識幾乎是即時的，語音處理的反應速度更快。

・更高的頻寬：6G訊號的傳輸速率可能達到每秒1兆位元(Tbps)，可支援不需壓縮的高音質訊號傳輸，因而能提高語音辨識的精確度。

・更強大的邊緣運算：6G通訊技術將優化邊緣運算，使手機能夠在本地處理語音命令，同時將複雜的任務卸載至雲端處理，藉此減少對行動網路的依賴。

・整合AI的增強功能：6G行動網路可能會整合先進的AI語音辨識模型，因此能提高在嘈雜環境中的上下文理解能力和準確性。

・更佳的通訊連線：無所不在的6G行動網路覆蓋率，使在偏遠地區也能實現可靠的語音辨識功能，故而克服5G行動通訊的連線限制。

AI語音辨識的應用

對使用者便利性的日益重視，驅使未來的6G行動通訊裝置將會大量採用語音辨識技術。強調快節奏的現代人都想同時處理多項工作，並盡量節省時間。AI語音辨識使他們在駕駛、烹飪或其它需要雙手操作時，還能同時與6G通訊裝置互動。這種免持(Hand-Free)或免手動功能在醫療保健等產業尤其有價值。例如：在手術房，醫生可以使用有支援AI語音辨識的聲控應用程式來存取病人的病歷，或口述寫病歷。

傳統的語音辨識系統是依賴預先定義好的演算法和模式。但AI語音辨識技術則是利用機器學習和自然語言處理(NLP)來理解句子的上下文和口音，甚至根據說話者的語氣、語調變化來檢測情緒和意圖。這使得該技術更加接近人類的直觀反應，幾乎能以人類的同理心來處理複雜的命令和對話。例如：AI語音辨識可以根據句子的上下文來區分同音字詞。它還可以隨著時間的增加，了解用戶個人的語音模式和偏好，來定製用戶個人專屬的語音服務。這樣的個性化功能，可提升用戶體驗，使語音應用程式更具吸引力和效率。下面列舉幾個未來可能會被AI語音辨識技術改變風貌的產業：

・醫療保健：如上述例子，支援AI語音辨識的應用程式正在徹底改變醫療保健產業，甚至能讓醫生以聲控方式執行手術。可節省時間，並降低以手動輸入資料時，因輸入錯誤所造成的風險。

・電子商務：AI語音辨識正重塑電子商務購物者的消費習慣。用戶可以使用簡單的語音命令搜尋產品、比較價格並下訂單。這種免持的購物體驗對於忙碌的消費者尤其具有吸引力。

・汽車：在汽車內，採用AI語音辨識和免持功能後，可以控制導航、娛樂和通訊系統，並確保駕駛者的安全。駕駛者可以專心開車，同時能獲得他們需要的資訊。

・客戶服務：可利用AI語音辨識和聊天機器人(Chatbot)、虛擬助理來改善客戶服務。這些工具可以處理例行事項的查詢，使真正的客服人員能夠專注於其它更複雜的問題。

・殘障輔助設備：AI語音辨識技術大幅改善了殘疾人士的生活，使他們能夠與輔助設備、應用程式互動，帶來更獨立自主的生活。

・物聯網(IoT)：語音辨識將在物聯網系統中，發揮關鍵作用。讓用戶可以使用語音命令控制智慧家庭設備、穿戴式裝置和其它有連接物聯網的器具。

・資訊安全：語音的生物辨識(Biometrics)技術，將根據用戶獨特的語音模式來驗證使用者，以強化應用程式的安全性。該技術將增加一層額外的保護，防止詐欺和未經授權的存取。

・資訊服務：語音辨識技術將針對不同產業提供量身定製的解決方案，以滿足從法律、金融到教育、娛樂等不同產業的獨特需求。

音訊的視覺化

圖1是一個典型的音頻訊號，但它只是展現了此音頻訊號的振幅隨時間變化的情形。音頻訊號在時域(Time Domain)所能提供的有用資訊量並不多。為了更理解音頻訊號，必須將其變換到頻域(Frequency Domain)。變換到頻域後，就可以清楚看到此音頻訊號具有哪些不同的頻率。這種時域和頻域的變換，就稱作傅立葉變換(Fourier Transform, FT)，如圖2。傅立葉變換不僅能求出音頻訊號中存在的頻率，也得出這些頻率的振幅大小。

快速傅立葉變換(fast FT, FFT)是一種優化的離散傅立葉變換(discrete FT, DFT)。FT和FFT的唯一區別在於FT是處理連續訊號，而FFT是處理離散訊號。而且FFT的處理速度比FT快很多。在輸入至FFT之前，一連串的連續音頻訊號必須先經過取樣產生離散訊號。

圖3是一個FFT的應用實例：首先，為了模擬音頻訊號，可以設計一個python程式來建立一個取樣率為100、振幅為1、頻率為3的正弦波，如圖3(a)。然後，將這些離散的振幅值序列輸入至以Python函式scipy.fft()實作的FFT演算法，計算出該訊號的DFT，如圖3(b)。FFT演算法會傳回從輸入訊號中找到的頻率振幅陣列(複數值)，此陣列的前半部是正頻率，另一半是負頻率，可挑選任一半，並計算其絕對值來表示存在於輸入訊號的頻率。為了檢查具有多個頻率的音頻訊號的FFT輸出，需再建立另一個正弦波，其取樣率仍為100(即每1/100秒計算振幅一次)，但振幅設為2和頻率值設為11，如圖3(c)。很顯然，FFT演算法也能計算出第二個正弦波的頻率11的單一尖峰值2，如圖3(d)。若將這兩個取樣率相同，但頻率和振幅值不同的正弦波訊號相加，可得出新的音頻訊號，如圖3(e)。在此新音頻訊號的FFT輸出中，具有兩個頻率的兩個尖峰值，如圖3(f)所示。

清楚可見，音頻訊號中的任一個頻率的存在不會影響其他頻率。另外，需要注意的是，每一個輸出頻率的振幅大小都與相對應的輸入正弦波的振幅大小一樣。

上述輸入的都是使用Python程式模擬產生的簡易音頻訊號，但最後還是要將真實的原始音頻訊號輸入到FFT演算法中，或仍使用上述模擬的音頻訊號，但提高採樣率至16000，如圖4(a)。此原始音頻訊號經過FFT演算法計算後，得出的頻率和振幅值，如圖4(b)所示，輸入的3秒長音頻訊號是由數千個不同的頻率組成。頻率大於2000的振幅值都非常小，這可能是因為在這些頻率中，大多數是由雜訊產生的。其主要的頻率範圍是從0~8kHz，這是因為輸入訊號的取樣率是16000，根據取樣定理，其最高的有效頻率應該是≤8000Hz。振幅最大的頻率範圍是從0~1kHz，這是因為此音頻訊號代表人類的語音，而在典型的人類語言中，這個頻率範圍占有主導地位。

若只使用上述的頻率當作辨識的特徵，語音辨識系統將無法分辨說話者首先說出的內容，因為缺少上下文的時間關聯性。這時就需要頻譜圖(Spectrogram)，如圖5。頻譜圖能表現輸入訊號的頻率隨時間變化的情形。其x軸代表時間，y軸代表頻率，顏色代表在特定時間觀察到的頻率振幅。明亮的顏色代表振幅大的頻率。圖5的頻譜圖與圖4(b)的FFT輸出結果類似，頻率0~1kHz範圍內的頻率振幅最大，其在頻譜圖上的顏色也較明亮。

為了能提供理想的頻譜圖給語音辨識系統使用，還必須將音頻訊號分解成更小的視窗(Window)，並計算每個視窗的DFT或FFT，稱作短時距傅立葉變換(short-time FT, STFT)。這樣就可以獲得每個視窗的頻率，而視窗的編號就代表時間。視窗的大小取決於要解決的問題。對於典型的語音辨識系統，一般是使用20至30毫秒長的視窗。人類在這麼短的時間內，不可能說出多個音素。因此，將視窗設定的夠小，在分類時就不會失去任何音素。但STFT需要在時間和頻率的解析度之間做取捨，因為根據測不準原理，不可能同時實現兩者的高解析度。

此外，這些視窗通常還需要重疊，以減少位於視窗邊緣的資訊遺失，而提供更平滑、更連續的頻譜圖。視窗重疊程度取決於特定應用，但典型值範圍為50%~75%。然而，增加視窗重疊也可能導致更複雜的運算，因為需要處理更多的視窗。一般情況下，語音辨識的視窗重疊是設為50%。

繼續圖4的例子，在產生頻譜圖時，若視窗的持續時間為20毫秒，視窗之間的重疊為50%。因為輸入訊號是以16k頻率取樣，所以每個視窗將具有(16000*20*0.001)=320個振幅。由於視窗是設為50%的重疊，所以需要前進(320/2)=160個振幅值，才能到達下一個視窗。或稱步幅(Stride)為160。STFT演算法的輸出是代表視窗內不同頻率的複數值陣列，需將這些複數值的振幅取絕對值，再經正規化後，產生的二維矩陣就是頻譜圖。

在這個矩陣中，行和列各代表視窗編號和頻率，而元素值代表頻率振幅大小。至此，輸入的音訊檔案已轉換為頻譜圖。與圖像辨識原理一樣，只要將此頻譜圖視為圖像，即可利用頻譜圖的特徵進行語音辨識。亦即將它簡化為圖像分類問題。說話者所說的短語，已被轉換成一個圖像，接著識別那些隱藏在圖像中的字母。只要有豐富的語料庫(Corpus)，就可以訓練出一個基於深度學習的聲學模型(Acoustic Model)，並建立起自己的語音識別系統，如圖6。