藍牙 遲延 QoS LC3 無限音訊 封包 PCM CVSD Bluetooth SIG

取捨數位音質無線遲延 藍牙音訊編解碼器演進揭秘

2022-07-02
藍牙反映無線音訊傳輸發展,不同的音訊編解碼器技術須在音質和速率之間取捨以達成平衡,卻也衍生訊號遲延與電力耗損問題,為此藍牙技術聯盟(Bluetooth SIG)持續採納支援適合不同應用場景需求的編解碼器技術。

在無線音訊領域中,特別是對那些高傳真音響愛好者們而言,最具爭議的兩個方面就是音訊的品質和遲延。在早些年前,藍牙(Bluetooth)技術經常因這兩個原因而受到批評,雖然在大部分的情況下,比起藍牙規格,音訊的品質可能與用來展現音效的電聲轉換器更有關。

在任何無線音訊傳輸上,都會涉及到部分的技術妥協,而在現實生活中也會面臨到許多干擾。也就是說,有些音訊資料會因此遺失。這會在音訊間造成許多間隙,除非採用增加冗餘碼的方法。事實上,那就是透過多次傳送音訊封包,讓其中的任一音訊有更多的機會被傳輸過去。但為了達到那樣的效果,必須要能夠將該音訊壓縮,這樣才有時間傳送多個複製的訊號,而這正須要使用編解碼器(Codec,編碼器和解碼器的組合詞)。 編碼器將類比訊號接收後,會將其數位化並壓縮該數位資料,因此它能比傳送原始樣本花費更短的時間。也就是說,它能在下一個樣本送達之前被多次傳送。如果第一次傳送的樣本遺失或毀壞的話,那麼接下來重新傳送的樣本將會取代其位置。在接收裝置內的解碼器會解碼接收到的資料,將其展開並重新產生原始的音訊訊號。因為執行編碼和解碼都需要時間,所以這就造成了在原始訊號和解碼後重建訊號間的延遲。

音訊編解碼器是相對近期的發明。在音訊傳輸的第一個百年間,從1860年的聲波記振儀,再來經過了無線電廣播、黑膠唱片以及磁帶都是在處理原始的音訊訊號。如果有天氣的干擾、唱片或是蠟筒上出現刮痕,或是磁帶被拉扯的話,聲音就會遺失或者失真。光碟(CD)的導入改變了這一切。脈衝編碼調變(PCM)的開發將類比訊號轉換成數位訊號,讓這一切變成了可能。

PCM是以高於能夠聽到的頻率來取樣音訊訊號(CD是以每秒44,100次的頻率),將每個樣本轉換成數位數值。解碼則是以相反的方式執行該操作:藉由數位轉類比的解碼器來還原該類比訊號。每個樣本包含越多位元,輸出的音訊就會與原始輸入越接近。CD與大部分的音訊編解碼器一樣,都是使用16位元的樣本。其中,每個樣本的取樣頻率和位元都相當地高,人類根本無法區分其中的差異。但是一個單純的PCM數位檔案若沒有經過壓縮的話,它的檔案大小將會很可觀。若以44.1kHz和16位元取樣的話,每秒會產生800k位元,所以一首單聲道5分鐘的歌曲大約是26MB,而立體聲道的則高達52MB。這樣的限制讓一片標準的CD只能收錄大約1小時的音樂而已。

緊接到來的是,由Fraunhofer協會開發的MP3音訊編解碼器轉變了數位音樂的分布。它使用稱作知覺編碼的技術(有時候也稱作心理聲模型),能夠比較音訊串流與人類耳朵實際能聽覺而認知的資訊。那可能是一種大部分人類可聽覺範圍外的高頻聲音,所以可以用比較少的資料來完成編碼,或者是一個保留通知,讓編碼器可以指示只須重複之前的樣本或執行一個不同的編碼。透過這些方法的應用,就能大大地減少數位化音訊檔案的尺寸。

根據不同的內容,MP3通常能減少數位化音樂檔案25%到95%的大小。過去有少數的聽眾擔心該過程會稍微地影響到品質,但現在覺得這增加出來的方便性,遠遠地超越音樂上任何可察覺的影響。

音樂檔案尺寸的減少,導致了音樂分享服務的產生如Napster以及MP3播放器的出現。此外,也引爆了串流服務和無線音訊傳輸發展的起跑。因為縮小檔案的尺寸,意指將會有更多的時間重新傳送壓縮完成的音訊封包,來處理任何在傳輸中出現的中斷。

使用編解碼器 解決遲延難題

使用編解碼器的一個缺點就是,它們會增加訊號的遲延,這是一段從原始類比訊號抵達傳送器到重建訊號在接收器展現間的延遲。

圖1展示了造成遲延的一些元件。第一,音訊先被取樣。知覺編碼需要一組編解碼器來檢驗這數個連續的樣本,因為許多壓縮的機會都來自於重複聲音(或無聲音)期間的判定。意思是指大部分的編解碼器都須要擷取充足且連續的樣本,以收集足夠的資料來特徵化這些改變。該取樣期間稱作一個訊框。

圖1 音訊傳送中元件的遲延

不同的編碼技術會使用不同的訊框長度,但是它幾乎都是一段固定的持續時間。如果訊框太短的話,有限個數的樣本會開始減少編解碼器的效率。因為它沒有足夠的資訊來應用知覺編碼的技術而對品質造成影響。另一方面,如果訊框大小增加,那麼品質也會提升,但是遲延也會跟著增加,因為編解碼器必須等待更長的時間來收集每一個音訊資料的訊框。

圖2說明了其中的取捨關係。這會隨著編解碼器的壓縮方式的不同,而有不同的表現。但是,對於一般可以用在聲音和音樂兩者的編解碼器而言,業界發現在訊框長度大約10毫秒(ms)的地方有一個甜蜜點,它能在合理的遲延下同時達到良好的品質。

圖2 音訊編解碼器訊框尺寸的甜蜜點

還有另一個取捨關係:編解碼器在運作時需要消耗的能量,也被稱作複雜度。當試想從編解碼器中擠出更多的音訊品質時,那麼就需要一個更快的處理器,但它也會開始減少電池的壽命。這可能對手機或電腦不是一個大問題,但若是為助聽器或耳機的麥克風輸入訊號進行編碼,那將會是一個很嚴重的問題。

回到圖1和無線音訊傳輸的通則來看,一旦音訊訊框被編碼,無線電會將它傳送至接收裝置。傳輸通常會比編碼來得快,但如果協定中包含了重新傳送的機會,那麼在開始解碼前,須要先允許這些動作。從第一次傳送開始到最後一次傳送被接收結束的期間被稱作傳送延遲,它的範圍可以從幾個毫秒到幾十個毫秒。

可以在接收到第一個封包時就開始解碼,但是一旦執行,就必須去緩衝它。這是因為輸出的音訊串流需要被重建並且其中不能有任何間隙,所以它必須被延遲直到每一個重新傳送的機會都通過為止,並處理一些封包需要最多重新傳送機會通過的情況。否則,提早抵達的封包會被提早被展現,而其他的則不會。

最後,在編碼過的音訊資料被接收後,它就須要被解碼,然後轉換回待展現的類比形式。解碼通常會比編碼來得快而且沒有訊框的延遲,因為解碼器會自動展開輸出的訊框。它一般都使用極少於編碼時的能量,因為大部分的編解碼器都設計用於檔案在生產時只編碼一次,然後解碼很多次的情況下,例如從中央伺服器中串流音樂時。因此,解碼器都會出現固有的非對稱設計。

典型藍牙編解碼器 了解其優點和限制

現有的藍牙音訊類型兩者都因應各自的使用目的和特殊要求而開發,每一種都有不同的優化編解碼器,如圖3所示。原來的免手持裝置規範(HFP)規格是設計使用連續可變斜率增量調變(CVSD)編碼法,它是一種具短遲延的編解碼器,並廣泛地使用於電話相關的應用。

過去CVSD是第一種將聲音數位化並壓縮方式中的其中之一。它能迅速地取樣,通常為每秒64,000個樣本,但僅能擷取出當前和正在進行中樣本間的差異。也就是說,它並沒有訊框而且取樣和編碼的延遲都相對地短。同樣地,輸出的解碼也能快速地執行。其中的取捨就是品質的犧牲,而且因為沒有進行壓縮,所以它完全是即時訊號,並沒有任何重新傳送的機會。

下一個版本的HFP包含了mSBC,這是藍牙進階音效廣播協定(A2DP)中規定的SBC編解碼器改良版,用來支援寬頻的語音訊號。而mSBC事實上就是SBC的刪減版,其中用有限的取樣頻率於單一且單音的串流訊號。作為一個訊框型的編解碼器而言,遲延的增加通常會造成整體大約30毫秒的延遲。這些都導致HFP被歸屬於圖3中的短遲延、低至中等品質的特徵象限內。

相反地,A2DP則是設計用於高品質的音樂上。它委派給次頻帶編碼(SBC)的編解碼器:一個有著非常基本的心理聲模型的訊框型編解碼器。比起原始的音訊串流,它可以製造非常高的音訊品質,能夠達到只有經驗豐富的收聽者才能察覺出來的極限。A2DP的規格也能夠適用於外部公司或者標準團體開發出來的另類[1]編解碼器,選項包括有AAC[2](用於Apple的大部分藍牙產品中)、MP3和ATRAC[3],另外廠商也可以選擇專屬的編解碼器。這裡面有些已經變得越來越受歡迎,其中最為人熟知的就是高通(Qualcomm)的AptX系列。幾乎所有的這些編解碼器都有較長的遲延。

在圖3中,A2DP是在圖示中右上方的象限內,有著較長的遲延特徵。這一部分是因為嘗試讓音訊變得更強健而需要使用重新傳送位元所導致。然而,對於過去習慣脈衝干擾(如唱片擦訊)的聽眾而言,他們顯得更無法接受在音訊串流中突如其來的「爆音」或壓降。最簡單的解決方法就是增加更多的重新傳送和緩衝位元,但這也就意謂著無線音樂串流通常都有100到200毫秒的遲延,即使是在手機或電腦上進行串流。雖然編解碼器與該延遲並無關聯,但是這些發生的事實都意指編解碼器的設計者通常都沒有專注在遲延的改善,除了一些特殊的應用(如遊戲)以外。

圖3 HFP和A2DP類型的效能

雖然100到200毫秒的遲延聽起來好像很誇張,但對大部分音樂的應用程式而言,這並不是什麼大問題。不管是從音樂播放器或是任一的網路服務,使用者根本無法分辨正在聽的串流音樂是即時或是非即時的。只要音樂串流在按下播放按鍵後的1秒內開始運作,而且該音樂串流是連續且無任何擾人的中斷,那麼聽眾便會快樂地享受著音樂。不過,當該音訊是影像音軌時,那麼他們可能就會察覺到語音同步的問題了,因為看到某人說話到聽到他們的聲音間有著200毫秒的延遲,應該會看起來有些失常。手機和電視製造商可以透過延遲影像來補償任何音訊的遲延來解決這個問題。

建構A2DP類型藍牙設備的音訊/視訊分發傳輸協定(AVDTP)包含了一個延遲報告的功能,能讓音訊源設備去詢問接收器在音訊通道上會有多少遲延。知道這個之後,電視和手機就可以延遲視訊,讓聲音和畫面兩者能夠同步。不過,許多的電視和耳機僅有有限的記憶體來執行對音訊或視訊的緩衝,所以超過幾百毫秒的遲延也可能會造成問題。

甚至短音訊的延遲也可能會變成問題,使用者可以同時聽見藍牙音訊和原始周圍聲音的來源,這在很久以前就已經被助聽器的業者認知到了。當使用者在戲院或電影院透過電傳線圈系統來收聽現場聲音時,也會聽到周圍的聲音。相同問題也會發生在家裡,當全家人在觀看電視時,其中有些成員所穿戴的助聽器能支援無線傳輸,而有些則無法。現今用於這些應用的電傳線圈感應環都為類比式的,所以都能幾乎毫無遲延地呈現訊號。而藍牙裝置則需要一組編解碼器才能涵蓋比SBC更多的品質/遲延頻譜。

很明顯地,在低功耗藍牙音訊的開發期間,現有的藍牙編解碼器必須努力去達到那些要求和條件。它們不僅被限制在品質和遲延的取捨關係裡,同時SBC並沒有如同耳機和助聽器設計者所想的那樣有效。它雖有相對低的複雜度,但是卻占據太多的通話時間,因此對耳機電池的壽命有著重大的影響。這對靠小型鋅-空氣電池運作的助聽器而言就是一個問題。它們對尖峰電流和接收或傳送時電流脈衝的長度這兩者都很敏感,因為藍牙晶片通常在接收時會比在傳送時消耗更多的電流。如果超過這些電池的操作極限,那麼它們的壽命就會劇烈地減少。為了解決這些限制,藍牙技術聯盟來了一次編解碼器獵尋,這就產生了一個綜合體LC3(低複雜度通訊轉碼器)(圖4)。

圖4 LC3-一個更有效的編解碼器

低功耗藍牙音訊能讓製造商使用其他的編解碼器,但是LC3對所有的裝置卻是強制性的。背後的原因就是確保其互運性,因為每個音訊源和每個音訊接收都必須支援它。編解碼器的完整規格都已經出版並涵蓋於藍牙RANDZ[4]授權內。所以任何人都可以編寫自己的執行程序並將其融入其藍牙產品內,只要那些產品之後能通過藍牙品質鑑定過程。一旦品質被認可,那就是使用它的強大誘因。

(本文出自於藍牙技術聯盟《藍牙低功耗音訊指南》,作者為藍牙技術聯盟助聽器開發團隊主席與通用音訊開發團隊副主席)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!