UCIe 3.0 標準支援最高 64Gbps 的資料傳輸率,能大幅提升晶粒間頻寬並最佳化能源效率,滿足 AI 與高效能運算需求。然而,邁向高速運作也為 PHY 設計帶來功耗、通道封裝最佳化、訊號佈線串音、時序收斂及可靠度等關鍵挑戰,需透過加強等化技術與精細的晶粒佈局規劃來克服。
通用晶粒間連接高速介面(Universal Chiplet Interconnect Express, UCIe)標準持續演進,旨在簡化晶粒間(Die-to-die)連接,提供高頻寬以滿足可擴展性與高效能需求。此標準也可讓既有晶片重複使用,以加速產品上市時程。UCIe 3.0持續推動多晶粒設計的創新發展,提供顯著提升的頻寬、更佳的能源效率,以及更加擴展的生態系統。
UCIe聯盟在公告中強調UCIe 3.0具備以下主要特性:
- 支援48GT/s與64GT/s資料傳輸速率,使頻寬相較UCIe 2.0(32GT/s)倍增,以滿足高效能晶片需求
- 延伸的側帶通道(Sideband Channel)最長可達100mm,支援更具彈性的系統級封裝(System-in-Package, SiP)架構
- 支援對應(Mapping)的連續傳輸協定,讓SoC與DSP晶粒間互聯,資料可採用不中斷的原始資料傳輸(Raw Mode)模式
- 透過管理傳輸協定(Management Transport Protocol, MTP)進行早期韌體下載標準化,以簡化初始化流程
- 優先側帶封包(Priority Sideband Packets)可為時間敏感的系統事件提供具確定性、低延遲的訊號傳遞
- 快速降頻(Fast Throttle)與緊急關閉機制可提供即時的系統層級通知
- 開漏接腳(Open Drain Pins)可在晶粒之間實現低延遲、雙向事件,例如緊急關閉需求或通道速率突然變化
- 透過執行期間重新校準(Runtime Recalibration)與L2最佳化達成節能,讓連結在運作過程中進行高效率的調校
- 與所有先前UCIe規範完全向下相容,以確保順利整合與採用
新版本規範包含多項強化,其中最顯著的是支援高達48Gbps與64Gbps的資料傳輸速率。這項提升可滿足高效能運算與人工智慧應用的重要需求。本文將探討邁向64Gbps UCIe的演進發展過程,並說明在HPC與AI應用中, 晶粒對晶粒連接所面臨的關鍵挑戰與設計考量。
64Gbps運作的PHY設計考量
在UCIe PHY中支援64Gbps等更高速率時,若採用正交時脈(Quadrature Clocking)架構進行資料取樣,類比輸入/輸出模組必須在更高頻率下運作, 例如16GHz。此外,64Gbps UCIe的功耗高於32Gbps UCIe,主要原因在於其更複雜的發射端與接收端的I/O電路。對此,如何有效地降低介面IP的功耗於現今資料中心及機器學習與大型語言模型帶來高度運算需求下,變得相對重要。
通道與封裝最佳化
為了降低功耗,可採取多種解決方案,例如在先進封裝中針對短於3mm 的通道,或在有機基板封裝技術中短於5mm的通道,進行晶粒對晶粒連結最佳化。此方法可使類比驅動器降低功耗, 同時維持足夠的效能餘裕。
通道設計在提升PHY效能方面扮演重要角色,因此在定義PHY架構時,將不同封裝類型納入考量是有益的。例如改善通道特性,如降低通道損耗(Insertion Loss)與串擾(Crosstalk),也能提升功率效率。此外,改善封裝內的佈線不僅可提升系統效能,也能節省相關封裝成本。圖1顯示在先進矽中介層封裝中,連接兩個晶粒的訊號層。
圖1 使用矽中介層並包含5層UCIe-A模組訊號層的先進封裝剖面圖
訊號接點配置圖(Bump Map)與訊號佈線挑戰
先進封裝的設計具有挑戰性,原因之一是其訊號佈線層數受到封裝供應商規範的限制。例如,矽中介層封裝(Chip-on-Wafer-on-Substrate–Silicon Interposer, CoWo S-S)允許在矽中介層上最多配置8 層訊號佈線。在UCIe-A訊號接點配置圖(Bump Map)中, 接收端訊號接點(Receiver B u m p s )位於發射端訊號接點(Transmitter Bumps) 後方,因此64G bps接收訊號必須從繞過發射端接點,才能到達晶粒邊緣,如圖2所示。此配置會導致更複雜的封裝設計,以及更長的晶粒間通道。這種佈線方式可能增加串音與符號間干擾(Intersymbol Interference, ISI),尤其是在48Gbps與64Gbps等高速下。為了解決這些挑戰, 可能需要透過加強等化技術、在封裝層內提升訊號隔離,或重新設計以簡化訊號佈線,來提升PHY的效能。
圖2 UCIe-Ax64 10 column PHY凸塊配置圖顯示訊號逃逸(Signal Escape)(來源:UCIe Consortium)
前向錯誤修正與抖動管理
降低PHY的抖動要求,包括隨機抖動(Random Jitter, RJ)與確定性抖動(Deterministic Jitter, DJ),有助於降低功耗,但可能導致較高的位元錯誤率(Bit Error Rate, BER)。此增加的BER可透過在系統中導入前向錯誤修正(Forward Error Correction, FEC)加以補償。針對晶粒對晶粒通道,採用能檢測最多三個錯誤並修正兩個錯誤的輕量級FEC,如具備測試錯誤偵測功能的解碼器(Decoder with Test Error Detection, DEC-TED),可能是一種最佳解決方案,可同時將延遲與額外負擔降至最低。
數位訊號與晶粒佈局規劃
另一項挑戰是晶粒內部數位訊號的時序收斂(Timing Closure)與佈線問題。UCIe-A PHY包含64條通道,每條通道速率為64Gbps,因此總頻寬達到4Tbps。這意味著UCIe控制器或協定層連結需要以256B與2GHz頻率運作。
在2GHz頻率下處理4,096條訊號線的時序收斂是一項挑戰。除了4,096條資料訊號外,控制訊號以及時脈也必須在UCIe-A PHY僅388μm寬度的空間內完成佈線。當單一晶粒上配置多個PHY與控制器連結時,佈線可能很快就變得難以管理。因此,必須透過精細調整系統晶粒佈局規劃(Floorplan)、元件放置與佈線,以最佳化PHY I/O與多晶粒設計之間的數位訊號佈線。設計人員也可以採用創新解決方案,例如透過自訂訊號接點配置圖增加PHY寬度,只要系統能接受因此帶來的頻寬效率降低,這也是一種可行的折衷方式。
可靠度與先進封裝考量
在更高資料速率下運作類比電路,會帶來關於電遷移(Electromigration, EM) 與IR壓降(IR Drop)的疑慮。妥善管理這些因素對於高速設計的可靠度與效能至關重要。為此,UCIe 3.0規範中定義的64G PHY凸塊配置圖相較於32Gbps PHY包含更多電源與接地凸塊,因此具有更大的深度。
其他設計挑戰還包括高頻電路中, 靜電放電(Electrostatic Discharge, ESD) 保護元件所產生的寄生電容影響,以及為滿足極高佈線密度、電源傳輸與訊號完整性需求而必須增加的金屬層堆疊設計數量。
(本文作者為Synopsys資深技術產品經理。本文英文版原刊登於Synopsys官方部落格)