224Gbps-PAM4技術可望將資料傳輸速度從112Gbps大幅提升至224Gbps,同時也帶來獨特的設計挑戰,需要確保高速訊號完整性及低延遲,並針對電源配置和散熱規劃管理方案。
224Gbps-PAM4技術可望將資料傳輸速度從112Gbps大幅提升至224Gbps,為超大規模資料中心發展帶來巨大機遇。不過,雖然升級至224Gbps將有助於實現人工智慧(AI)和高效能運算(HPC)等領域的新功能,卻也同時帶來獨特的挑戰。
要成功開發和部署224G通道速度系統,必須徹底改造系統架構,突破工程設計和製造上的極限,而設計和實作人員需要決定最佳的前進方向。該如何確保最良好的訊號完整性?又該如何解決系統不斷增加的散熱需求?在建立強大可靠的224Gbps-PAM4系統架構時,需要考量核心設計因素,進一步解決前述問題及其他挑戰。
訊號完整性
由於224Gbps-PAM4技術可提供前所未有的高速傳輸性能,將帶來各種訊號完整性(Signal Integrity)問題。224Gbps-PAM4技術有賴於高頻率和複雜調變方案,對於傳輸損耗、插入損耗、串擾、反射和抖動較為敏感,可能因此導致訊號衰減以及網路效能受損。以下介紹幾項在224G資料中心架構中保持訊號完整性的基本要素。
屏蔽、接地和布局
相鄰高速訊號(攻擊者)所產生的電磁干擾(EMI)會使附近的訊號(受害者)受到干擾,影響訊號傳輸的可靠性,這點對於224G系統的高頻訊號而言尤其具有挑戰性。要減緩訊號的串擾問題,必須在訊號線之間進行屏蔽(Shielding),具體的做法是設計適用的外殼、實作導電接地平面和接地線,以及採用屏蔽布線解決方案。
有效的接地(Grounding)方式可以將不必要的電流帶走,防止它們干擾訊號路徑。仔細完成布局(Layout)規畫並及早鋪設接地走線,對於降低高頻下的串擾風險極為重要。這些技巧可確保高頻時的訊號傳輸不中斷,是保持訊號完整性的必要元素。
精確的元件布局和材料選擇
在224G系統架構中,每個細節皆具有其重要性。從印刷電路板和纜線到連接器和晶片,各個元件都必須經過精心挑選,以確保元件具備低損耗特性,以減輕訊號衰減和失真的情況。為了在複雜的印刷電路板布局中實現同步訊號,需要精確控制走線長度(電子訊號在印刷電路板上移動的物理距離)和正確布線。此類系統的製造公差也必須更加嚴格,如果出現元件製造不良、焊接不夠精準和尺寸不符合規格等情況,很容易會使系統行為和傳輸訊號中的雜訊失真。
電源傳輸和熱管理
隨著224G技術的到來,系統對電源的要求越來越高,熱管理問題也越來越受到重視。以下說明兩種針對電源和熱管理挑戰的應對方法。
滿足更高的電源要求
224Gbps-PAM4收發器和設備所消耗的電量遠高於前幾代產品。資料中心的電源基礎設施必須能夠應付用電量增加所帶來的負荷。系統架構人員應投資升級具有更大容量、更多備援的配電單元(PDU),以避免遭遇瓶頸。設計工程師應該採用低損耗、高效率的布線方式,盡可能減少電源損耗。
除此之外,224G系統應該配備動態電源管理(DPM)系統,以根據即時電力需求來調整電力分配。高效的DPM將有助於減少系統的能源消耗,透過減少散熱需求來改善熱管理,並提高系統的整體性能。
在輸入配電方面,每項電氣系統對額定目標值附近的異常都具有一定的容忍度。224G系統對於輸入電源的品質更為敏感,因此,應格外注意減少輸入電源中的雜訊、過衝(Overshoot)、下垂(Droop)和抖動情況。
擬定所需的熱管理策略
高速資料傳輸會產生大量的熱,如果無法有效地將產生的熱量從各個系統元件中排出,可能將使元件溫度超過其可接受的溫度上限或出現溫度波動,進而對元件性能造成影響,並可能對硬體造成永久性的物理損壞傷害。因此,在設計224G及更高版本的系統時,必須重視熱管理。
高效率的冷卻系統是使資料中心安全、可靠及有效運作的關鍵所在。開源運算計畫(OCP)是全球協同創作的平台,OCP環境冷卻專案匯聚了各行各業的專家團隊,積極為資料中心及各元件的高效冷卻技術擬定出最佳實踐方法和標準。224G系統硬體性能對高溫尤其敏感,因此,散熱設計工程師應致力優化系統中的氣流,以實現高效熱傳導,使關鍵元件的溫度維持在建議的範圍內。此外,也需要連續監控各元件的溫度和系統的散熱狀態,才有辦法在散熱問題和熱點(Hotspot)造成嚴重影響之前,及早識別並解決問題。
電力傳輸和熱管理互相關聯,上述策略有助於應對這兩項領域面臨的挑戰。
高速訊號傳輸/散熱挑戰加劇 224G系統架構設計有門道(1)
高速訊號傳輸/散熱挑戰加劇 224G系統架構設計有門道(2)