生成式AI ESG 浸沒式冷卻 數位分身 PUE AI資料中心 伺服器散熱 能源管理系統

節能×AI×永續資料中心科技大未來論壇特別報導

AI資料中心搶電大作戰 高效能源/散熱模擬來支援(2)

2024-11-05
全球ESG要求日趨嚴格,加上生成式人工智慧(AI)技術快速發展,資料中心正面臨嚴峻的能源效率和碳排放挑戰。

冷卻系統攸關資料中心安全/效能

(承前文)在高效能運算發展飛快之際,散熱成為AI資料中心難解的課題。柏斯托(Perstorp)潤滑油業務發展總監曾偉銓(圖5)認為,全球企業積極投資與建立資料中心,為環境帶來負擔,也增加大量的電力需求。根據國際能源署(IEA)統計,2021年資料中心用電占全球用電的1.5~2%,並預估2030年可能達到8%。同時,預計2040年資料中心造成的碳排,將會占全球碳排的14%。因此,從用電與環境永續的角度切入,提高資料中心與各項AI運算設備的能源使用效率勢在必行。

圖5 柏斯托(Perstorp)潤滑油業務發展總監曾偉銓提及,減輕資料中心電力負荷的做法之一,是透過提高散熱效率,來降低散熱系統本身的耗能

減輕資料中心電力負荷的做法之一,是透過提高散熱效率,來降低散熱系統本身的耗能。傳統的資料中心以氣體冷卻為主,目前部分AI資料中心開始導入浸沒式的液體冷卻系統,期望增加散熱效率並減少耗電。而冷卻液則是開發資料中心液冷系統的重要關鍵考量。曾偉銓解釋,冷卻液的重點是散熱效果,必須確保冷卻液能夠有效散熱。除此之外,冷卻液材料的選用,要全面考慮冷卻系統與所有資料中心中的設備材料特性,確保冷卻液的可靠性以及較長的壽命。在訊號傳輸方面,資料中心的系統部分接觸空氣,另一部分浸泡在冷卻液中,需要確認冷卻液不會導致傳輸訊號損失。

另外,冷卻液也影響到資料中心的安全性。冷卻系統供應商需要確認冷卻液的絕緣性等電性安全,避免火災情況時延燒,並且不能使用有毒性的化學成分。冷卻液的成分選擇,除了安全性,也要將冷卻液的回收成本納入考量,避免後續產生額外的處理成本。

學員專注聆聽講師分享資料中心能源趨勢

電力緩衝/高壓控制不可少

因為大量耗能,AI資料中心的電力設計要求遠比傳統資料中心嚴苛。台達電電腦及網通事業部資料中心產品經理彭德智(圖6)指出,現階段雲端服務供應商大量投資AI資料中心,雖然目前AI伺服器占整體伺服器市場小於4%,但是預期2026年將成長到15%。Next Move Strategy Consulting預估2023~2030年AI市場的CAGR將達到37%。IEA則認為2026年AI資料中心的用電,將成長至800TWh。顯見全球資料中心面對AI應用的快速興起,將面臨嚴重的缺電問題。

圖6 台達電電腦及網通事業部資料中心產品經理彭德智觀察,世界各地的資料中心由於耗電量驚人,建立資料中心的地點逐漸往東南亞與中東擴散

現在一顆GPU需要耗電大約1,000W,超過一台傳統伺服器的功耗。短期內,AI資料中心單一機櫃的耗能大約為120~130kW,未來可能增加到500kW。為了解決AI資料中心的缺電與散熱問題,產業需要從電網、晶片與AI電源解決方案多管齊下,共同減緩資料中心的耗能衝擊。例如電網到晶片(Grid-to-Chip)方案便是涵蓋了從高壓交流電到低壓直流電的多層次轉換,以高效率的電壓轉換技術來滿足資料中心高功率、高密度的電力需求,有效降低功率耗損,顯著提升能效。

AI資料中心在龐大的電能需求下,也需要穩定的電壓控制。彭德智認為次世代的AI資料中心電力系統,需要在有限的尺寸與現有的材料中,盡可能提高電壓。因此他建議AI資料中心使用高壓直流供電(HVDC)技術,將800V的直流電從±400V高壓直流降壓為50V,再轉換到適用於AI伺服器和GPU的0.8V低壓電源。此外,搭配由功率電子元件堆疊而成的固態變壓器(SST),相較傳統變壓器使用鐵芯或銅圈,SST的體積較小,更能精確靈活控制電壓。

講師分享多元的電源管理與資料中心散熱設計等經驗

數位分身助散熱系統優化

AI資料中心從選址到硬體設計,都需要多重的分析與模擬,才能確保資料中心順利運作。達梭系統SIMULIA技術顧問葉育魁(圖7)觀察,AI伺服器在2010~2020年的十年間,工作負載大幅增加,資料中心的工作負載更增加六倍以上。世界各地的資料中心由於耗電量驚人,建立資料中心的地點從歐美、東亞,逐漸往東南亞與中東擴散。AI資料中心在新環境建廠,需要考慮模擬溫差、雷擊與地震等環境因素,作為散熱設計、訊號傳輸與其他設備設計的參考,例如雷擊可能干擾訊號。

圖7 達梭系統SIMULIA技術顧問葉育魁表示,AI資料中心在龐大的電能需求下,也需要穩定的電壓控制

除了考量AI資料中心建廠的環境因素,散熱模擬也至關重要。在東南亞與中東新建的資料中心,在規畫與設計初期會先分析該場域的氣流管線與空氣流動,取得初步的物理參數。這些物理參數可以建立小型的AI模型,由模擬軟體在其中建立更多的數位分身細節,包含使用哪些晶片與散熱鰭片、風扇位置的設計等。

數位分身的模擬可以針對每一個機櫃建立單獨的區塊,並輸入/輸出特定的溫度,再執行該機櫃在不同溫度下的熱流分析。每個機櫃的熱流分析結果,可以在模擬系統上輸出,導入到資料中心層級,並進行整體資料中心的熱流分析。

AI資料中心的數位分身除了分析數據,也要連接(Connect)、預測與優化數據。模擬平台透過可視化工具顯示每台伺服器的熱流,並預測整體的熱流與散熱系統的負載。取得預測數據後,設計人員就能持續優化資料中心的配置,盡可能降低耗能,並提高散熱效率。優化資料中心配置的方法之一,是由感測器監測進風溫度。如果某幾台伺服器的進風溫度上升,系統就自動將較多的工作負載分配給進風溫度較低的伺服器,藉此透過不同伺服器的搭配來調整整體的溫度,達到在資料中心維持相同算力的前提下,降低系統的耗能。

AI資料中心搶電大作戰 高效能源/散熱模擬來支援(1)

AI資料中心搶電大作戰 高效能源/散熱模擬來支援(2)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!