AI資料中心 生成式AI ESG 伺服器散熱 浸沒式冷卻 數位分身 能源管理系統 PUE

節能×AI×永續資料中心科技大未來論壇特別報導

AI資料中心搶電大作戰 高效能源/散熱模擬來支援(1)

2024-11-05
全球ESG要求日趨嚴格,加上生成式人工智慧(AI)技術快速發展,資料中心正面臨嚴峻的能源效率和碳排放挑戰。

為協助AI資料中心因應能源挑戰,產業界積極推動各種創新半導體與IT技術方案,包括更低功耗的處理器、更高能效的電源晶片與功率元件、浸沒式冷卻(Immersion Cooling)技術、智慧化能源管理系統,或藉由軟體虛擬化技術,期能全面提升資料中心能源使用效率和減少熱與溫室氣體排放。

打造永續資料中心 聚焦五大重點

Uptime Institute北亞區董事總經理胡嘉慶(圖1)認為,在ESG的風潮下,資料中心對環境帶來的衝擊,受到比過往更大的關注。要實現一座高永續性的資料中心,有許多複雜的環節需要注意,但整體來說可以分成五大重點:

  • IT效率:IT設備每兆瓦時(MWh)耗電所提供的運算效能必須最大化
  • 降低能源的碳足跡:每MWh能源的碳排量極小化
  • 用水量:盡量減少或消除冷卻用水
  • 物料管理:降低採購設備和物料的碳含量
  • 供應商管理:要求供應商制定和執行永續戰略
圖1 Uptime Institute北亞區董事總經理胡嘉慶表示,打造永續資料中心的第一步,在於提高IT設備的使用效率

不過,考量到客觀條件,對資料中心的擁有者而言,不是每一項都能操之在己。例如全面導入無碳能源,現階段就很難做到。比較可行的目標設定是例如在2035年或2040年時,無碳能源占整體能源使用量的80%~90%。

可操之在己的部分,則是提升IT效率與降低用水量。提升IT效率的最有效方法,是提高IT設備的使用率(Utilization),並盡可能經常更新IT設備。前者不難理解,IT設備使用率沒有最佳化的資料中心,一定會浪費不少能源;經常更新IT設備則是因為新一代運算設備往往具有更好的每瓦功耗/效能比。至於降低用水量,則必須透過資料中心改建或淘汰舊的資料中心來實現。

提高生成式AI能效 Arm軟硬齊發

安謀(Arm)首席應用工程師張維良(圖2)指出,在生成式AI無處不在的今天,要實現更永續的運算,必須導入次世代的伺服器解決方案。以能源效率聞名於業界的安謀,不只能提供CPU核心,更在軟體布局上投入大量資源,以便讓業界能更容易導入基於安謀架構的高效能運算平台。

圖2 安謀首席應用工程師張維良指出,為了讓業界更容易導入安謀架構,打造更高能效的生成式AI伺服器,該公司將採取軟硬體齊頭並進的策略

張維良認為,提到生成式AI,一般都會聯想到GPU或TPU這類專門用來訓練AI模型的加速器,但其實80~85%的AI工作負載是用在推論,而不是訓練。因此,提高推論任務的每瓦效能,才是提高生成式AI能源效率的關鍵。

要實現這個目標,選擇正確的模型非常重要。經過微調,專門針對特定任務最佳化的中、小型模型,不僅可以節省運算量,同時也能有不輸給大模型的效能表現。選擇正確的模型後,接下來就是導入更有效率的硬體。如果只處理推論任務,經過特化的CPU,其實也能扮演一定的角色,例如安謀推出的Neoverse,就有許多專門針對AI運算所設計的功能區塊。

不過,安謀也深知,要讓業界從x86架構轉向安謀架構,軟體生態系的健全度至關重要。因此,安謀除了持續開發新的處理器跟加速器矽智財(IP)之外,同時也在AI/ML軟體堆疊、開發工具等生態系建構方面,投入大量資源。例如Kleidi AI加速框架,可以支援大多數AI框架與函式庫,就是安謀為加強AI生態系建構所提出的方案之一。在Kleidi打造的基礎上,許多安謀生態系的夥伴,都已經開發出更高效能、同時也更低成本的AI應用。

台灣國際智慧能源週期間,許多學員參與「節能×AI×永續資料中心科技大未來論壇」

資料中心設計須高度整合

AI資料中心的快速發展是一把雙面刃,其高算力實現大量新興應用,但也需要耗費大量的電能與水資源。益華(Cadence)應用工程資深經理王暉雄(圖3)指出,傳統的資料中心大多耗電8~10kW,AI資料中心如NVIDIA的Blackwell則耗電120kW,增加12倍以上,可見AI運算的耗電量驚人。此外,AI資料中心的散熱用水量也很大,例如Google的資料中心平均每天需要100~500萬加侖,大約相當於一個五萬人小鎮一天的用水量。AI資料中心龐大的耗電與用水量對環境造成衝擊,因此設計上需要朝向提高電力使用效率(PUE)值,也需要克服散熱挑戰。

圖3 益華(Cadence)應用工程資深經理王暉雄認為,數位分身能夠模擬資料中心設計與營運的情況,協助營運人員分析資料中心的散熱碳排數據

資料中心的設計不離「整合性」的概念,包含垂直整合與水平整合。王暉雄說明,設計工具針對不同規模的裝置,從奈米等級的晶片工具,到資料中心的設計工具,都是獨立的系統。透過工具之間的垂直整合,設計人員可以分析從晶片端、系統端到資料中心端整體的運作狀況,並從中找到需要改善的部分。

在資料中心的設計流程中,不同工具之間需要轉檔,才能交換資料。甚至同一個產品可能採用來自不同供應商的工具,導致產品設計的不同階段難以整合。若是設計人員採用支援水平整合的設計工具,則有助於整體設計的優化。例如資料中心的散熱設計,就需要考量資料中心所有設計環節的資料,才能有效強化散熱效率。

例如Cadence的數位分身(Digital Twin)平台,能夠模擬資料中心設計與營運的情況,協助設計與營運人員分析資料中心的散熱碳排等數據。該平台除了整合資料中心的設計數據,也提供資料中心架構的函式庫,可以結合資料中心實際運作的量測數據建立AI模型,用來預測並分析資料中心的營運效率與耗能。該平台也能協助設計人員導入液冷等新系統時,事先進行模擬。

用電分析助資料中心節能

能源消耗越來越快,是AI資料中心等高耗能產業共同面對的課題,必須從數據收集、分析到管理,著手找出改善方向。伊頓飛瑞慕品(Eaton)企業業務經理黃哲宇(圖4)提及,面對資料中心等應用耗能持續增加,伊頓在工廠中導入智慧電表,並透過三到五年的用電量追蹤,協助高耗能產業執行能源的預估優化。長期的用電數據追蹤,有助於分析人員釐清該工廠的用電習慣,並從中找到可以改善能源消耗的方法。同時,透過AI分析用電數據,也能優化供應鏈管理。當供應鏈的營運效率增加,也能提高能源使用效率。

圖4 伊頓飛瑞慕品(Eaton)企業業務經理黃哲宇說明,長期的用電數據追蹤,有助於分析人員找到可以改善能源消耗的方法

黃哲宇進一步表示,未來三年內,資料中心等高耗能產業需要從電力韌性、強化資料安全、升級模組化解決方案、持續投資前瞻技術,以及執行滾動式規畫五大面向,為未來趨勢做足準備。資料中心需要搭配強大的不斷電系統(UPS),或是結合儲能系統、太陽能發電系統等,避免天候變化等因素帶來的風險。同時,資料中心的營運者也需要隨時評估並修正設施的電力韌性需求,確保能源系統配置達到效益最大化。其次,資料中心需要建立完善的資安規範,確保資料傳輸的安全。

第三點是模組化升級的解決方案。由於資料中心等高耗能產業對能源的需求量持續增加,若是採取模組化的解決方案,將有機會實現在相同體積的產品中,提高能量密度與效能,持續滿足高耗能設施的需求。最後,持續投資前瞻技術與滾動式的規畫方向,有助於高耗能產業未來導入更多AI等技術,用以優化設施的效能與耗能。

AI資料中心搶電大作戰 高效能源/散熱模擬來支援(1)

AI資料中心搶電大作戰 高效能源/散熱模擬來支援(2)

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!