AI LLM 矽光子 Chiplet AWGR 低延遲記憶體

提供更高容量與頻寬 巧用矽光子實現低延遲記憶體

2025-11-28
近年來,人工智慧技術的發展推動了對低延遲記憶體的需求,特別是在雲端伺服器的小晶片架構中。 然而,不規則的工作負載難以優化,因為其運算需求和記憶體存取模式不具可預測性,帶來記憶體存取和負載平衡的挑戰。低延遲記憶體透過光學傳輸和增強的平行作業,可解決傳統記憶體存取的高延遲問題。

近年來由於人工智慧(AI)科技的快速發展,對高速運算的需求也日益增加。低延遲記憶體(Low- Latency Memory, LLM)的共同優化方案,對資料中心的雲端伺服器內的小晶片(Chiplet)架構是可行的。這是因為LLM採用了矽光子技術,能提供更省電的能量/位元比、具有波長分波多工(Wavelength Division Multiplexing, WDM)的高頻寬密度比(Gb/s/mm2),以及與晶片等級陣列波導光柵路由器(Arrayed Waveguide Grating Routers, AWGR)的全面互連。

不規則的工作負載

不規則的工作負載(Irregular Workload)是指不具可預測或統一執行模式的任務或運算。這些工作負載在運算需求、記憶體存取模式和執行時間可能存在很大差異。它們通常很難優化,因為它們不完全適合常規的、可平行處理的模式。譬如分析一個社群網路圖,如圖1,其中節點代表用戶,邊線代表友誼。當尋找兩個用戶之間的最短路徑,或查詢網路內的社群等操作時,工作負載可能非常不規則。這是因為圖的結構可能變化很大,有些節點具有許多連接,而有些節點則很少。處理每個節點所需的運算量可能差異很大,而導致工作負載不規則。通常,不規則的工作負載會帶來下列挑戰:

  • 記憶體存取模式:不規則的工作負載通常涉及不統一的記憶體存取模式,這使得傳統的快取(Cache)和預取(Prefetch)技術難以發揮作用。
  • 負載平衡:由於任務的不可預測性,要在多個處理器或核心之間,平均分配工作負載的難度變得很高。
  • 資源利用:確保所有運算資源都能充份被利用,而不讓某些處理器閒置, 要達到這樣的目標可能很困難。
圖1 社群網路圖

延遲的來源

傳統的記憶體存取可能會有高延遲,而且許多處理器也可能會同時搶用記憶體,這都會造成效能上的瓶頸。低延遲記憶體是透過光學傳輸路徑和增強的平行作業,可確保高速存取記憶體,能夠解決因執行不規則的工作負載所遇到的難題。

小晶片是一種小型模組化的積體電路,包含特定的子功能。這些小晶片可以與中介層(Interposer)上的其他小晶片組合,以創建更複雜的組件。圖2是專門處理大數據的資料中心常用的小晶片架構原理圖。此系統包含有四個主要單元:

  • 每個小晶片和記憶體控制器之間的互連結構(Interconnect Fabric):通常它是一個複雜的交叉結構,具有高的對分頻寬(Bisection Bandwidth)。
  • 記憶體控制器:來自CPU的讀/寫請求(Read/Write Request)被暫存至緩衝器(Buffer)中,形成佇列(Queue)。每個佇列和特定的記憶體通道(Memory Channel)連接,每個記憶體通道都能獨立地傳輸資料。
  • 通道資料匯流排:在各個元件(例如:CPU、記憶體和周邊設備)之間傳輸資料。它能確定記憶體位址,使CPU能夠讀取或寫入特定的記憶體位址。它也能識別目前正在存取哪個元件或記憶體位址。它的控制訊號用於執行讀取、寫入和中斷等命令。
  • 動態隨機存取記憶體(DRAM):由多個排(Bank)組成,每個排由記憶子陣列(Subarray)組成。
圖2 小晶片架構的原理圖

因為互連結構、記憶體控制器內部的佇列、記憶體通道內的資料匯流排(Data Bus),DRAM內部的全域感應放大器(Global Sense Amplifier)、全域位元線(Global Bitline)都是共用的,因而決定記憶體存取的仲裁、緩衝、和序列化(Serialization)或分時多工(Time- Division Multiplexing, TDM)的共享都可能導致小晶片搶用記憶體和產生額外的延遲。

可將端對端(End-to-End)延遲分為三類:網路延遲、記憶體控制器的佇列延遲和DRAM存取延遲。所謂網路延遲是指在運算系統內,由各種元件(例如:小晶片、CPU、記憶體和其它積體電路)所構成的內部網路傳輸的延遲時間。網路延遲並不包含記憶體控制器的佇列延遲和DRAM存取延遲。對高頻寬記憶體(High Bandwidth Memory, HBM)而言,大部份的延遲是來自記憶體控制器的佇列等待時間。當增加記憶體控制器的數量後,記憶體控制器的瓶頸就能得到緩解,但此時,記憶體存取和網路延遲開始主導總延遲。此時,即使再增加記憶體控制器的數量也無濟於事。所以,高效能的記憶體系統不僅需要更多的平行作業,減少記憶體控制器的佇列延遲,但也必須減少DRAM存取延遲和互連延遲。

低延遲記憶體

為了消除上述的延遲來源,LLM提供從處理器與記憶體控制器之間的互連結構,到DRAM微架構,整個路徑的共同設計。此共同設計可同時改善頻寬和延遲,且不會犧牲任何一個元件的性能。LLM的內部架構由三個部份組成:不會搶用記憶體的光學數據平面(Optical Data Plane)、低頻寬的電控平面(Electrical Control Plane)、整合光學元件的記憶體單元。

在光學數據平面中,如圖3(a),LLM提供了從每個請求者到每個儲存單元之間的專用資料路徑。採用被動的、不會搶用記憶體的光學互連結構。由於不需要中間緩衝或暫存,因而能減少佇列數量與互連延遲。

電控平面,如圖3(b),在小晶片和記憶體之間傳送位址和命令,並協調小晶片發送或接收資料的時間。為了有效地利用有限的頻寬,在此電控平面上的控制訊號是使用低頻寬電路。

LLM採用稱為μbank的細微儲存單元,提供給記憶體控制器進行大量的平行作業。LLM的儲存裝置整合了光學元件,支援低延遲和高頻寬,實現從請求者到μbank記憶體之間的直接連接。

圖3(c)是一個LLM的資訊路由(Routing)範例。其中,多個小晶片都在執行寫入作業。當來自小晶片0的請求1贏得記憶體控制器的仲裁時,記憶體控制器向小晶片0發出確認訊號,允許其傳送資料到記憶體。小晶片0使用第二個微環諧振器(Microring Resonator),簡稱微環,並將它的波長調諧至與其目的地的波長相同,μbank 1是其目的地,使用藍光波長。

同時,小晶片m 是使用連接到AWGR上的另一個連接埠的波導管(Waveguide),使用紅光波長,目的地是μbank 0。向DRAM發出請求後,經過一段特定的、可預測的時間後,不管是寫入或讀出,可用的資料將存在於記憶體中。這個可預測的時間是由DRAM 的存取延遲決定的。小晶片在此延遲時間內,根據記憶體位址(包含通道和μbank)將微環調諧至正確的波長。一旦記憶體中的資料準備好後,微環也已經調諧完畢,而能夠以最小的延遲,實現快速、高效的資料傳輸。此外,LLM還採用關閉分頁(Closed-Page)策略,在每次讀取或寫入資料後,DRAM的行緩衝區(Row Buffer)會立即關閉。

圖3(d)是一個5×5埠的AWGR。包含不同波長的光從AWGR的一個輸入埠以串列(Serial)方式進入陣列波導管,最後按照不同波長,以並列(Parallel)方式均勻分布在所有的輸出埠上。而且同一個通道內的任何兩個不同的波長,最終不會出現在相同的輸出埠。所以,能充分利用可用的輸出埠同時處理多個資料通道。這些波導管具有不同的長度,能使不同的波長產生不同的相移(Phase Shift)。而不同的相移在光波中產生干擾模式(Interference Pattern),使得不同波長或顏色的光被引導到指定的輸出埠。AWGR能有效地以分波多工處理多通道資料,而不會造成混亂。分波多工是在同一介質上,同時傳輸多個資料流,所以其傳輸率遠大於分時多工(TDM)和分頻多工(FDM)。

圖3 低延遲記憶體的原理圖

矽光子元件

在過去十年中,光學互連技術已克服了處理器和共享記憶體之間的效能和頻寬的瓶頸。晶圓廠製造的矽光子(Silicon Photonics, SiPh)結構,例如:SiPh-CMOS積體電路,以及具有分波多工的SiPh收發器已上市,使得SiPh技術可應用於小晶片架構,也能和既存的光纖通訊網路連接。WDM使一條光纖能同時傳輸多個不同波長的光。每個訊號經過分波多工器後,都在它獨有的通道或頻帶內傳輸,使光纖的數據傳輸率大增。LLM使用的矽光子元件,大致有:

  • 微環諧振器:它是體積小、節能、與WDM相容的裝置。當出現特定的單一波長時,它會產生共振,而在其它情況下則保持靜止。主動式微環能隨著底層(Base Layer)電流量的變化,調整共振頻率,而實現數據的調變(Modulation)和解調(Demodulation)。
  • 微環調變器:將位元編碼為光介質,這就是電光轉換(Electrical-to- Optical Conversion)。
  • 微環濾光器(Microring Filter):過濾光訊號,並將之發送到執行光電轉換(Optical-to-Electrical Conversion)的光感測器(Photodetector),輸出電流或電壓訊號。
  • 光學匯流排和大型的微環矩陣:包括數百個微環,使用於記憶體至處理器之間的網路。
  • 晶片等級的AWGR:使用分波多工器和分波解多工器,將不同波長的訊號引導至不同的輸出端,實現路由功能。它包含陣列式波導管( 也稱作相陣列(Phased Array))、輸出或輸入的星型耦合器(Star Coupler)(也稱作自由傳播區(Free-Propagation Region, FPR))。圖4 是陣列波導光柵(AWG)的分波解多工原理圖。圖5是雙向式高密度分波多工器(Dense WDM, DWDM)的光纖布線圖, 其中有44個小型可熱插拔收發器(Small Form-Factor Pluggable Transceiver, SFP),它是一種袖珍的光學模組,透過它可將光纖或乙太網路電纜連接至交換器(Switch)、路由器或光通訊網路設備。AWGR和DWDM不同的是, AWGR是使用奈米製程。
圖4 陣列波導光柵(AWG)的分波解多工原理圖
圖5 雙向式高密度分波多工器(DWDM)光纖布線圖

矽光子的3D DRAM堆疊

LLM晶片能以3D堆疊的技術設計, 旨在提供更高的容量和頻寬。它採用稱為垂直耦合的光互連(Vertical-Coupling Optical Interconnection, VOI)的創新技術來取代以銅導電的矽穿孔(Through-Silicon Via, TSV)。VOI光學通孔(Optical Via)的週距(Pitch)是1~2μm,TSV穿孔的週距為20μm。VOI的光學通孔可顯著減少延遲、提高頻寬、擴增通道數量,但不會增加輸出入引腳的面積和數量。在矽光子的3D DRAM堆疊中,資料可以透過光鏈路在不同層的μbank之間垂直移動,如圖6和圖7。圖8是VOI的設計範例。

圖6 低延遲記憶體的μbank架構圖
圖7 低延遲記憶體的矽光子3D DRAM堆疊原理圖
圖8 垂直耦合的光互連(VOI)

 

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!