內容快速索引
還記得今年GTC,nVIDIA有推出CPO switch的方案嗎?這方案除了是nVIDIA首次將Switch晶片跟Optics元件做共同封裝這個看點之外,其實還有一個關鍵技術 – LPO被使用在其中!
nVIDIA CPO Switch正式登場:1個解決訊號損耗與電源功耗的終極武器 »
CPO – 解決傳統Optics Module的功耗挑戰
我們在GTC的文章中有提過,CPO技術的誕生主要是為了因應並解決傳統Pluggable module所面臨的功耗挑戰和限制。在現代網路架構中,傳統網路交換器主要是用做Scale-Out,其核心功能是將Rack內的各種數據轉成封包並傳遞,確保資料能夠順利傳到目的地。這些交換器的Front panel配備了許多高速接口,包括QSFP-DD或OSFP插槽,可以靈活地安裝Optics module或DAC cable。當需要進行跨機架的數據傳輸時,由於距離較遠,可以透過這些Module來實現;而在同一機架內部的設備互連,距離則較短,電訊號尚可透過DAC纜線連接,以省下Module的成本與能源,這種配置方式能夠最大程度地優化網路性能和成本效益。
Spine/Leaf/ToR網路架構:

通常交換機的傳輸介面是OSFP or QSFP-DD,800G以上大多是OSFP:

OSFP module插進800G Switch的Front panel:

而Front panel的位置其實還離交換機的核心晶片(例如Broadcom TH5 or Marvell TL10)還有最遠12inch的走線距離,這距離帶來的損耗非常巨大,訊號走到OSFP都快掛了,需要Retimer將訊號給救回來,這顆Retimer在Module裡頭稱作DSP,除了還原訊號以外,它還具有將電訊號轉換成光訊號的能力。
最長12inch將會帶來巨大的損耗貢獻,所以業界才會推動CCL廠商持續精進材料的損耗能力:

我們會透過Loss budget來計算通道損耗:

傳統Pluggable module應用在Switch上的連接形式:

回到過去,以前10G的Module,功耗大約才1W。來到800G,功耗上升至13W-18W,甚至還有傳輸距離較遠的ZR+會超過20W的使用。以一台64Port 800G交換器來講,全部插滿Module,光是Front panel的功耗就會來到1,152W,這已經跟一顆B300的功耗不相上下了,你說這驚不驚人?而功耗上升最主要的原因就是這顆DSP,800G Module內的零組件功耗佔比,DSP佔據65%為最大宗,所以業界一直在想辦法移除這顆DSP!而CPO就是一個重大的改革!

耗電對於散熱的問題已經講到爛了吧?用DSP的話,風扇轉速會比用LPO高出不少,風扇轉速代表什麼?能源消耗!

Marvell ZR+技術走在業界很前面:

CPO與LPO – 縮短電訊號傳輸距離,減少DSP的使用
Co-Packaged Optics (CPO)
CPO(Co-Packaged Optics),顧名思義就是將Optics元件跟核心晶片封裝在一起,這樣電訊號走線就不需要大老遠從交換器的內部走到Front panel,只需要在相同封裝內連接,損耗的降低帶來的是SerDes能力的下降,要知道SerDes能力取決於功耗,越強的SerDes接收器,消耗的功耗越大,所以當損耗下降,我們就可以降低DSP的能力,甚至移除DSP!
Broadcom定義的DSP Pluggable、LPO and CPO:

Broadcom在CPO這項技術的的努力時程,預計今年底會有Broadcom TH6版本的CPO Chip:

當技術從VSR(Pluggable Optics)應用走到XSR(CPO應用),功耗會顯著降低:

Linear Pluggable Module (LPO)
在CPO技術出現後不久,LPO技術也問世了。這項創新技術位於傳統Pluggable與CPO之間,為業界帶來了全新的解決方案。那麼,究竟這項技術在幹嘛?
傳統的Pluggable module內部都會透過DSP將電訊號重新做整流,這種做法雖然效果很好,但也帶來了可觀的功耗。因此,業界開始思考:我們能不能完全移除這顆數位晶片?能不能改用純類比技術來進行”半”整流功能呢?雖然這樣可能會限制整流的能力,但如果仍然能夠實現光纖的基本傳輸功能,豈不是一個更好的選擇?
隨著SerDes技術的不斷進步,將DSP的功能整合進網路晶片已經變得相當可行。換句話說,現代交換器中的DSP已經強大到足以同時處理自身的任務,以及原本由Pluggable module執行的工作。在這種情況下,我們就可以大幅簡化module的結構,只需要保留基本的類比等化器(CTLE, Continuous Time Linear Equalizer)和轉阻放大器(TIA, Trans-Impedance Amplifier),就能完全移除Module內部的DSP。這樣的設計不僅能顯著降低功耗,更重要的是讓交換器能夠直接驅動光學元件!正是因為完全移除了數位處理的技術,實現了全類比的模組設計,這項技術才被稱為”Linear” Pluggable Module。

而Broadcom已經公開分享,利用LPO技術所帶來的節能效率為35%。
黃仁勳在GTC也提到:Every GPU would have 6 tranceivers, every GPU would have six these plugs, and these plugs would add 180W per GPU and 6,000 dollars per GPU. So, the question is how do we scale-out now to millions of GPUs? Because if we have millions of GPUs, multiply by 6, it would be 6 million transceivers times 30W, a 180MW of tranceivers…so the question is how could we afford as a mission earlier energy is the most important commodity, everything is a related optimized energy, so this is a limit to the revenues, our customers revenues by subtracting out 180MW of power. So, this is the amazing thing we did, we invented the world’s first MRM modulator
雖然他老兄是將LPO做進去Package裡頭,但是意思跟Pluggable LPO相近,,就當作是CPO版本的LPO。
LPO的規範
雖然看似美妙,實際相當難搞。由於少了數位晶片,LPO module對於系統相容性非常吃重。很有可能A switch + A Module是可行的,但是換成B Module就GG了,或是反過來B switch + A Module有問題,這完全達不到所謂”隨插即用”的基本功能,也就是現在大家在講的互通性(interoperability)。畢竟,要做到Pluggable,其中一個原因不就是為了可以隨意更換合格的供應商?
因此規範的制定非常重要,不只針對Switch系統,更是需要將LPO module的能力定義好。
目前有三個針對LPO互通性的標準化專案正在進行中。首先,現在已有一份LPO的MSA草案。嚴格來說,MSA 並非標準,而是供應商之間為生產可互通的元件所簽訂的合約協議。因此供應商們也是透過這份協議當作業界標準。而OIF也開啟了兩個專案,為未參與MSA的企業制定可遵循的標準。第一個名為Common Electrical I/O – 112G-Linear Project,旨在建立確保互通性的電氣標準。除LPO外,該標準也適用於CPO和NPO應用。不過CPO本身並不需要此標準。LPO 定義了可插拔形式的Optics module,而 CPO 則是將EIC與PIC封裝在一起。CPO本身並不強制要求採用Linear or DSP的實現方式,他們的要求是封裝在一起,對於目前nVIDIA的CPO switch,是採用Linear形式。
OIF的第二個專案為Retimed TX Linear RX (RTLR) Project,僅針對TX設置Retimer。前面提到,LPO技術中缺乏Retimer會限制訊號可傳輸距離。舊架構會在訊號傳輸後對接收到的訊號進行Retimed以淨化訊號,而新的方法則是在可插拔模組中,於訊號透過光纖發送前先對SerDes訊號進行Retimed,而接收端則是採用Linear的方法。雖然功耗還是比全Linear的LPO來的大一些,但是訊號誤碼率可以更穩定。

傳統Retimer架構的功耗需求大約是18pJ/bit,RTLR架構大約為12pJ/bit,而最省電的LPO則是6pJ/bit:

LPO缺少了Module裡的DSP,因此Symbol Error Rate(SER)比較差:

LPO在SI領域的一些數據
LPO的Loss Budget分析
首先,K spec…LPO的OIF規範定義了很多的參考通道路徑:
- PCB Pluggable Module Channel
- Near-Package Optics Channel
- Cabled-Pluggable Module Channel
- Cabled-Near-Package Optics Channel
- Co-Packaged Optics Channel
以PCB Pluggable Module Channel這個最典型的案例來說明,規範中詳細定義了各個元件的損耗:PCB本身的損耗被設定為9dB,連接器的損耗為2dB,而Module內部的損耗則為2dB。這些數值加總起來,整個被動通道系統的總損耗預算為13dB。這個明確的損耗規範對SI工程師來說非常重要,因為它提供了一個清晰的設計參考指標。在實際設計過程中,工程師需要確保各個元件的損耗都維持在這些預算範圍內,以確保整體系統的SI是沒問題的。

基本上,112G-LPO的規範已經接近完成階段,現階段要邁向下一個世代的224G,或許,這樣就很多人會問,有LPO後,那CPO的未來?
LPO的眼圖模擬
這篇講LPO的論文分享了Host端的損耗分別為3dB, 6dB, 9dB, 12dB時的眼圖模擬結果,通道的Insertion Loss還包含CTLE peaking filter的頻率響應,損耗越大時,眼圖的模擬結果越不佳。

我們認為,這兩者不衝突,雖然多年來CPO因承諾能完全消除DSP SerDes並進一步節能而備受矚目,但仍面臨許許多多的開發挑戰,而較新的LPO卻可能會先實現商業化。即便如此,考量到CPO具備更顯著的功耗表現與整合能力,線性CPO的功耗表現肯定優於LPO,因為在CPO架構中EIC與PIC間的傳輸通道極其微小,基於這些優勢,CPO相關研發工作還是持續推進,今年底預計就可以看到Broadcom TH6的CPO版本,這顆是我們認為至今為止最有機會落地的CPO switch chip!