內容快速索引
Co-Packaged Optics(CPO)在去年一整年瘋狂地被產業界與投資界討論,市場都在猜誰已經有相關的技術、誰已經拿了多少份額、誰即將跨入這個未來的明星產業與誰會是首個大玩家…,但…講真的…這東西直到現在還沒正式在產業界落地,原因不外乎成本、良率、組裝難度這些已知的挑戰。
不過今年nVIDIA GTC,不意外地Jensen正式發表兩款基於自家 Quantum-X800 和 Spectrum-X800 Switch ASIC 設計的 CPO 交換器,分別命名為 Quantum-X Photonics 與 Spectrum-X Photonics。這兩台CPO Switch,算是業界首批真正宣布量產時程的CPO產品。其中,有著InfiniBand技術的Quantum-X800 Photonics預計就要在今年底正式量產(雖然我們覺得這只會是小批量出貨給客戶驗證),Ethernet的Spectrum-X800 Photonics預計明年底量產,相信會重新點燃大家對於CPO的熱情!?
原本以為nVIDIA這次GTC除了CPO以外,會多講一些有關NVL288/NVL576未來的技術,如同我們在這裡所提起的,預計會以PCB板取代Cable,將銅技術延續下去,畢竟以現階段的技術水準,Scale-Up用光纖做實在有點浪費!
不過既然沒提,我們也就不多著墨,改天有空再來講新架構的細節,讓焦點回到CPO身上,來看看為何需要CPO以及這次nVIDIA的CPO Switch小細節大揭露!

網路交換器 – CPO在此正式落地
或許大家會好奇,CPO這項技術為什麼不是用在GPU或AI伺服器上,而是在網路這個產業先發生?
一般Data Center的51.2T網路交換器大概長這個樣子,這是Meta在2024年的OCP發表的MiniPack3系列產品(有興趣的可以看影片),板子中間放的是Broadcom設計的Switch ASIC,訊號線會透過PCB連到前端面板的QSFP-DD或是OSFP connector。一般而言交換器ODM大概就是搞定這台出貨L6給其客戶。
這台MiniPack3的交換機前面板長這樣,其實每個Data Center交換機前面板都長得差不多,高速連接器、LED燈號、Management的Console Port、USB之類!
網路交換器高速連接器 – QSFP-DD與OSFP
網通類的高速連接器就屬QSFP-DD與OSFP這兩者:
在400G以下的市場,散熱需求較低,大家比較關注在我能在前面板放多少連接器,因此QSFP-DD的使用率較高,只有少數大型CSP因為採購策略問題使用OSFP。
而在800G以上的市場,由於Optical module的功耗極高,依據不同的光纖連接,功耗會落在15~35W,因此幾乎都是使用OSFP,因為OSFP的最大優點就是散熱!當然還是有些公司對QSFP-DD情有獨鍾,不過聽說散熱的設計挑戰相當高呀…

網路交換器的訊號完整性設計挑戰
Data Center裡的800G網路交換器通常由一個Switch ASIC跟數個QSFP-DD or OSFP來組成,從晶片與連接器相對位置來看,最短的訊號線差不多2-4英吋,最長的訊號線可以長到12-13英吋。

針對這種800G網路交換器,我們可以透過Loss Margin的分析方式,將PKG、Trace、Via、Connector、XCVR的損耗都列出來,並加總得到通道總損耗,再判斷是否有通過這顆晶片的能力規範,因此晶片能力強弱就很關鍵了,好的晶片可以將這個損耗規格拉更高,設計的彈性更好以及牽扯到的纜線連接長度也會更優。所以在網路這個世界,Switch ASIC的能力很吃重,晶片的SerDes Receiver做得好不好,影響甚大。這樣就可以知道為什麼Broadcom會是網路世界到目前為止無可撼動的Tier-1了吧!

根據走線長度不同,每個Port的PCB損耗就會不一樣,對應的機台連接方式也不一樣。對中間的Port,我們可以使用較長的DAC,而角落的Port則使用較短的DAC或是ACC/AEC,或者乾脆使用Optical XCVR做中長距離傳輸。

跨機台的連接方案
Data Center客戶會根據機台間連接的距離,採用不同的“電”連接方案:
- DAC (Direct-Attach Cable):短距離傳輸或是In-Rack傳輸,完全是銅纜線,功耗極低
- ACC (Active Copper Cable):中短距離傳輸或是跨Rack連接,內埋Linear Redrive,功耗適中
- AEC (Active Electrical Cable):中長距離跨Rack傳輸,具備Retimer,功耗較高,SI特性最優

更長距離的傳輸則要靠”光”,當然也是有區分的:
- SR (Short Reach):短距離,一般約100米,使用多模光纖
- DR (Data Center Reach):資料中心距離,通常約500米,使用單模光纖
- FR (Far Reach):較遠距離,通常約2公里,使用單模光纖
- LR (Long Reach):長距離,通常約10公里,使用單模光纖
- ER (Extended Reach):延伸距離,通常約40公里,使用單模光纖
- ZR (Ultra Long Reach):極遠距離,通常約80公里,使用單模光纖

高頻寬帶來的高電源功耗成為極大威脅
隨著高速傳輸介面越來越進步,從112G來到224G或說1.6T的時代,
🎯 頻寬變高
🎯 損耗變大
導致所有的Port可能都得使用光來當傳輸介面,且為了要維持相同的傳輸距離,功耗會急劇上升,因此整合式的這種CPO設計無疑將成為解決方案的主流,為未來超高速傳輸的世代開啟全新篇章。

CPO發展歷程
CPO這個概念不是新的,早在10幾年前的10G與25G SerDes時代就有工程師提出相關的論點,認為當時的SerDes技術已經逐步逼近其理論上的效能極限,傳統插拔式Optical module可能無法滿足日益增長的高速傳輸需求,主張必須將光模組移動到晶片封裝內,採用系統級封裝SiP來達到更佳的傳輸效能與功耗控制。
PAM4延續電訊號在資料中心外部連接的壽命
但是PAM4在SerDes的發展直接延續電的壽命,PAM4可以在同樣的資料傳輸速度下,把訊號幅度劃分成四個等級,因而在一個符號間隔中能傳遞 2 bit 的資訊。換句話說,相同速度下PAM4可以傳遞兩倍於NRZ的資料,有效頻寬可以往下降,讓損耗設計更有彈性。(更多說明可以參考這裡)

從外部模組到整合式晶片的轉換

可插拔Optical module的系統在分工上較為明確,交換器廠商處理好Switch設計,光模塊廠商解決光模組設計,在客戶端只要採購相同規格的光模組,理論上就可以正常替換與使用,壞掉就換,太貴就換!
而當損耗越來越大時,產業試圖將光模組移進去Switch內部,最早見到的產品是On-Board Optics(OBO),這類型產品立意良好,可惜雷聲大雨點小,當電訊號利用PAM4衝出原本的極限之後,OBO的聲音越來越小,到現在已經很少有人提及。

本文主角CPO大約在2020年陸續有人推出相關樣機,例如台灣網通ODM大廠智邦推出的25.6T CPO Switch,以及Intel也推出相關概念機種。


Broadcom也推出25.6T的Humboldt與51.2T的Bailey,但我們猜測這主要是練功版本,練自己也練這個產業界。


雖然從25.6T到51.2T,陸陸續續有這麼多的概念機和Broadcom這種練功版本的機種,可是並沒看到CPO在市場正式落地。
CPO的真正價值 – 功耗管理!
高速SerDes根據能傳輸的通道損耗有分很多種,以112G SerDes為例:
- LR (Long Reach):用於長距離銅纜線或是背板傳輸,Ball-Ball 28dB、Bump-Bump 36dB、支援FEC、EQ包含CTLE、DFE、FFE,功耗大約4.5-7pJ/bit
- MR (Medium Reach):用於同PCB或是跨PCB,MAC-PHY or MAC-Retimer的連接,Ball-Ball 20dB、Bump-Bump 28dB,支援FEC、EQ包含CTLE、DFE、FFE,功耗大約4-5pJ/bit
- VSR (Very Short Reach):用於Switch ASIC驅動光模塊,Ball-Ball 16dB、Bump-Bump 22dB、支援FEC、EQ包含CTLE、DFE、FFE,功耗大約3-4pJ/bit
- XSR (Extra Short Reach):用於CPO的SerDes,通道損耗<10dB,設計目標為低功耗、低延遲,因此可能不會支援FEC,或是輕量版的FEC,EQ只有CTLE,功耗大約2-3pJ/bit
- XSR+ (Extra Short Reach Plus):最初推來給NPO使用,但現在轉為CPO使用,是高級版的CPO SerDes,可以支撐13dB通道損耗,支援輕量版FEC,EQ只有CTLE或少tap DFE,功耗大約2-3.5pJ/bit
- Linear:完全線性介面,通常指不包含接收端DFE或FEC的介面設計,強調光模組需具備良好類比性能以符合BER需求,功耗極低,這次nVIDIA推出的CPO Photonics Switch就是使用這類型的傳輸介面
- MCM (Multi-Chip Module):多晶片模組,強調晶片間超短距離傳輸,可能採用XSR、XSR+、Linear等介面,損耗與功耗達到更低的水準,設計上省略EQ與FEC機制

眼尖的你可以發現,其實長距離傳輸是透過強大的電源需求所撐起來的,我們所謂越強的SerDes其實代表越強的接收器Receiver,透過超多tap的DFE與FFE以及前向糾錯FEC,將經過大損耗通道而變得微弱的訊號給補償回來。

換句話說,CPO的出現的確可以解決損耗帶來的種種挑戰,至少我們不用再去算PCB損耗、不用再去解複雜走線分布所帶來的Crosstalk與反射議題,不過其實我們應該將眼光放在功耗這一塊,因為那才是CPO這東西存在的真正價值!
業界首款正式落地CPO Switch – Quantum-X800 Photonics
這款Quantum-X800 Photonics機種具有正面2顆背面2顆,總共4顆Quantum-X800 Switch ASIC,單封裝具備28.8Tbps的頻寬,機台理論總頻寬高達115.2Tbps。全機採用液冷散熱,可以看到Switch ASIC上有大大的水冷板。



單封裝裡頭塞進6組Optical Assembly,每組包含3個利用台積電6nm COUPE製程與200Gbps MRM諧振環設計的Photonic IC(PIC),等於單封裝有18個PIC,整機有72個PIC,一個PIC有1.6Tbps的頻寬。


前面板具有18個External Laser Source(ELS),一個ELS具有八個雷射光源,總共144個雷射光源,透過光纖將雷射光從外部連接到內部的Fiber Array Unit(FAU),FAU主要功能在於將外部雷射光源導入至PIC。


而一個ELS可以支援4顆PIC,代表2個雷射光激發1個PIC,因此18個PIC就需要36條雷射光纖輸入。
一個PIC有16個IO,8個Transmitter(TX)和8個Receiver(RX),簡稱8T8R。所以總共會有16*18總共288條資料光纖連接到單封裝。

總共4個CPO封裝,所以對資料而言,總共288*4=1152條單模光纖在機台裡頭。

外頭前面板有144個MPO接頭,每個接頭有800G的頻寬,144*0.8=115.2Tbps。

Every GPU would have 6 tranceivers, every GPU would have six these plugs, and these plugs would add 180W per GPU and 6,000 dollars per GPU. So, the question is how do we scale-out now to millions of GPUs? Because if we have millions of GPUs, multiply by 6, it would be 6 million transceivers times 30W, a 180MW of tranceivers…so the question is how could we afford as a mission earlier energy is the most important commodity, everything is a related optimized energy, so this is a limit to the revenues, our customers revenues by subtracting out 180MW of power. So, this is the amazing thing we did, we invented the world’s first MRM modulator…進入CPO主題…
這段話節錄自Jensen在GTC keynote上說的,影片裡字幕跑掉,靠自己破碎的英文聽寫紀錄,翻譯不周請見諒!
簡單講,CPO就是開發來節省電源功耗的,如同我們前面提到的,每個PIC都是Linear Optics的設計,每個Optics都沒有DSP,整體系統功耗大幅下降,CSP客戶們可以省下這麼多的電力,增加公司的獲利能力。(或是…省下的電力你可以再買更多的GPU?)
當然,理論上你也可以將這台CPO Switch設計成傳統的插拔形式,並改用Linear Pluggable Optics(LPO)來達到近似的電性結果,可是CPO的整合度較高,可以支援更多的IO,且允許網路展平一層,允許Cluster通過使用 CPO 達到兩層網路的設計,不像使用 DSP 這樣利用三層網路。這使得節省了相關的成本與功耗!
看看SemiAnalysis的分析,對於400k*GB200 NVL72的部署,從基於 DSP 收發器的三層網路遷移到基於 CPO 的兩層網路,可以節省高達 12% 的總Cluster功耗,從而將Optics功耗從佔比計算資源的10%降低到僅佔比1%的計算資源!

從「看得到吃不到」到「準備量產」
總之,CPO的誕生,不是為了取代電,而是當電的傳輸在功耗與損耗上都面臨瓶頸時,提供一條新道路。這場改變是漸進的,也是大勢所趨。
CPO Switch技術正處於從概念驗證走向實際部署的關鍵階段。它以提高訊號完整性和降低互連功耗為核心價值,通過光電整合封裝來突破傳統架構極限。可以預期在玩家越來越多的情況下,一定可以發展出一套產業標準,克服現在的技術瓶頸,達到規模經濟!等到CPO正式可以利用在Scale-Up時,AI的算力與能源管控才真的可以達到平衡的狀況!(無法想像的世界!?)