內容快速索引
過去,資料中心主要負責儲存與處理企業級應用,例如電子郵件、資料庫、網站服務等。然而,隨著 AI 的崛起,整個資料中心的架構正經歷一場劇烈變革。現在的 AI 資料中心,已經不只是傳統的儲存與運算環境,而是針對高效能運算(HPC, High-Performance Computing) 進行優化,以滿足 AI 訓練和推理的需求。
這場變革主要體現在 運算核心、網路架構、頻寬需求與延遲控制 等多個方面。讓我們來看看,AI 資料中心與傳統資料中心究竟有什麼不同。

AI資料中心 – 運算核心架構的轉變:CPU vs GPGPU/ASIC
傳統資料中心 – x86 CPU專門負責串行運算
傳統資料中心跟 AI 資料中心最大的差別之一,就是使用的運算核心不同:前者使用 CPU,後者則大量使用 GPGPU 或特製的 AI 晶片(ASIC)。這兩者差異在哪?

傳統資料中心主要負責
- 資料庫管理
- 企業應用(ERP、CRM)
- 網站與雲端應用
- 虛擬機器(VM)
這些工作屬於串行運算,串行運算的意思很簡單,就是要按照順序,一步一步慢慢做,每一步之間都有相依性。比如說你今天去銀行提款,你的帳戶一定要先確認餘額夠不夠,才能提款,然後再更新餘額,每一步驟都不能跳過。這種工作的運算核心主要是透過 x86 架構的 CPU。CPU 擅長處理比較複雜、相依性強的指令,它就像一個超級聰明的主管,能夠有效地依序處理各種問題。主要的晶片有 Intel Xeon 或 AMD EPYC 伺服器處理器。
AI資料中心 – GPGPU提供大規模平行運算
但當 AI 需要大量的數據並行運算時,CPU的表現就顯得力不從心。AI 模型的訓練跟推理,都是在做大量的矩陣運算,而矩陣運算的特色就是它可以同時執行大量簡單計算。這就好比一個人單獨解 1,000 道數學題 vs. 1,000 人同時解 1,000 題,後者速度當然快很多。
與 CPU 相比,GPU 有更多的運算核心,擅長平行運算,對於短時間需要大量重複運算的 AI 訓練與推理功能無疑是大大地加分。這也使得顯示卡晶片王者nVIDIA成為這一波AI浪潮裡最火熱的當紅炸子雞。股價在短短幾年暴衝了好幾倍!也因為有超級穩定的現金流,可以鞏固其在產業的地位,在2024年已經把晶片的Roadmap畫到2027年去了(偉哉Jensen)。

目前(2025 Q1),按照nVIDIA計劃走,市場上的GPU已經進展到Blackwell系列,也就是HGX B100、B200以及GB200。而今年業界焦點除了持續關注正在如火如荼出貨的GB200 Rack上,目光也望著GB300,也就是Blackwell Ultra這顆新的晶片上。

當然作為傳統顯示晶片的二當家,AMD也是緊跟著nVIDIA的腳步走,相關GPU Roadmap已經開到MI400,一些ODM也已經著手進行MI450的討論。對AMD而言,現在最大的問題不是GPU的能力,好歹AMD也是最早擁抱Chiplet設計觀念的公司,設計的技術水平是很高的,所以其單顆GPU能力並不會輸給nVIDIA。對這間公司而言最大的問題是目前沒辦法將GPU的頻寬衝出來,不像nVIDIA有NVLink5.0這種網路拓樸,可以將它所有的晶片做成超大的Cluster,AMD自有IP偏向PCIe架構,我們先前討論過,PCIe資料傳輸速度還是不夠快。因此有可能在MI450,AMD會導入Broadcom的TH6網路晶片,把頻寬放大,以對抗nVIDIA!

AI資料中心 – 客製化ASIC,提供更好的效率
除了通用GPU以外,現在這些大型CSP業者為了提升自有的AI演算法的效率,有些大公司甚至特別開發(或是找夥伴一起開發,例如OpenAI找Broadcom、Amazon找Marvell與Alchip)專用的 AI 晶片(或稱 AI ASIC)。例如 Google 的 TPU,或是META的MTIA系列晶片,就是專門為AI計算設計的。這些特製晶片比一般通用GPU更有效率,因為它們不需要考慮其他用途,專注於 AI 運算上面,對於電源功耗、散熱、整體效率又提升了不少。
Meta的MTIA(Meta Training and Interference Accelerator):

Amazon的Trainium 2:

除了核心運算晶片的不同外,對AI資料中心而言,還有許多架構上的轉變,例如儲存設備的變化、電力與散熱的需求暴增等等,在這邊就不多贅述。
GPU/ASIC 打團體戰!AI 資料中心內部網路的重要性
AI 需要「規模化平行計算」,同時間越多的運算核心一起工作是必要的。因此怎麼將所有的晶片連起來,讓GPU/ASIC去擴展(Scalability),進而變成一台「超級 AI 計算機」,就是關鍵中的關鍵!
而這一切的擴展核心,就是高速網路。透過這些網路技術,AI 訓練時可以快速傳遞數據,確保 GPU 之間的梯度更新(Gradient Exchange) 和 模型同步(Model Synchronization) 不會成為瓶頸,讓 AI 訓練更有效率。

例如,以nVIDIA的NVL72 GB200來看,有72個Blackwell GPU,單一GPU的理論頻寬為1.8TB/s,透過NVLink將72個GPU串起來,理論總頻寬可以高達129.6TB/s。或是說像圖上的這種架構,利用8個具備高速網路224G SerDes的Switch tray,透過背板連接器,經由Copper cable並接16個Compute tray做資料傳輸的Scale-Up,圖上僅以單台Switch tray做範例,實際上每台Switch tray都會用相同方式接到Compute tray,這樣連接就可以達成一個完整的矩陣!若以一台預計2026年要推出載著Broadcom TH6網通晶片的Switch tray總頻寬102.4T來看,整個Rack總頻寬可以高達819.2T!這會是目前AI資料中心裡面較有效率且妥善利用Rack空間的一種規劃。這只是其中一種idea,每家CSP業者的想法不盡相同,不過可以確定的是網路的重要性不亞於GPU與ASIC的能力!
這也是為什麼nVIDIA早早要收購Mellanox這家網路公司,咱家老黃早就看到網路對於GPU擴展的重要性!
這邊順便提一下這些高速訊號的不同應用:
- Ethernet or InfiniBand:用於Scale-Out的對外網路或是Scale-Up的內部網路,目前發展到224G-PAM4。
- UALink:幾家大公司如Broadcom、AMD、Apple籌組的聯盟,目的是為了對抗nVIDIA的NVLink而開發的高速介面,目前UALink 1.0規範快要完成了!預計也是採用224G SerDes。
- PCIe:由PCI-SIG推出的高速介面,初期應用在消費型電子,例如CPU-Storage的連接、CPU-GPU的連接等等,目前進展到PCIe Gen6,由於被消費型電子的多種應用綁架,規範更新速度過慢,才導致nVIDIA推出NVLink自己玩自己的!
- UEC:也是由一堆國際大廠籌組的聯盟,目標是要定義出高低延遲的網路生態系,已滿足AI/ML的應用。
網路數據流量模式 – Scale-Up and Scale-Out
我們一直在AI資料中心領域,一直在講Scale-Up與Scale-Out,這兩者到底是什麼?是不是霧煞煞?
傳統資料中心:東西向與南北向流量並重
- 南北向流量(North-South Traffic):
- 外部跟內部的資料傳遞
- 客戶端(例如用戶、瀏覽器)與伺服器之間的請求與回應流量。
- 使用者存取雲端應用、企業內部系統連線、網站請求等。
- 由於要將大量資料往外部送,網路交換器的頻寬需求較高(400G up)。
- 東西向流量(East-West Traffic):
- 內部機台間的資料傳遞
- 伺服器之間的資料交換,例如微服務架構、資料庫同步。
- 但這類流量通常不會過於密集,100G/400G 網路即可應付大多數情境。(多數為100G)
AI 資料中心:極端東西向流量
AI 訓練過程中,伺服器之間必須大量交換數據,此種東西向流量主要來自:
- GPU 伺服器之間的數據同步
- 深度學習訓練時的梯度更新
- 多機 GPU 叢集的跨節點通信
這些數據傳輸量巨大,數百台 GPU 必須以極低延遲進行通訊,因此 InfiniBand 與 400G/800G Ethernet 變成標準配置。
網路頻寬需求
傳統資料中心:100G/400G 是主流
- 目前許多企業與雲端資料中心仍然採用 100G 網路交換機。
- 部分高性能應用(例如 HPC)才會用到 200G/400G 網路。
- 網路頻寬需求主要來自應用層,單一應用通常不會瞬間爆發大量流量。
AI 資料中心:400G/800G 是新標準
AI 訓練時,GPU 之間的數據同步頻寬需求極高,以 GPT-4 訓練為例,AI Cluster 可能需要數千張 H100 互聯,這時候:
- InfiniBand HDR/ NDR(200G/400G)或 Ethernet 400G/800G 是標配
- 使用 NVLink 加速 GPU 內部通訊
- 如果網路頻寬不足,AI 訓練時間將大幅增加,甚至 GPU 會處於等待數據的狀態,無法充分利用。
網路延遲需求
傳統資料中心:毫秒級(ms)延遲
傳統 IT 應用(例如網頁伺服器、電子郵件)對於延遲容忍度較高,數毫秒(ms) 的延遲影響不大。
例如:
- 企業 ERP 系統:10-50ms 延遲幾乎沒感覺
- 網頁請求:數十 ms 影響不大
- 虛擬機/雲端應用:主要關心吞吐量,不太受延遲影響
AI 資料中心:微秒級(µs)延遲
AI 訓練時,GPU 之間的通訊頻繁,如果網路延遲高,會嚴重影響計算效率,甚至造成 GPU 閒置。
例如:
- GPU 訓練需要 <10µs 延遲的 InfiniBand 或 NVLink
- 以太網 400G/800G 延遲也必須控制在 <50µs
- 低延遲 RDMA(Remote Direct Memory Access)技術被廣泛使用
- 因此 AI 資料中心會特別優化網路,以最小化通訊延遲。
224G SerDes – 當前最高速的資料傳輸IP
AI產業的高頻寬需求,勢必使高速訊號得迅速地進步。原本業界最高規格的傳輸IP 112G SerDes已經無法滿足,224G SerDes應運而生成為當前產業界最新的高速訊號規格。其採用了PAM4編碼技術,讓頻寬可以在有限的頻譜範圍內大幅提升,讓我們這些SI工作者只需要顧慮到53GHz的Nyquist Frequency,而不是106GHz。然而,即便如此,兩倍於 112G 的頻寬 依舊帶來了許多設計上的新難題,對 材料選擇、PCB 佈局、SI與功耗管理 都提出了更嚴苛的要求。:
- 高頻材料損耗與系統損耗管控:系統損耗計算、連接器與測試治具的選用以及PCB CCL材料選擇
- 更嚴苛的阻抗控制:更嚴苛(5%)的過孔阻抗控制
- 更難解決的Crosstalk:BGA pin map的排列與Ground via shielding的設計直接主導Via Crosstalk的優劣
最後做個簡單的總結:

講真的,訊號完整性是越來越重要了,已經不單單只是SI工程師要處理的,如果每個人都對SI有簡單的認識,那處理高速訊號產品就會更容易些喔,就跟著我們一起理解SI的奧秘之處吧!