內容快速索引
還記得以前剛學SI的時候,是在封裝產業,最基本的就是利用準靜態電磁場的軟體抽取封裝引腳、Trace、Solderball、WireBond的RLC,透過比對這些RLC的數據,做設計上的優化,例如WireBond,如果電感過大,是否線過長?或是可以Double Bond(以前有講過)?或是改用較粗的線?


在一些高頻寬的產品,例如CPU、GPU(這是當時的顯卡晶片,跟現在不同而語😆),就會改成使用3D modeling,透過FEM的技術去萃取高頻S參數,透過Return loss、Insertion loss和Crosstalk去了解高速訊號線路的反射與損耗等等。
之前做的QFP封裝的模擬與實測比對,另外一條曲線是透過RLC modeling去等效封裝所有結構,可以透過這種方式理解這些計算的RLC到底對不對:

這是BGA封裝的數據,一樣透過RLC modeling去等效結構:

在系統層級,就會開始透過IBIS model or SPICE model去串接PCB的模型,就可以得到眼圖、Jitter、Ripple這些數據:

這些SI的分析,真的要講也是一大篇,但是總體而言也還算是單純,每天都在跟這些東西玩在一起。
高功耗晶片導致板溫急劇上升,連帶影響訊號完整性與電源完整性
但是現況卻有點不一樣,以前做一些比較低速的產品,例如10G/25G switch,或是x86 server PCIe Gen4的高速訊號,在BER的模擬與實測的比對上,尚還可以做的8-90分,誤差還不是很大(千萬別說可以100%,那叫做作弊…)。可是當時代來到800G或是一些PCIe Gen5的產品,在做Correlation的時候總是很卡,BER差異非常大,就覺得很怪,研究了很久,最後想想會不會是板溫的影響?
其實這是有跡可循,當Data Rate越來越快,晶片的功耗也是隨之提升,像是nVIDIA的B200,單顆IC來到1000W,而網路交換器晶片霸主Broadcom最新的晶片也號稱來到1400W以上,在這麼高的功耗之下,散熱系統就變得很重要,不然也不會nVIDIA一直在講水冷散熱系統(Liquid Cooling),或是之前一度吵得很火的浸沒式液冷(Immersion Cooling)。

GB200 Liquid Cooling:

Immersion Cooling:

熱通常會透過兩種方向做傳遞,第一種是向上,經由Silicon、TIM I、Integrated Heat Spreader、TIM II和Heat sink,將絕大部分超過90%的熱從上面去消散掉,這部分絕大多數的ODM都是由專業的Thermal人員去處理,據我所知,他們會去選擇低熱阻的TIM(Thermal Interface Material)與設計低熱阻的Heat sink,或是均熱板(Vaper Chamber),透過降低這一路的熱阻以減少溫度的上升。

而剩下的熱則會從下面這一條路徑導到BGA substrate與PCB去,這路基本上較難透過Thermal的專業去解決,或許能做的就是盡量將更多的熱往上導,讓走下面的熱變少。不過基本上一定會有些許熱源往下引導,而這也是導致SI/PI人員頭痛的原因。因為這些功耗會在Substrate與PCB上發熱,升高板子溫度,連帶導致SI/PI的一些問題產生!
這也是為什麼當我們將熱的因素考慮進SI/PI模擬之中,BER的Correlation就更貼近了些!🎯
Thermal對於Signal Integrity的影響
對於SI而言,溫度帶來的影響莫過於通道損耗的上升,以一個224G SerDes高速通道來看,攝氏90度的板溫下,所帶來的損耗會多出3.4dB,大概惡化了原本通道損耗的8%,現在的45dB通道損耗已經非常緊繃,幾乎是沒有Margin的狀態,如果再加上溫度造成的影響,會使得設計面上非常難搞!

金屬導電率隨著溫度上升而下降
正常來說,金屬的導電率會隨著溫度升高而下降,其原因來自當溫度升高時,金屬裡的晶格熱振動強度增加,金屬原子不再整齊靜止,而是劇烈地來回晃動,形成更多動態障礙。自由電子在運動時便不斷與這些振動的原子碰撞,被迫改變方向或暫停前進,通過的效率因此大幅降低。
金屬導電率隨溫度變化的數學公式如下:
\( \large \sigma(T) = \large \frac{\sigma_0}{1 + \alpha\,(T – T_0)} \)
以常見的銅來說:
- \( \rho_0 \):參考溫度T0(通常取 20°C)下的導電率
- \( \alpha \):溫度係數(銅約\( 0.00393\;\mathrm{K^{-1}} \))
- T:工作溫度(°C)
- T0:參考溫度,通常是20°C,此時的銅箔導電率為5.96 × 10⁷S/m
如果畫成折線圖就會變成:

可以看到,80度的時候,銅箔導電率為4.82 × 10⁷ S/m,導電能力相比常溫已經下降約20%,或者說電阻率上升20%,傳輸線電阻當然也隨之上升20%,連帶傳輸線損耗上升!
介電材料損耗常數DF隨著溫度上升而上升
除了金屬導體,介電材料會是高溫下影響更大的一環。DF會隨著溫度變高而上升,變異量跟材料等級有關,如果是低階材料M4(或者說是Mid-Loss),這種使用E-glass玻璃纖維布的材料,DF在100度的條件下,至少也要來個5-60%左右的惡化。不過以現在M8等級的材料而言,由於使用的樹脂系統較穩定,玻璃纖維布也用到Low-DK甚至Low-DK2等級,DF的變動量就沒那麼大,但是從測試數據來看也有個40%的劣化!

從損耗的測試數據來看,以一對10inch差動對傳輸線,90度時損耗在40GHz時,會比常溫下還多2dB,大約是13%的差異,你說大還不大呢?

對SI最主要的影響莫過於這兩者,其餘當然還有,例如介電材料DK的變異也會使得傳輸線阻抗控制變得較為不易,產品的耐用性考量也將使PCB製成管控內入多一點思維,可能間接導致SI的設計受到影響。
Thermal對於Power Integrity的影響
DCR隨著溫度變大而跳升
對於PI而言,溫度提升帶來的金屬導電率下降,會使得走線與電源平面的電阻變大,進而加劇DC IR Drop。當電路板或晶片內部的熱源密度增加,局部溫度上升,就如同在電源路徑中增加了電阻,導致電壓降分佈不均,供電網路的電位梯度得較為陡峭。若不及時補償或優化,便可能在一些電源平面或是關鍵元件附近形成Hot spot,影響裝置的穩定性和效能。
要能精確分析,我們可以利用模擬軟體,例如Cadence PowerDC的熱電模擬流程去分析熱與電的互相耦合機制。

考量加入溫度的變化之後,DCR的值跟著上升,導致PDN impedance有可能會更加遠離Target impedance:

你用的電容模型已經默默地改變了
要知道像MLCC這種電容的電容值都不是固定的,隨著偏壓不同,或是操作溫度改變,電容值也會跟著改變,也因此特性越穩定越不容易隨著環境變化改變而改變的電容越貴。就像下圖,X7T電容在溫度拉高時,電容值跟著變動相當地大,X7R的電容則較小,因此設計者在選用電容時要將溫度的考量考慮進去。

對PI工程師一個關鍵的點是,通常這種S參數模型,都是被動元件廠在常溫狀態下測出來的結果,所以如果要看到高溫下的結果,目前看到都是得自己做電容測試,去抽取高溫下的電容模型,再套進去模擬軟體如Cadence OptimizePI去做分析。這樣才不會低估了你的設計唷!
對於熱電耦合分析的想法
哎,對於SI/PI工程師而言,光學軟體、跑模擬、做測試、做Correlation、三不五時跟供應商談設計進度就已經焦頭爛額,現在還要再多評估溫度帶來的影響,要知道Thermal的模擬跟電的模擬是不同的軟體以及概念。以現有的熱電耦合方式來看,要先從熱管理軟體(例如Cadence Celcius Solver)將PCB熱溫度分佈模擬出來,再把數據吐給電的軟體(例如Cadence PowerDC),讓電的軟體透過這些熱分佈,將IR Drop Map重新生成,完成一輪熱電耦合分析。
這其中牽扯到,材料的熱參數的萃取,對於PCB風流的考慮,Heat sink的設置等等,都不是一般SI工程師會的呀…

或許有人會講,那就讓Thermal的人去分析就好,幹嘛讓SI/PI的人去做不熟的事。我們想這答案是也不是,但我們是站在SI這邊一票,因為熱電熱電,到底解熱還解電?其實現在的系統做了很多是,開發了很多新技術,最終目的還是要讓訊號能穩定輸出不掉包。相同地,熱影響了電訊號,所以主軸其實還是SI的工程師!對於Thermal,他們現在應該解封裝往上傳的熱就傷透腦筋了吧🤭
不過熱電分析這塊其實還是有很多目前不足的地方,例如不同熱管理軟體的模型不互通,資料留不一致的情況下,就很容易被綁死在同一間EDA公司的軟體裡,我們始終認為跑模擬最重要的其實是資料流…所有資料都要能在不同軟體裡互通才是讓工作最順的…
這次是最近真的被Thermal搞到了,開始來好好研究這整麼模擬分析流程,未來有機會再來分享研究進度啦!