故事還是要從頭開始講起。
去年,國家發(fā)布了“東數(shù)西算”戰(zhàn)略,吸引了全社會的關注。
所謂“東數(shù)西算”,其實就是數(shù)據(jù)中心的任務分工調(diào)整。我們將東部沿海地區(qū)的部分算力需求,轉移到西部地區(qū)的數(shù)據(jù)中心完成。
之所以這么做,就是因為西部地區(qū)能源資源比較充沛,而且自然溫度較低,可以大幅減少電費以及碳排放。
我們都知道,數(shù)據(jù)中心是算力的載體,現(xiàn)階段我們大搞數(shù)字化轉型和數(shù)字經(jīng)濟,離不開算力,也離不開數(shù)據(jù)中心。但是,數(shù)據(jù)中心的耗電問題,無法忽視。
根據(jù)數(shù)據(jù)顯示,2021年全國數(shù)據(jù)中心總用電量為2166億千瓦時,占全國總用電量的2.6%,相當于2個三峽水電站的年發(fā)電量,1.8個北京地區(qū)的總用電量。
如此恐怖的耗電量,對我們實現(xiàn)“雙碳”目標造成了很大壓力。
于是乎,行業(yè)開始加緊研究,究竟如何才能將數(shù)據(jù)中心的能耗降下來。
數(shù)據(jù)中心(IDC)
大家應該都知道,數(shù)據(jù)中心有一個重要的參數(shù)指標,那就是PUE(Power Usage Effectiveness,電能使用效率)。
PUE=數(shù)據(jù)中心總能耗/IT設備能耗。其中數(shù)據(jù)中心總能耗,包括IT設備能耗,以及制冷、配電等其它系統(tǒng)的能耗。
我們可以看出,除了用在主設備上的電量之外,還有很大一部分能耗,用在散熱和照明上。
所以,搗鼓數(shù)據(jù)中心的節(jié)能減排,思路就在兩點:
1、減少主設備的功耗
2、減少散熱和照明方面的功耗(主要是散熱)
█ 主設備的功耗挑戰(zhàn)
說起主設備,大家馬上就想到了服務器。是的沒錯,服務器是數(shù)據(jù)中心最主要的設備,它上面承載了各種業(yè)務服務,有CPU、內(nèi)存等硬件,可以輸出算力。
但實際上,主設備還包括一類重要的設備,那就是網(wǎng)絡設備,也就是交換機、路由器、防火墻等。
目前,AI/ML(人工智能/機器學習)的加速落地,再加上物聯(lián)網(wǎng)的高速發(fā)展,使得數(shù)據(jù)中心的業(yè)務壓力越來越大。
這個壓力不僅體現(xiàn)在算力需求上,也體現(xiàn)在網(wǎng)絡流量上。數(shù)據(jù)中心的網(wǎng)絡接入帶寬標準,從過去的10G、40G,一路提升到現(xiàn)在100G、200G甚至400G。
網(wǎng)絡設備為了滿足流量增長的需求,自身也就需要不斷迭代升級。于是乎,更強勁的交換芯片,還有更高速率的光模塊,統(tǒng)統(tǒng)開始用上。
我們先看看交換芯片。
交換芯片是網(wǎng)絡設備的心臟,它的處理能力直接決定了設備的能力。這些年,交換芯片的功耗水漲船高,如下圖所示:
交換機芯片功耗變化趨勢
值得一提的是,雖然網(wǎng)絡設備的總體功耗在持續(xù)提升,但是,單Bit(比特)的功耗是持續(xù)降低的。也就是說,能效越來越高。
再看光模塊。
光模塊在光通信領域,擁有重要的地位,直接決定了網(wǎng)絡通信的帶寬。
早在2007年的時候,一個萬兆(10Gbps)的光模塊,功率才1W左右。
隨著40G、100G到現(xiàn)在的400G,800G甚至以后的1.6T光模塊,功耗提升速度就像坐上了火箭,一路飆升,直逼30W。大家可要知道,一個交換機可不止一個光模塊,滿載的話,往往就有幾十個光模塊(假如48個,就是48×30=1440 W)。
一般來說,光模塊的功耗大約占整機功耗的40%以上。這就意味著,整機的功耗極大可能會超過3000 W。
一個數(shù)據(jù)中心,又不止一交換機。這背后的功耗,想想都很可怕。
除了交換芯片和光模塊之外,網(wǎng)絡設備還有一個大家可能不太熟悉的“耗電大戶”,那就是——SerDes。
SerDes是英文SERializer(串行器)/DESerializer(解串器)的簡稱。在網(wǎng)絡設備中,它是一個重要器件,主要負責連接光模塊和網(wǎng)絡交換芯片。
? 簡單來說,就是將交換芯片出來的并行數(shù)據(jù),轉換成串行數(shù)據(jù)進行傳輸。然后,在接收端,又將串行數(shù)據(jù)轉換成并行數(shù)據(jù)。
前面提到,網(wǎng)絡交換芯片的能力在不斷提升。因此,SerDes的速率也必須隨之提升,以便滿足數(shù)據(jù)傳輸?shù)囊蟆?/p>
SerDes的速率提升,自然就帶動了功耗的增加。
在102.4Tbps時代,SerDes速率需要達到224G,芯片SerDes(ASIC SerDes)功耗預計會達到300W。
需要注意的是,SerDes的速率和傳輸距離,會受到PCB材料工藝的影響,并不能無限增加。換句話說,當SerDes速率增加、功耗增加時,PCB銅箔能力不足,不能讓信號傳播得更遠。只有縮短傳輸距離,才能保證傳輸效果。
這有點像扔鉛球比賽,當鉛球越重(SerDes速率越高),你能扔的距離就越短。
具體來說,SerDes速率達到224G時,最多只能支持5~6英寸的傳輸距離。
這意味著,在SerDes沒有技術突破的前提下,網(wǎng)絡交換芯片和光模塊之間的距離,必須縮短。
綜上所述,交換芯片、光模塊、SerDes,是網(wǎng)絡設備的三座“功耗”大山。
根據(jù)設備廠商的數(shù)據(jù)顯示,過去的12年時間,數(shù)據(jù)中心的網(wǎng)絡交換帶寬提升了80倍,背后的代價就是:交換芯片功耗提升約8倍,光模塊功耗提升26倍,交換芯片SerDes功耗提升25倍。
信息來源:2020 Cisco and/or its affiliates.All rights reserved.Cisco Public
在此情況下,網(wǎng)絡設備在數(shù)據(jù)中心內(nèi)的功耗占比,隨之不斷攀升。
網(wǎng)絡設備(紅色)的能耗占比
數(shù)據(jù)來源:Facebook-OIF CPO Webinar 2020
█ 散熱的功耗挑戰(zhàn)
前面小棗君仔細介紹了網(wǎng)絡設備的功耗挑戰(zhàn)。接下來,我們再看看散熱。
事實上,相比對網(wǎng)絡設備的功耗提升,散熱的功耗才是真正的大頭。
根據(jù)數(shù)據(jù)統(tǒng)計,交換設備在典型數(shù)據(jù)中心總能耗中的占比,僅僅只有4%左右,還不到服務器的1/10。
但是散熱呢?根據(jù)CCID數(shù)據(jù)統(tǒng)計,2019年中國數(shù)據(jù)中心能耗中,約有43%是用于IT設備的散熱,基本與45%的IT設備自身的能耗持平。
即便是現(xiàn)在國家對PUE提出了嚴格要求,按照三級能效(PUE=1.5,數(shù)據(jù)中心的限定值)來算,散熱也占了將近40%。
傳統(tǒng)的散熱方式(風冷/空調(diào)制冷),已經(jīng)不能滿足當前高密數(shù)據(jù)中心的業(yè)務發(fā)展需求。于是,我們引入了液冷技術。
液冷,是使用液體作為冷媒,為發(fā)熱部件散熱的一種新技術。引入液冷,可以降低數(shù)據(jù)中心能近90%的散熱能耗。數(shù)據(jù)中心整體能耗,則可下降近36%。
這個節(jié)能效果,可以說是非常給力了,直接省電三分之一。
除了散熱更強更省電之外,液冷在噪音、選址(不受環(huán)境氣候影響)、建設成本(可以讓機柜采用高密度布局,減少機房占地面積)等方面也有顯著優(yōu)勢。
所以,現(xiàn)在幾乎所有的數(shù)據(jù)中心,都在采用液冷。有的液冷數(shù)據(jù)中心,甚至可以將PUE干到1.1左右,接近1的極限值。
液冷,是不是把整個設備全部浸沒在液體里呢?
不一定。
液冷的方案,一般包括兩種,分別是浸沒式和冷板式。
浸沒式,也叫直接式,是將主設備里發(fā)熱量大的元器件,全部浸入冷卻液中,進行散熱。
冷板式,也稱間接式,是將主要散熱部件與一塊金屬板貼合,然后金屬板里有冷媒液體流動,把熱量帶走。現(xiàn)在很多DIY組裝電腦,就是冷板式。
服務器采用液冷,已經(jīng)是非常成熟的技術。那么,既然要上液冷,當然是服務器和網(wǎng)絡設備一起上,會更好啊,不然還要搞兩套體系。
問題來了,咱們的網(wǎng)絡設備,能上液冷嗎?
█ NPO/CPO,閃亮登場
當當當!鋪墊了那么多,我們的主角,終于要閃亮登場了。
為了盡可能地降低網(wǎng)絡設備的自身工作功耗以及散熱功耗,在OIF(光互聯(lián)網(wǎng)絡論壇)的主導下,業(yè)界多家廠商,共同推出了——NPO/CPO技術。
2021年11月,國內(nèi)設備廠商銳捷網(wǎng)絡(Ruijie Networks),發(fā)布了全球第一款25.6T的NPO冷板式液冷交換機。2022年3月,他們又發(fā)布了51.2T的 NPO冷板式液冷交換機(概念機)。
NPO冷板式液冷交換機
NPO,英文全稱Near packaged optics,近封裝光學。CPO,英文全稱Co-packaged optics,共封裝光學。
簡單來說,NPO/CPO是將網(wǎng)絡交換芯片和光引擎(光模塊)進行“封裝”的技術。
我們傳統(tǒng)的連接方式,叫做Pluggable(可插拔)。光引擎是可插拔的光模塊。光纖過來以后,插在光模塊上,然后通過SerDes通道,送到網(wǎng)絡交換芯片(AISC)。
CPO呢,是將交換芯片和光引擎共同裝配在同一個Socketed(插槽)上,形成芯片和模組的共封裝。
NPO是將光引擎與交換芯片分開,裝配在同一塊PCB基板上。
大家應該能看出來,CPO是終極形態(tài),NPO是過渡階段。NPO更容易實現(xiàn),也更具開放性。
之所以要做集成(“封裝”),目的很明確,就是為了縮短了交換芯片和光引擎間的距離(控制在5~7cm),使得高速電信號能夠高質量的在兩者之間傳輸,滿足系統(tǒng)的誤碼率(BER)要求。
縮短距離,保證高速信號的高質量傳輸
集成后,還可以實現(xiàn)更高密度的高速端口,提升整機的帶寬密度。
此外,集成使得元件更加集中,也有利于引入冷板液冷。
NPO交換機內(nèi)部(揭開冷板后)
可以看到,交換芯片和光引擎之間的距離大幅縮短
NPO/CPO技術的背后,其實就是現(xiàn)在非常熱門的硅光技術。
硅光,是以光子和電子為信息載體的硅基光電子大規(guī)模集成技術。簡單來說,就是把多種光器件集成在一個硅基襯底上,變成集成“光”路。它是一種微型光學系統(tǒng)。
硅光之所以這么火,根本原因在于微電子技術已經(jīng)逐漸接近性能極限,傳統(tǒng)的“電芯片”在帶寬、功耗、時延方面,越來越力不從心,所以,就改走了“(硅)光芯片”這個新賽道。
█ NPO/CPO交換機的進展
NPO/CPO技術是目前各大廠商研究的熱門方向。尤其是NPO,因為擁有最優(yōu)開放生態(tài),產(chǎn)業(yè)鏈更加成熟,可以獲得成本及功耗的最快收益,所以,發(fā)展落地更快。
前面提到了銳捷網(wǎng)絡的25.6T硅光NPO冷板式液冷交換機。
這款NPO交換機基于112G SerDes的25.6T的交換芯片,1RU的高度,前面板支持64個連接器的400G光接口,由16個1.6T(4×400G DR4)的NPO模塊組成,支持8個ELS/RLS(外置激光源模塊)。
散熱方面,采用了非導電冷卻劑的冷板冷卻方式。
那款51.2T硅光NPO冷板式液冷交換機,高度不變,將NPO模組從1.6T升級到了3.2T,前面板支持64個800G連接器,每個連接器還可以分成2個400G端口,實現(xiàn)向前兼容。外置光源模塊增加到了16個。
51.2T NPO冷板式液冷交換機
在實際組網(wǎng)中,51.2T的NPO交換機(最快在2023年底商用發(fā)布),可以應用于100G/200G的接入網(wǎng)絡,作為接入&匯聚設備,實現(xiàn)高速互聯(lián)。
值得一提的是,NPO/CPO的技術和產(chǎn)品研發(fā),并不是一件簡單的事情,背后是對一家企業(yè)整體研發(fā)實力的考驗。
這次銳捷網(wǎng)絡能夠全球首發(fā)NPO/CPO產(chǎn)品,是他們持續(xù)投入資源進行艱苦研發(fā)和創(chuàng)新的成果,也體現(xiàn)了他們在這個領域的技術領先性。
銳捷網(wǎng)絡在2019年開始關注硅光領域技術,2020年6月正式成立研發(fā)及產(chǎn)品團隊。作為OIF/COBO的成員,他們一直都有參與工作組全球會議,參加相關標準的討論和制定。
在硅光這個方向上,銳捷網(wǎng)絡已經(jīng)走在了世界前列,未來可期。
█ 結語
好了,介紹了這么多,相信大家已經(jīng)看明白,到底什么是NPO/CPO了。
這兩項技術,是數(shù)據(jù)中心網(wǎng)絡設備毫無疑問的發(fā)展方向。在目前的數(shù)字化浪潮下,我們對算力和網(wǎng)絡通信能力的追求是無止境的。在追求性能的同時,我們也要努力平衡功耗。畢竟,我們要走的是可持續(xù)性發(fā)展的道路。
希望以NPO/CPO為代表的硅光科技,能夠進一步加速落地,為信息基礎設施的綠色低碳做出貢獻。
未來,硅光技術究竟還會帶來怎樣的技術創(chuàng)新?讓我們拭目以待吧!
審核編輯:劉清
-
服務器
+關注
關注
12文章
9596瀏覽量
86986 -
人工智能
+關注
關注
1804文章
48449瀏覽量
245062 -
機器學習
+關注
關注
66文章
8481瀏覽量
133864 -
交換芯片
+關注
關注
0文章
88瀏覽量
11252 -
CPO
+關注
關注
0文章
29瀏覽量
325
原文標題:數(shù)據(jù)中心的黑科技——到底什么是NPO/CPO?
文章出處:【微信號:鮮棗課堂,微信公眾號:鮮棗課堂】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論