一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

超大規(guī)模數(shù)據(jù)中心與HPC的網(wǎng)絡(luò)融合

sakobpqhz ? 來源:算力基建 ? 2023-12-07 11:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01.摘要

隨著大規(guī)模分布式數(shù)據(jù)處理和復(fù)雜數(shù)據(jù)中心服務(wù)的興起,數(shù)據(jù)中心內(nèi)部流量急劇增加,其特征與高性能超級計算機(jī)中的流量相似。然而,用于超級計算機(jī)和數(shù)據(jù)中心的網(wǎng)絡(luò)技術(shù)存在顯著差異,因此將它們整合起來是一個自然的問題。

本文探討了這兩種工作負(fù)載類型和技術(shù)之間的差異和共性,概述了在多個層面實現(xiàn)整合的途徑。并預(yù)測新興的智能網(wǎng)絡(luò)解決方案將加速這種整合的過程。

02.引言

近年來,數(shù)據(jù)中心計算經(jīng)歷了前所未有的增長,由最初的內(nèi)部服務(wù)器機(jī)房發(fā)展為巨型、超級和倉儲規(guī)模的數(shù)據(jù)中心。這些系統(tǒng)中的網(wǎng)絡(luò)端點數(shù)量已經(jīng)超過了世界上最大超級計算機(jī)的規(guī)模,這些超級計算機(jī)剛剛達(dá)到了Exascale標(biāo)準(zhǔn)。第一代數(shù)據(jù)中心的網(wǎng)絡(luò)主要為外部客戶提供數(shù)據(jù),并支持在數(shù)據(jù)中心運(yùn)行的簡單分布式應(yīng)用。然而,隨著大規(guī)模數(shù)據(jù)處理和機(jī)器學(xué)習(xí)的出現(xiàn),數(shù)據(jù)中心網(wǎng)絡(luò)的需求迅速納入了傳統(tǒng)高性能計算的范疇。這些新的流量需求引發(fā)了關(guān)于高性能和傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)是否應(yīng)該融合的討論。盡管由此產(chǎn)生的規(guī)模經(jīng)濟(jì)具有吸引力,但也有一些阻礙融合的因素。在本文中,我們指出了高性能計算和數(shù)據(jù)中心計算之間的差異和共性,以及它們對大規(guī)模網(wǎng)絡(luò)技術(shù)發(fā)展的影響。我們得出結(jié)論,能夠同時支持高性能計算(HPC,High Performance Computing)和超大數(shù)據(jù)中心(MDC,Mega Data Center)工作負(fù)載的智能高性能數(shù)據(jù)中心網(wǎng)絡(luò)將很快在工業(yè)界得以應(yīng)用。

高性能計算一直在推動計算的極限。頂級系統(tǒng),稱為超級計算機(jī),在地球上具有最高的集中計算能力。雖然大多數(shù)超級計算機(jī)同時運(yùn)行多個應(yīng)用程序,但它們被設(shè)計為在整個機(jī)器上運(yùn)行單個“頂級運(yùn)行”(Hero Run)應(yīng)用程序,以解決世界上最具挑戰(zhàn)性的問題,如在大流行傳染病中尋找疫苗,或訓(xùn)練最大的深度學(xué)習(xí)模型。在當(dāng)今的技術(shù)限制下,超級計算機(jī)不再是單一服務(wù)器,而是由數(shù)萬個通過高速通信網(wǎng)絡(luò)連接的獨(dú)立服務(wù)器組成。網(wǎng)絡(luò)(即互連)是最關(guān)鍵的組成部分,超級計算機(jī)的設(shè)計圍繞特定的網(wǎng)絡(luò)架構(gòu)。這使得網(wǎng)絡(luò)成為一個主要的區(qū)分因素,因為“單一應(yīng)用”場景通常具有嚴(yán)格的延遲和帶寬要求??梢哉f,正是互連網(wǎng)絡(luò)將一組服務(wù)器轉(zhuǎn)變?yōu)槌売嬎銠C(jī)。

超級計算機(jī)系統(tǒng)運(yùn)行并行應(yīng)用程序,最常在使用消息傳遞接口(MPI,Message Passing Interface,[1])的分布式內(nèi)存超級計算機(jī)上實現(xiàn)。MPI程序在每臺服務(wù)器上以進(jìn)程形式運(yùn)行相似的代碼,并且算法通常使用大規(guī)模同步并行(BSP,Bulk Synchronous Parallel)計算模型設(shè)計,作為一系列計算-通信-同步階段。在此場景中,應(yīng)用程序只能在所有進(jìn)程完成同步后進(jìn)入下一個階段。這一問題在后來在超大規(guī)模數(shù)據(jù)中心(MDC)中被重新發(fā)現(xiàn),成為長尾問題[2]。許多編程技術(shù)可以減少同步和通信開銷(例如,[3],[4]),然而,在極端擴(kuò)展的情況下,BSP應(yīng)用程序受到延遲的限制。實際上,通信延遲(尾部)分布確定了系統(tǒng)的可擴(kuò)展性極限,并確定了單個應(yīng)用程序可以有效使用的最大進(jìn)程數(shù)[5]。

25558754-94ac-11ee-939d-92fbcf53809c.png

圖1:數(shù)據(jù)中心和HPC機(jī)器的使用場景。云數(shù)據(jù)中心為多個客戶提供各種交互式服務(wù),其中包括一些分布式服務(wù),例如機(jī)器3-5上的機(jī)器學(xué)習(xí)訓(xùn)練任務(wù)。右側(cè)的HPC數(shù)據(jù)中心主要專注于為三個分布式仿真工作負(fù)載提供服務(wù),客戶在這里不需要即時答復(fù)。

超級計算機(jī)的規(guī)模已經(jīng)被倉儲規(guī)模的超大數(shù)據(jù)中心超越?,F(xiàn)代網(wǎng)絡(luò)化世界需要存儲和處理由連接的客戶端設(shè)備消耗的數(shù)據(jù)。每個人現(xiàn)在都擁有多個移動設(shè)備,并產(chǎn)生和消耗越來越多以云為中心的計算和存儲。此外,并非所有客戶端端點必須在設(shè)備后面由人類消耗數(shù)據(jù)或服務(wù)。隨著物聯(lián)網(wǎng)IoT)的普及,數(shù)億臺設(shè)備向全球數(shù)據(jù)中心傳送圖像、視頻和網(wǎng)頁等數(shù)據(jù)。AWS、Google、Facebook或Microsoft等超大數(shù)據(jù)中心的規(guī)模大于最大的單一超級計算機(jī),并且它們在相同的計算、存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施上同時運(yùn)行更多多樣化的應(yīng)用程序,以支持更多互動式終端用戶。MDC運(yùn)營商的范圍是其全球用戶群,隨著應(yīng)用的增長,而HPC運(yùn)營商的范圍是在規(guī)劃時定義的應(yīng)用程序容量。圖1顯示了HPC和MDC工作負(fù)載的概貌。

MDC系統(tǒng)運(yùn)行分布式應(yīng)用程序,其中異步進(jìn)程使用諸如遠(yuǎn)程過程調(diào)用(RPC)等編程接口進(jìn)行成對通信。這些應(yīng)用程序很少需要使用多服務(wù)器或全局同步,因此減少了延遲對總體應(yīng)用性能的影響。單個端點對之間的通信產(chǎn)生的增加的延遲僅影響個別請求,而不影響整個應(yīng)用程序。每當(dāng)在MDC應(yīng)用程序中出現(xiàn)多對一的通信模式,例如在Map-Reduce或分布式文件系統(tǒng)中的組播模式,開發(fā)人員通常依賴于軟截止期限,以減輕響應(yīng)延遲的長尾影響。由此產(chǎn)生的應(yīng)用程序不會在無限的尾延遲下停滯,而是在結(jié)果質(zhì)量或效率上做出妥協(xié)。這是通過簡單地忽略遲到的RPC響應(yīng)或在不同服務(wù)器上冗余地啟動它們來實現(xiàn)的。因此,網(wǎng)絡(luò)缺陷不會減緩應(yīng)用程序,而是導(dǎo)致了資源的浪費(fèi)(可以通過添加更多服務(wù)器來恢復(fù))。

數(shù)據(jù)中心的傳統(tǒng)角色是存儲、處理和將數(shù)據(jù)傳遞給驅(qū)動從其服務(wù)器到互聯(lián)網(wǎng)的終端客戶的數(shù)據(jù),形成所謂的南北流量。當(dāng)面向互聯(lián)網(wǎng)的路徑成為瓶頸時,數(shù)據(jù)中心網(wǎng)絡(luò)容量可以相對較小。然而,在當(dāng)今分布式數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的時代,互連網(wǎng)絡(luò)的吞吐量和延遲要求穩(wěn)步增長,與服務(wù)器之間的通信相關(guān)的東西西流量以數(shù)量級的方式占主導(dǎo)地位。從這個意義上說,MDC流量類似于傳統(tǒng)的HPC應(yīng)用程序,盡管應(yīng)用了更容忍延遲的模型。對于一些新興應(yīng)用程序來說,明顯地表明HPC和現(xiàn)代大數(shù)據(jù)分析(例如深度學(xué)習(xí)、文檔搜索或推薦系統(tǒng))具有相似的計算和通信模式。例如,許多機(jī)器學(xué)習(xí)可以被表達(dá)為張量代數(shù),協(xié)同過濾類似于雙分圖上的傳統(tǒng)圖分析。這些大數(shù)據(jù)工作負(fù)載與傳統(tǒng)HPC工作負(fù)載之間的主要區(qū)別在于前者強(qiáng)調(diào)程序員的生產(chǎn)力,而后者強(qiáng)調(diào)性能。由于各種原因,編程環(huán)境可能會繼續(xù)沿著不同的路徑演變,但我們認(rèn)為底層工作負(fù)載及其計算特性非常相似,并且正在迅速趨于融合。

然而,這些工作負(fù)載是使用非常不同的互連網(wǎng)絡(luò)模式:HPC網(wǎng)絡(luò)被優(yōu)化為最高性能,而MDC網(wǎng)絡(luò)遵循傳統(tǒng)的數(shù)據(jù)中心部署和運(yùn)營理念。當(dāng)深入了解細(xì)節(jié)時,就會發(fā)現(xiàn)最底層已經(jīng)趨于融合,隨著向上移動,共性逐漸顯現(xiàn)。此外,高性能加速器的引入(例如通用圖形處理單元,GPU)對當(dāng)今的MDC產(chǎn)生了更高帶寬需求,需要在MDC中引入專業(yè)網(wǎng)絡(luò),導(dǎo)致HPC樣式的網(wǎng)絡(luò)連接島嶼。這些系統(tǒng)通常通過專用的HPC樣式后端網(wǎng)絡(luò)來補(bǔ)充前端數(shù)據(jù)中心網(wǎng)絡(luò)。例如,Google TPU的專用環(huán)形互連和Azure HPC的InfiniBand部署連接GPU服務(wù)器。這種復(fù)制導(dǎo)致了顯著的低效率——考慮到底層已經(jīng)相同,只是通信協(xié)議不同!事實上,像AWS Nitro和Microsoft的Catapult [6]這樣的端點解決方案嘗試優(yōu)化現(xiàn)有的以太網(wǎng)絡(luò)。從另一方面來看,Cray的Slingshot技術(shù) [7]來自以HPC為中心的視角,并增加了以太網(wǎng)兼容性。這些例子顯示了需求和解決方案如何隱含了一個共同的高性能網(wǎng)絡(luò)解決方案。

雖然在高層次上,HPC和MDC的網(wǎng)絡(luò)需求相似,但細(xì)節(jié)中藏著復(fù)雜之處。我們將討論一系列要求,涵蓋了從設(shè)計和部署哲學(xué)到應(yīng)用程序編程接口的HPC和數(shù)據(jù)中心網(wǎng)絡(luò)之間的差異。我們評論每個差異的根本性,并揭示未來基于智能網(wǎng)卡(NIC)和交換機(jī)的網(wǎng)絡(luò)計算解決方案將彌合其中許多差異。每個部分都以簡要的技術(shù)預(yù)測結(jié)束。

03.設(shè)計和部署哲學(xué)

兩種網(wǎng)絡(luò)觀點之間最顯著的差異在于機(jī)器部署的方式。一個MDC自然是來自多個供應(yīng)商的松散連接的服務(wù)器集合,可以逐步擴(kuò)展和升級。布線基礎(chǔ)設(shè)施會經(jīng)歷多代機(jī)器和技術(shù)。MDC會將光纖安裝為樓宇基礎(chǔ)設(shè)施,從而將基礎(chǔ)設(shè)施和大部分網(wǎng)絡(luò)拓?fù)渑c服務(wù)器解耦。機(jī)架交換機(jī)代表了數(shù)據(jù)中心網(wǎng)絡(luò)和計算服務(wù)器之間的架構(gòu)邊界。多供應(yīng)商支持是基本的,并且基于以太網(wǎng)用于物理層和互聯(lián)網(wǎng)協(xié)議(IP)用于更高層次。速度異構(gòu)性對于MDC網(wǎng)絡(luò)也是基本的,不同的服務(wù)器可能以不同的鏈路速度連接,并且內(nèi)部網(wǎng)絡(luò)鏈路可能與端點速度不同。MDC運(yùn)營商無法承受因重新配置而導(dǎo)致的大量停機(jī)時間,必須同時運(yùn)行多種技術(shù)。在MDC中進(jìn)行的這種增量升級使現(xiàn)代化變得具有挑戰(zhàn)性,并禁止在技術(shù)上取得大的躍進(jìn)。

傳統(tǒng)上,超級計算機(jī)被視為一次性的安裝,并且通常是按照這種方式設(shè)計和布線的:所有端點和內(nèi)部鏈路的鏈路速度都相同;它們的網(wǎng)絡(luò)使用單一供應(yīng)商的組件;通常在初始安裝之前就會制定升級計劃。由于高帶寬互連的重要性和成本,許多超級計算機(jī)超越了Clos網(wǎng)絡(luò)或胖樹作為互連拓?fù)涞姆桨?。設(shè)計范圍從超立方體或高維扭曲網(wǎng)絡(luò) [8] 到更具成本效益的低直徑拓?fù)?[9],[10]。它們的部署模型允許超級計算機(jī)在系統(tǒng)的每個新一代中應(yīng)用對網(wǎng)絡(luò)技術(shù)的徹底變革。HPC站點會并行運(yùn)行舊系統(tǒng)和新系統(tǒng),在停用系統(tǒng)之前遷移工作負(fù)載。這種操作模式在占地面積、功耗和成本方面昂貴,HPC運(yùn)營商正在推動更加漸進(jìn)的方法。

技術(shù)預(yù)測:增量部署和向后兼容性要求阻礙了許多創(chuàng)新技術(shù)在MDC中的應(yīng)用。HPC系統(tǒng)將繼續(xù)引領(lǐng)技術(shù)領(lǐng)域朝著完全新的、革命性的方向發(fā)展。

04.運(yùn)營理念

在歷史上,數(shù)據(jù)中心和HPC中心對其運(yùn)營采取了非常不同的方式。這是由他們的客戶所要求的:云數(shù)據(jù)中心為從手機(jī)用戶到銀行和醫(yī)院等各種終端客戶提供服務(wù)。它們運(yùn)行I/O密集的工作負(fù)載作為實時服務(wù),其中中斷在幾秒鐘內(nèi)就可見,并可能導(dǎo)致巨大的經(jīng)濟(jì)損失。例如,收集的數(shù)據(jù),比如信用卡交易,無法重建,任何損失都是有害的。因此,提供的服務(wù)必須非??煽坎⑹冀K可用。超級計算機(jī)沿著一條不同的道路發(fā)展,這條道路以性能和成本為代價,其中可以容忍小規(guī)模的中斷(每年幾個小時)。個別作業(yè)可能會失敗,只要它們可以在服務(wù)等級協(xié)議(SLA)允許的時間內(nèi)重新運(yùn)行,并且計算資源進(jìn)行了過度配置以允許這樣做。這使得HPC運(yùn)營商能夠在軟件和硬件方面采用更冒險的部署,并且總體上比MDC運(yùn)營商在網(wǎng)絡(luò)和硬件技術(shù)方面更為激進(jìn)。

MDC網(wǎng)絡(luò)通過結(jié)合確保部分操作的機(jī)制(例如,用于故障隔離的獨(dú)立網(wǎng)絡(luò)平面)和用于控制平面冗余的分布式協(xié)議,以優(yōu)先考慮網(wǎng)絡(luò)可用性。HPC互連使用單獨(dú)的管理網(wǎng)絡(luò)以確??煽啃裕蕾囉诩惺娇刂破矫鎭韺崿F(xiàn)高性能網(wǎng)絡(luò),以在有效管理的情況下接受短時間的不可用性。在MDC上運(yùn)行的應(yīng)用程序使用軟件級別的復(fù)雜冗余(例如,在單獨(dú)的服務(wù)器上使用備用服務(wù)或復(fù)制存儲)來實現(xiàn)可靠性。在故障端點上運(yùn)行的應(yīng)用程序?qū)⒀杆僦匦聠拥叫沦Y源上,并重新連接到服務(wù)。這使得運(yùn)營商可以以更低可靠性的、更便宜的硬件為代價,但需要額外的軟件開銷。另一方面,HPC應(yīng)用程序依賴于在故障后從檢查點重新啟動應(yīng)用程序。為了在大規(guī)模時降低重新啟動成本,HPC供應(yīng)商使用比MDC更可靠的硬件,例如,HPC網(wǎng)絡(luò)使用鏈路級和端到端的重試來保護(hù)通信。因此,HPC軟件的可靠性開銷較低,而MDC必須采用昂貴的復(fù)制和共識方案。MDC網(wǎng)絡(luò)運(yùn)營商可以從HPC中學(xué)到更先進(jìn)的硬件容錯技術(shù),例如使用鏈路級重試。

安全性對于任何計算系統(tǒng)都是一個重要的考慮因素。HPC系統(tǒng)在軟件[11]和硬件安全性方面?zhèn)鹘y(tǒng)上要求不那么嚴(yán)格,通常依賴于物理安全性(例如,空氣隔離系統(tǒng)和建筑保護(hù)),并避免在節(jié)點上使用多租戶。系統(tǒng)管理員是一個受信任的實體,用戶被謹(jǐn)慎地允許進(jìn)入系統(tǒng)。MDC系統(tǒng)為敏感的第三方工作負(fù)載提供服務(wù),其租戶不信任運(yùn)營商或其他租戶,后者可能是任何持有信用卡的人。這需要在MDC中具備更高水平的安全性,并促使解決方案的出現(xiàn),例如可信執(zhí)行或一般的機(jī)密計算,以及安全的高性能網(wǎng)絡(luò)[12]。最近,越來越多的HPC系統(tǒng)在共享文件系統(tǒng)中托管敏感數(shù)據(jù)(例如醫(yī)療記錄),因此需要采用類似MDC的安全性概念。

MDC由極少數(shù)人員操作;其規(guī)模如此之大,以至于使用基于人的操作模型是不切實際的,自動化是必須的。這要求具備復(fù)雜的監(jiān)控、日志記錄和控制基礎(chǔ)設(shè)施,在HPC系統(tǒng)中是不存在的。監(jiān)控對于故障排除和容量管理至關(guān)重要。雖然我們尚未深入討論容量問題,但“工作負(fù)載焦慮”是MDC網(wǎng)絡(luò)設(shè)計中的一個重要因素。這源于計算和存儲容量必須被配置來吸收端用戶流量和應(yīng)用工作負(fù)載配置中的不可預(yù)測的變化。網(wǎng)絡(luò)必須容忍這種計算、存儲和工作負(fù)載的變化,而不需要進(jìn)行重大的重新設(shè)計。

MDC在部署或配置應(yīng)用程序時不愿考慮物理親和性,因為容量是按照時間順序部署的,而親和性會使虛擬機(jī)(VM)分配策略變得更加復(fù)雜。此外,可用性服務(wù)級別協(xié)議要求在區(qū)域或可用性區(qū)域內(nèi)跨數(shù)據(jù)中心分布應(yīng)用程序。在HPC應(yīng)用程序部署中通??紤]地理位置。雖然在遞歸結(jié)構(gòu)網(wǎng)絡(luò)(例如胖樹或Clos網(wǎng)絡(luò))上相對簡單實現(xiàn)本地放置,但在其他拓?fù)渖蠈崿F(xiàn)本地放置較為困難。然而,全球帶寬網(wǎng)絡(luò)承諾使得放置決策變得不那么關(guān)鍵。

技術(shù)預(yù)測:根本的差異在于對(網(wǎng)絡(luò))可用性和安全性的處理方式。如果HPC運(yùn)營商實施MDC運(yùn)營提出的更嚴(yán)格的要求,HPC和MDC網(wǎng)絡(luò)的運(yùn)營方面將縮小差距。其他方面更為相似,可能會趨于融合。

05.服務(wù)多樣性

MDC折射了其運(yùn)營商的業(yè)務(wù)模式。一個專注于向企業(yè)客戶銷售虛擬機(jī)容量的運(yùn)營商(例如Microsoft),與一個聚焦于人際互動的“終端用戶中心”運(yùn)營商(例如Facebook),擁有不同的網(wǎng)絡(luò)配置文件、控制策略和服務(wù)級別協(xié)議(SLA)。然而,所有MDC運(yùn)營商都廣泛應(yīng)用虛擬化和多租戶技術(shù),以提高管理效率和資源利用率。虛擬化對網(wǎng)絡(luò)產(chǎn)生深遠(yuǎn)影響,因為它促使采用覆蓋網(wǎng)絡(luò),將流量引導(dǎo)到虛擬端點而非物理端點。而當(dāng)前的HPC互連則未涉及這種虛擬化或多租戶的要求,通過采用裸金屬尋址以降低開銷。

MDC承載著大量具有截然不同流量需求的服務(wù)。例如,吞吐量型工作負(fù)載,如備份流量、復(fù)制和存儲,與對延遲極為敏感的流量(如分布式計算和客戶互動)共享相同的物理鏈路。這對MDC網(wǎng)絡(luò)提出了極高的服務(wù)質(zhì)量(QoS)要求。HPC網(wǎng)絡(luò)主要用于并行計算和文件I/O,QoS曾不是首要任務(wù),盡管隨著工作負(fù)載多樣性的增加,它變得越來越重要。例如,許多HPC和AI應(yīng)用程序中使用的AllReduce操作在相對靜默的網(wǎng)絡(luò)上表現(xiàn)良好,但其他租戶的流量可能顯著影響可擴(kuò)展性[13]。值得注意的是,用于美國Exascale系統(tǒng)的HPC互連提供了QoS和先進(jìn)的擁塞管理。

MDC網(wǎng)絡(luò)的規(guī)模受可靠供電而非應(yīng)用可擴(kuò)展性的限制。當(dāng)今的MDC網(wǎng)絡(luò)跨足多個位置和地區(qū),以確保在面對大規(guī)模故障時仍能保持可用性。這引入了高度的數(shù)據(jù)中心間流量,與傳統(tǒng)的數(shù)據(jù)中心內(nèi)部東西流量和面向客戶的南北流量不同。另一方面,HPC流量主要由保持在單個數(shù)據(jù)中心內(nèi)的本地通信所主導(dǎo)。

技術(shù)預(yù)測:在MDC網(wǎng)絡(luò)上運(yùn)行的服務(wù)將繼續(xù)需要廣泛的QoS類別。HPC系統(tǒng)將看到服務(wù)多樣性的增加,這將使MDC風(fēng)格的機(jī)制變得相關(guān)。

06.協(xié)議棧和層次結(jié)構(gòu)

開放系統(tǒng)互連(OSI)層次結(jié)構(gòu)規(guī)定了從物理層(L1)到應(yīng)用層(L7)的通信協(xié)議棧的設(shè)計模式。層次之間的區(qū)分有爭議,但大多數(shù)互聯(lián)網(wǎng)服務(wù)可以映射到它們。數(shù)據(jù)中心業(yè)界繼承了許多傳統(tǒng)的互聯(lián)網(wǎng)協(xié)議棧,并且只是最近開始轉(zhuǎn)向更專業(yè)化的協(xié)議,例如數(shù)據(jù)中心TCP(DCTCP)或數(shù)據(jù)中心量化擁塞通知(DCQCN)。然而,HPC網(wǎng)絡(luò)始終調(diào)整為最高性能,并且不提供用于完整OSI棧所需的許多頭部(每個協(xié)議級別一個)。例如,在HPC互連網(wǎng)絡(luò)中,傳輸層L3很少存在,因為網(wǎng)絡(luò)不打算可路由。圖2比較了MDC和HPC系統(tǒng)的OSI層次。

25712da6-94ac-11ee-939d-92fbcf53809c.png

圖2:開放系統(tǒng)互聯(lián)層

電氣或光信號級別(L1),MDC和HPC網(wǎng)絡(luò)是相同的。在布線和設(shè)備基礎(chǔ)設(shè)施的規(guī)模經(jīng)濟(jì)和眾多的技術(shù)約束方面,確保誰先到達(dá)誰就是贏家。以25G、56G,以及最近的112G通道為代表,以太網(wǎng)多年來一直在這場競賽中勝出。一些HPC和MDC網(wǎng)絡(luò)技術(shù)共享L2-L4,但其他HPC技術(shù)采用專有協(xié)議,具有更專業(yè)和更精簡的頭部,以實現(xiàn)最低的開銷。

一個有趣的融合點是遠(yuǎn)程直接內(nèi)存訪問(RDMA),長期以來一直在HPC和存儲網(wǎng)絡(luò)中使用,以在L4或L5上實現(xiàn)源進(jìn)程和目標(biāo)進(jìn)程之間的高性能通信。該協(xié)議通常完全卸載到硬件實現(xiàn)中,操作系統(tǒng)繞過減少了延遲和延遲的變化。許多MDC運(yùn)營商在生產(chǎn)中使用或計劃使用它(Azure、Google 1RMA、AWS Nitro)。然而,在MDC規(guī)模上,RDMA和TCP/IP流之間的緩沖區(qū)和帶寬共享可能會對某些流量造成不利影響。

當(dāng)今RDMA網(wǎng)絡(luò)實現(xiàn)中的簡單基于硬件的重傳機(jī)制依賴于無丟包傳輸層。然而,大多數(shù)數(shù)據(jù)中心網(wǎng)絡(luò)傳統(tǒng)上使用有丟包的路由器,即在隊列滿時丟棄數(shù)據(jù)包。盡管有關(guān)有丟包(端點控制的流速)與無丟包(網(wǎng)絡(luò)控制的流速)的辯論尚未結(jié)束,但RDMA對無丟包網(wǎng)絡(luò)的要求在保守的數(shù)據(jù)中心環(huán)境中提高了應(yīng)用的障礙。出于這個原因,為了確保無丟包的語義,MDC將RDMA流量分配到專用的QoS隊列或在后端網(wǎng)絡(luò)中進(jìn)行物理隔離。

技術(shù)預(yù)測:隨著鏈路速度的增加,額外數(shù)據(jù)包頭部的相對帶寬開銷逐漸消失,HPC網(wǎng)絡(luò)可能選擇支持更復(fù)雜的可路由協(xié)議。我們預(yù)計將看到對UDP/IP上基于消息的協(xié)議的轉(zhuǎn)變;遠(yuǎn)程直接內(nèi)存訪問(RDMA)通過融合以太網(wǎng)(RoCE)是這一趨勢的第一個跡象。在MDC和HPC規(guī)模上的實驗和優(yōu)化將受到離散事件網(wǎng)絡(luò)模擬的推動,例如分布式的ns-3、SST或LogGOPSim。

07.網(wǎng)絡(luò)利用率

網(wǎng)絡(luò)利用率即成本效益,是MDC和HPC系統(tǒng)中的重要驅(qū)動因素之一。由于許多MDC應(yīng)用程序可以容忍較高的延遲,因此它們的網(wǎng)絡(luò)理論上可以以更高的穩(wěn)定利用率運(yùn)行,并且在平均負(fù)載超過30-40%的情況下,不會產(chǎn)生過多的延遲影響。然而,丟包的影響可能如此嚴(yán)重,以至于運(yùn)營商努力保持網(wǎng)絡(luò)鏈路的利用率遠(yuǎn)低于數(shù)據(jù)包開始丟棄的點。

在網(wǎng)絡(luò)規(guī)劃階段,網(wǎng)絡(luò)利用率是關(guān)于估算所有疊加工作負(fù)載的端到端性能的。我們發(fā)現(xiàn),在這個階段,應(yīng)用網(wǎng)絡(luò)模擬可以分析個別鏈路的運(yùn)行狀態(tài)、交換機(jī)緩沖區(qū)的壓力,當(dāng)然還有數(shù)據(jù)包的丟棄和重傳。在運(yùn)營階段,網(wǎng)絡(luò)利用率是關(guān)于監(jiān)視相同的鏈路和交換機(jī)緩沖區(qū),當(dāng)然還要將丟包和重傳與鏈路和緩沖區(qū)進(jìn)行關(guān)聯(lián)。模擬和操作都可以以服務(wù)級別協(xié)議(SLA)為導(dǎo)向,其中整個網(wǎng)絡(luò)利用率通過延遲分布來感知,幾乎不需要將帶寬作為指標(biāo)處理。

大規(guī)模的BSP式HPC應(yīng)用程序在通信和計算階段運(yùn)行,產(chǎn)生突發(fā)的開關(guān)式流量模式,對延遲分布有嚴(yán)格的要求。HPC網(wǎng)絡(luò)被設(shè)計為滿足突發(fā)流量的峰值帶寬要求。當(dāng)系統(tǒng)運(yùn)行多個作業(yè)時,可以增加效益,但作業(yè)之間的爭用,也被稱為“近鄰干擾”(Noisy Neighbor)問題,會導(dǎo)致關(guān)鍵的延遲變化。在MDC和HPC網(wǎng)絡(luò)中,性能隔離可以緩解此問題,因此這是一個關(guān)注點。MDC運(yùn)營商在流量源(通常是虛擬機(jī))處實施速率限制器以解決網(wǎng)絡(luò)性能隔離問題。在HPC中,確保最小化性能變化要求限制應(yīng)用程序及其流量類型之間的交互,因為系統(tǒng)噪聲[5],[14]和網(wǎng)絡(luò)噪聲[13],[15]對應(yīng)用程序性能產(chǎn)生有害影響。在HPC網(wǎng)絡(luò)中使用的單一供應(yīng)商模型允許部署在更細(xì)粒度上運(yùn)行的新型硬件擁塞管理機(jī)制(例如[7])。

靜態(tài)等代價多路徑(ECMP,Static Equal Cost Multipathing)可能導(dǎo)致?lián)砣麩狳c,尤其是在通信密集型流較少的情況下。自適應(yīng)路由或數(shù)據(jù)包噴射(packet spraying)可提高網(wǎng)絡(luò)利用率,同時控制瞬時數(shù)據(jù)包丟失的風(fēng)險。然而,直到最近,大多數(shù)商用以太網(wǎng)交換機(jī)沒有提供自適應(yīng)路由或數(shù)據(jù)包噴射,因為MDC網(wǎng)絡(luò)端點不太支持亂序數(shù)據(jù)包的接收。最近引入了自適應(yīng)流簇(flowlet)路由,在不改變數(shù)據(jù)包順序的同時提供某種有限形式的自適應(yīng)路徑選擇,這在MDC交換機(jī)中得到了應(yīng)用。自適應(yīng)路由是在低直徑拓?fù)洌ㄔ贖PC中常見)中高效利用的先決條件,基本上允許同時使用最小路徑和非最小路徑。HPC網(wǎng)絡(luò)端點使用RDMA傳輸支持亂序交付,其中數(shù)據(jù)包攜帶目標(biāo)地址并可以獨(dú)立寫入內(nèi)存。

技術(shù)預(yù)測:基于UDP/IP的基于消息的協(xié)議的興起放寬了端點的排序要求,使得超越靜態(tài)多路徑的路由方法成為可能。我們還預(yù)測這些傳輸?shù)膿砣苊夥矫?,以及TCP本身,將產(chǎn)生快速的演進(jìn)。

08.應(yīng)用程序和編程模型需求

應(yīng)用程序需求在兩方面都發(fā)生了變化,并且似乎在中間趨于一致。HPC曾經(jīng)是非常底層的,應(yīng)用在裸機(jī)上運(yùn)行,并通過緊湊的消息傳遞(MPI)[1],[16]或遠(yuǎn)程內(nèi)存訪問(RMA)[17]接口訪問網(wǎng)絡(luò)。這些接口可以提供低于100納秒的開銷,以達(dá)到亞微秒級的端到端延遲。MDC應(yīng)用程序通常依賴于開銷巨大的拷貝語義的套接字??焖俚腞PC框架[18]可以潛在地彌合差距,并在MDC環(huán)境中實現(xiàn)透明的零拷貝。

基于任務(wù)的HPC編程模型使用和擴(kuò)展這些已建立的接口,以放寬BSP對延遲的要求。傳統(tǒng)的MDC應(yīng)用程序?qū)ρ舆t相對不敏感,但新興的工作負(fù)載,例如新的數(shù)據(jù)分析和深度學(xué)習(xí)工作負(fù)載類似于BSP風(fēng)格的HPC應(yīng)用程序,并具有同樣嚴(yán)格的延遲要求。然而,在MDC中,程序員的生產(chǎn)力、快速原型設(shè)計和快速部署比性能更為重要。只有成熟的應(yīng)用程序和堆棧明確針對性能進(jìn)行調(diào)優(yōu)。許多應(yīng)用程序是使用JavaPython等托管語言編寫的,并在虛擬化環(huán)境中運(yùn)行,僅用了多達(dá)10微秒才能到達(dá)網(wǎng)絡(luò)。HPC和MDC在不同的級別進(jìn)行優(yōu)化:HPC專注于最佳利用CPU和網(wǎng)絡(luò)資源,而MDC專注于整個系統(tǒng)的生產(chǎn)力和利用率。

不同的應(yīng)用需求導(dǎo)致了不同的網(wǎng)絡(luò)API。對于高性能計算來說,向RDMA網(wǎng)絡(luò)的轉(zhuǎn)變發(fā)生在將近二十年前。從那時起,RDMA一直以個位數(shù)微秒的延遲運(yùn)行,允許將大部分通信工作卸載到網(wǎng)絡(luò)接口。虛擬內(nèi)存機(jī)制允許數(shù)據(jù)路徑繞過主機(jī)操作系統(tǒng),直接在端點內(nèi)存之間移動數(shù)據(jù)。高性能計算編程框架直接向應(yīng)用程序公開遠(yuǎn)程內(nèi)存訪問語義,以最小化開銷[17]。而MDC則逐漸認(rèn)識到這些技術(shù)的潛力[19]。由于RDMA不適用于傳統(tǒng)的TCP/IP套接字模型和分層路由,MDC應(yīng)用速度較慢。然而,RoCEv2和Priority Flow Control(PFC)等規(guī)范使得L3路由成為可能,并將RDMA引入MDC。

現(xiàn)代HPC網(wǎng)絡(luò)遠(yuǎn)不止于RDMA,網(wǎng)卡執(zhí)行消息匹配和集體操作,將這些任務(wù)從CPU或GPU卸載出來,以提高計算和通信的重疊。MDC中的智能網(wǎng)卡應(yīng)用通常是為了提供者的利益,確保隔離,而不是改善租戶應(yīng)用。在MDC中,多租戶使得卸載用戶級邏輯比在HPC中更加復(fù)雜,因為網(wǎng)卡通常由單個應(yīng)用程序擁有。通用的智能網(wǎng)卡編程接口,如網(wǎng)絡(luò)中的流處理(sPIN [20]),承諾一種通用的加速策略,可以描述為網(wǎng)絡(luò)的CUDA。

技術(shù)預(yù)測:RDMA在當(dāng)今的HPC系統(tǒng)中無處不在,而MDC運(yùn)營商正在為其更大比例的流量采用RDMA。此外,我們預(yù)計在MDC和HPC網(wǎng)絡(luò)中會看到可編程網(wǎng)絡(luò)加速器的顯著發(fā)展,超越RDMA的簡單內(nèi)存存儲語義。

09.結(jié)論與預(yù)測

盡管數(shù)據(jù)中心提供商正忙于調(diào)整到RDMA和數(shù)據(jù)包級別的路由方法,但研究界正在迅速轉(zhuǎn)向具有智能網(wǎng)卡和交換機(jī)的通用的流處理。新的網(wǎng)絡(luò)加速設(shè)備以及營銷術(shù)語,如DPU、IPU或NPU,正被各種供應(yīng)商推向市場。

目前,它們主要部署在微軟的Catapult和AWS的Nitro網(wǎng)卡上,用作基礎(chǔ)設(shè)施支持。它們的主要用途是提高安全性(租戶隔離),效率(封裝和加密卸載)和成本(專業(yè)化和內(nèi)部開發(fā)),以支持多租戶主機(jī)。HPC系統(tǒng)尚未大規(guī)模部署智能網(wǎng)卡。我們預(yù)測,它們的角色將很快包括更通用的網(wǎng)絡(luò)處理和將應(yīng)用特定協(xié)議卸載到專用硬件。

由于HPC和MDC之間的主要區(qū)別在協(xié)議棧的上層,智能網(wǎng)卡和網(wǎng)絡(luò)計算可以通過使用應(yīng)用特定協(xié)議將兩者統(tǒng)一起來。我們將在同一網(wǎng)絡(luò)上看到基于套接字的(TCP/IP或QUIC)應(yīng)用程序和MPI應(yīng)用程序,并且智能加速的網(wǎng)卡(參見[21])將實現(xiàn)協(xié)議的差異。此外,應(yīng)用特定協(xié)議是端點和交換機(jī)中網(wǎng)絡(luò)加速的重要機(jī)遇。我們將看到基于交換機(jī)的網(wǎng)絡(luò)計算,例如用于深度學(xué)習(xí)工作負(fù)載的減少[22],從而在所有層面實現(xiàn)工作負(fù)載的專業(yè)化。

與網(wǎng)絡(luò)組件(如網(wǎng)卡或交換機(jī))相關(guān)的術(shù)語“智能”需要超出當(dāng)前營銷術(shù)語的嚴(yán)格定義。我們建議將網(wǎng)絡(luò)接口稱為“智能”,如果它允許對消息或流進(jìn)行有狀態(tài)計算。有了這樣清晰的定義,我們可以推理出這些智能網(wǎng)絡(luò)的行為。

我們得出結(jié)論,雖然HPC和MDC在應(yīng)用層面上趨于融合,但它們的特性需求足夠不同,以支持兩條發(fā)展線。當(dāng)前的生態(tài)系統(tǒng)形成了一個有趣的反饋循環(huán),突破性的新技術(shù)可以在風(fēng)險可接受的HPC環(huán)境中推動并測試。然而,大眾市場仍將是以太網(wǎng),它會慢慢吸收在HPC中開發(fā)的成功技術(shù)。最近的一個例子是RoCE的出現(xiàn)。如果可以通過使用智能網(wǎng)卡和交換機(jī)進(jìn)行配置,HPC和MDC都可以通過使用相同的硬件基礎(chǔ)設(shè)施顯著降低成本。以太網(wǎng)品牌的核心是互操作性的承諾,這可以為HPC和MDC網(wǎng)絡(luò)奠定堅實的基礎(chǔ),然而,支持RDMA的供應(yīng)商仍需履行這一承諾。

總之,雖然我們不知道哪種技術(shù)將在10-15年內(nèi)主導(dǎo)大眾市場,但它肯定會被稱為以太網(wǎng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5230

    瀏覽量

    73530
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    38

    文章

    3337

    瀏覽量

    59042
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    333

    瀏覽量

    24339

原文標(biāo)題:超大規(guī)模數(shù)據(jù)中心與HPC的網(wǎng)絡(luò)融合

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    偉創(chuàng)力高效電源模塊在超大規(guī)模數(shù)據(jù)中心的應(yīng)用

    受云端存儲和數(shù)據(jù)處理需求持續(xù)增長的推動,數(shù)據(jù)中心正以前所未有的速度擴(kuò)張。當(dāng)前全球超大規(guī)模數(shù)據(jù)中心,即規(guī)模最大的那些數(shù)據(jù)中心,總?cè)萘吭谶^去四年
    的頭像 發(fā)表于 07-07 15:41 ?367次閱讀

    淺談OCP SAFE服務(wù)器組件安全注意事項

    保護(hù)超大規(guī)模數(shù)據(jù)中心組件(包括 CPU、存儲控制器和硬件安全模塊)免受網(wǎng)絡(luò)威脅對于維護(hù)超大規(guī)模數(shù)據(jù)中心的安全至關(guān)重要,以防范可能危及整個網(wǎng)絡(luò)的漏洞?,F(xiàn)代供應(yīng)鏈涉及多家供應(yīng)商和復(fù)雜的集成
    的頭像 發(fā)表于 06-23 10:16 ?458次閱讀

    超大規(guī)模芯片驗證:基于AMD VP1902的S8-100原型驗證系統(tǒng)實測性能翻倍

    引言隨著AI、HPC超大規(guī)模芯片設(shè)計需求呈指數(shù)級增長原型驗證平臺已成為芯片設(shè)計流程中驗證復(fù)雜架構(gòu)、縮短迭代周期的核心工具。然而,傳統(tǒng)原型驗證系統(tǒng)受限于單芯片容量(通常
    的頭像 發(fā)表于 06-06 13:13 ?531次閱讀
    <b class='flag-5'>超大規(guī)模</b>芯片驗證:基于AMD VP1902的S8-100原型驗證系統(tǒng)實測性能翻倍

    納微半導(dǎo)體推出12kW超大規(guī)模AI數(shù)據(jù)中心電源

    近日,納微半導(dǎo)體宣布推出專為超大規(guī)模AI數(shù)據(jù)中心設(shè)計的最新12kW量產(chǎn)電源參考設(shè)計,可適配功率密度達(dá)120kW的高功率服務(wù)器機(jī)架。
    的頭像 發(fā)表于 05-27 16:35 ?570次閱讀

    BDx成功融資助力香港超大規(guī)模數(shù)據(jù)中心擴(kuò)建

    ?亞太地區(qū)發(fā)展勢頭迅猛的數(shù)據(jù)中心運(yùn)營商BDx數(shù)據(jù)中心宣布,其香港首個專用超大規(guī)模數(shù)據(jù)中心開發(fā)項目融資已順利完成。此次融資由Clifford Capital、大華銀行(UOB)和三井住友銀行(SMBC
    的頭像 發(fā)表于 05-22 17:27 ?216次閱讀

    適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)

    選擇無擁塞路徑,提高數(shù)據(jù)傳輸效率。 多租戶性能隔離:確保不同用戶任務(wù)之間帶寬分配合理。 飛速(FS)800G光模塊在AI數(shù)據(jù)中心中的作用 為滿足AI和大規(guī)模數(shù)據(jù)中心的帶寬需求,飛速(FS
    發(fā)表于 03-25 17:35

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    廣泛應(yīng)用于網(wǎng)卡、交換機(jī)、服務(wù)器、超級計算機(jī)、云計算和數(shù)據(jù)中心的短距離互連。 800G高速線纜 隨著大規(guī)模超大規(guī)模數(shù)據(jù)中心的興起,服務(wù)器機(jī)架的功耗顯著增加,垂直布線距離減少。因此,800G
    發(fā)表于 03-24 14:20

    偉創(chuàng)力如何應(yīng)對超大規(guī)模數(shù)據(jù)中心建設(shè)挑戰(zhàn)

    在當(dāng)今瞬息萬變的數(shù)字世界中,數(shù)據(jù)中心正面臨著前所未有的挑戰(zhàn)。隨著人工智能(AI)的迅速崛起,傳統(tǒng)的數(shù)據(jù)中心設(shè)計與運(yùn)營模式遭遇了巨大壓力。偉創(chuàng)力通信、企業(yè)和云業(yè)務(wù)總裁Rob Campbell 指出,超大規(guī)模數(shù)據(jù)中心建設(shè)面臨獨(dú)特挑戰(zhàn)
    的頭像 發(fā)表于 03-06 13:58 ?474次閱讀

    精準(zhǔn)監(jiān)測,智能預(yù)警,安科瑞為數(shù)據(jù)中心安全保駕護(hù)航

    安科瑞的數(shù)據(jù)中心產(chǎn)品與解決方案,以其智能化、模塊化、高可靠性及能效精細(xì)化管理的核心優(yōu)勢,全面覆蓋了從超大規(guī)模數(shù)據(jù)中心到邊緣節(jié)點的全場景需求。無論是新建項目還是老舊改造,均可通過定制化配置,實現(xiàn)數(shù)據(jù)中心的穩(wěn)定、高效、綠色運(yùn)營。
    的頭像 發(fā)表于 02-19 17:05 ?349次閱讀
    精準(zhǔn)監(jiān)測,智能預(yù)警,安科瑞為<b class='flag-5'>數(shù)據(jù)中心</b>安全保駕護(hù)航

    安森美SiC MOSFET在超大規(guī)模數(shù)據(jù)中心的應(yīng)用

    如今,數(shù)據(jù)中心迫切需要能夠高效轉(zhuǎn)換電能的功率半導(dǎo)體,以降低成本并減少排放。更高的電源轉(zhuǎn)換效率意味著發(fā)熱量減少,從而降低散熱成本。
    的頭像 發(fā)表于 12-24 11:03 ?673次閱讀
    安森美SiC MOSFET在<b class='flag-5'>超大規(guī)模數(shù)據(jù)中心</b>的應(yīng)用

    Zettabyte與緯創(chuàng)攜手打造臺灣首個超大規(guī)模AI數(shù)據(jù)中心

    在推動亞太地區(qū)AI計算領(lǐng)域邁向新紀(jì)元的征程中,Zettabyte與緯創(chuàng)資通(Wistron Corporation)攜手宣布了一項重大合作——共同建設(shè)臺灣地區(qū)首個超大規(guī)模AI數(shù)據(jù)中心,這一里程碑式的項目不僅標(biāo)志著臺灣AI基礎(chǔ)設(shè)施的飛躍,也預(yù)示著亞太區(qū)AI計算格局的深刻變革
    的頭像 發(fā)表于 09-05 16:26 ?796次閱讀

    谷歌正在考慮在越南建設(shè)超大規(guī)模數(shù)據(jù)中心

    據(jù)可靠消息透露,Alphabet集團(tuán)旗下的谷歌公司正積極籌劃在越南南部的經(jīng)濟(jì)樞紐胡志明市周邊建設(shè)一座“超大規(guī)模數(shù)據(jù)中心。此舉標(biāo)志著美國科技巨頭首次在東南亞國家進(jìn)行此類重大投資,盡管具體的投資金額尚待揭曉。
    的頭像 發(fā)表于 08-30 14:55 ?1025次閱讀

    新思科技1.6T以太網(wǎng)IP解決方案推動數(shù)據(jù)中心發(fā)展

    我們每天都在搜索引擎中搜尋大量信息,并期望在短短幾秒鐘內(nèi)得到大量的相關(guān)信息,超大規(guī)模數(shù)據(jù)中心需要處理海量數(shù)據(jù)、經(jīng)歷復(fù)雜的流程和完成各種各樣的處理工作。如果您是設(shè)計數(shù)據(jù)中心SoC的開發(fā)者,肯定會敏銳地
    的頭像 發(fā)表于 08-12 10:29 ?851次閱讀
    新思科技1.6T以太網(wǎng)IP解決方案推動<b class='flag-5'>數(shù)據(jù)中心</b>發(fā)展

    有哪些技術(shù)影響超大規(guī)模數(shù)據(jù)中心建設(shè)

    從AWS的百億美元投資到Meta的八億美元布局,再到微軟在德國的數(shù)十億歐元承諾,以及Alphabet在英國的新數(shù)據(jù)中心擴(kuò)張,這些科技巨頭正競相構(gòu)建數(shù)字世界的堅實基石。
    的頭像 發(fā)表于 07-30 11:15 ?752次閱讀

    SAS 24G+規(guī)范發(fā)布,為超大規(guī)模數(shù)據(jù)中心HDD和SSD

    在當(dāng)前超大規(guī)模數(shù)據(jù)中心的演進(jìn)歷程中,盡管固態(tài)硬盤正日益向支持NVMe協(xié)議的PCIe接口轉(zhuǎn)型,但串行連接SCSI(SAS)技術(shù)依然是眾多關(guān)鍵應(yīng)用不可或缺的支柱。SAS存儲技術(shù)的生命力遠(yuǎn)未枯竭,這一點從
    的頭像 發(fā)表于 07-25 15:13 ?1300次閱讀