91在线精品无码秘入口九色,电影限制中文字幕在线一区二区,色秘乱码一区二区三区88

01.摘要

隨著大規(guī)模分布式數(shù)據(jù)處理和復(fù)雜數(shù)據(jù)中心服務(wù)的興起，數(shù)據(jù)中心內(nèi)部流量急劇增加，其特征與高性能超級計算機(jī)中的流量相似。然而，用于超級計算機(jī)和數(shù)據(jù)中心的網(wǎng)絡(luò)技術(shù)存在顯著差異，因此將它們整合起來是一個自然的問題。

本文探討了這兩種工作負(fù)載類型和技術(shù)之間的差異和共性，概述了在多個層面實現(xiàn)整合的途徑。并預(yù)測新興的智能網(wǎng)絡(luò)解決方案將加速這種整合的過程。

02.引言

近年來，數(shù)據(jù)中心計算經(jīng)歷了前所未有的增長，由最初的內(nèi)部服務(wù)器機(jī)房發(fā)展為巨型、超級和倉儲規(guī)模的數(shù)據(jù)中心。這些系統(tǒng)中的網(wǎng)絡(luò)端點數(shù)量已經(jīng)超過了世界上最大超級計算機(jī)的規(guī)模，這些超級計算機(jī)剛剛達(dá)到了Exascale標(biāo)準(zhǔn)。第一代數(shù)據(jù)中心的網(wǎng)絡(luò)主要為外部客戶提供數(shù)據(jù)，并支持在數(shù)據(jù)中心運(yùn)行的簡單分布式應(yīng)用。然而，隨著大規(guī)模數(shù)據(jù)處理和機(jī)器學(xué)習(xí)的出現(xiàn)，數(shù)據(jù)中心網(wǎng)絡(luò)的需求迅速納入了傳統(tǒng)高性能計算的范疇。這些新的流量需求引發(fā)了關(guān)于高性能和傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)是否應(yīng)該融合的討論。盡管由此產(chǎn)生的規(guī)模經(jīng)濟(jì)具有吸引力，但也有一些阻礙融合的因素。在本文中，我們指出了高性能計算和數(shù)據(jù)中心計算之間的差異和共性，以及它們對大規(guī)模網(wǎng)絡(luò)技術(shù)發(fā)展的影響。我們得出結(jié)論，能夠同時支持高性能計算（HPC，High Performance Computing）和超大數(shù)據(jù)中心（MDC，Mega Data Center）工作負(fù)載的智能高性能數(shù)據(jù)中心網(wǎng)絡(luò)將很快在工業(yè)界得以應(yīng)用。

高性能計算一直在推動計算的極限。頂級系統(tǒng)，稱為超級計算機(jī)，在地球上具有最高的集中計算能力。雖然大多數(shù)超級計算機(jī)同時運(yùn)行多個應(yīng)用程序，但它們被設(shè)計為在整個機(jī)器上運(yùn)行單個“頂級運(yùn)行”（Hero Run）應(yīng)用程序，以解決世界上最具挑戰(zhàn)性的問題，如在大流行傳染病中尋找疫苗，或訓(xùn)練最大的深度學(xué)習(xí)模型。在當(dāng)今的技術(shù)限制下，超級計算機(jī)不再是單一服務(wù)器，而是由數(shù)萬個通過高速通信網(wǎng)絡(luò)連接的獨(dú)立服務(wù)器組成。網(wǎng)絡(luò)（即互連）是最關(guān)鍵的組成部分，超級計算機(jī)的設(shè)計圍繞特定的網(wǎng)絡(luò)架構(gòu)。這使得網(wǎng)絡(luò)成為一個主要的區(qū)分因素，因為“單一應(yīng)用”場景通常具有嚴(yán)格的延遲和帶寬要求?？梢哉f，正是互連網(wǎng)絡(luò)將一組服務(wù)器轉(zhuǎn)變?yōu)槌売嬎銠C(jī)。

超級計算機(jī)系統(tǒng)運(yùn)行并行應(yīng)用程序，最常在使用消息傳遞接口（MPI，Message Passing Interface，[1]）的分布式內(nèi)存超級計算機(jī)上實現(xiàn)。MPI程序在每臺服務(wù)器上以進(jìn)程形式運(yùn)行相似的代碼，并且算法通常使用大規(guī)模同步并行（BSP，Bulk Synchronous Parallel）計算模型設(shè)計，作為一系列計算-通信-同步階段。在此場景中，應(yīng)用程序只能在所有進(jìn)程完成同步后進(jìn)入下一個階段。這一問題在后來在超大規(guī)模數(shù)據(jù)中心（MDC）中被重新發(fā)現(xiàn)，成為長尾問題[2]。許多編程技術(shù)可以減少同步和通信開銷（例如，[3]，[4]），然而，在極端擴(kuò)展的情況下，BSP應(yīng)用程序受到延遲的限制。實際上，通信延遲（尾部）分布確定了系統(tǒng)的可擴(kuò)展性極限，并確定了單個應(yīng)用程序可以有效使用的最大進(jìn)程數(shù)[5]。

圖1：數(shù)據(jù)中心和HPC機(jī)器的使用場景。云數(shù)據(jù)中心為多個客戶提供各種交互式服務(wù)，其中包括一些分布式服務(wù)，例如機(jī)器3-5上的機(jī)器學(xué)習(xí)訓(xùn)練任務(wù)。右側(cè)的HPC數(shù)據(jù)中心主要專注于為三個分布式仿真工作負(fù)載提供服務(wù)，客戶在這里不需要即時答復(fù)。

超級計算機(jī)的規(guī)模已經(jīng)被倉儲規(guī)模的超大數(shù)據(jù)中心超越?，F(xiàn)代網(wǎng)絡(luò)化世界需要存儲和處理由連接的客戶端設(shè)備消耗的數(shù)據(jù)。每個人現(xiàn)在都擁有多個移動設(shè)備，并產(chǎn)生和消耗越來越多以云為中心的計算和存儲。此外，并非所有客戶端端點必須在設(shè)備后面由人類消耗數(shù)據(jù)或服務(wù)。隨著物聯(lián)網(wǎng)（IoT）的普及，數(shù)億臺設(shè)備向全球數(shù)據(jù)中心傳送圖像、視頻和網(wǎng)頁等數(shù)據(jù)。AWS、Google、Facebook或Microsoft等超大數(shù)據(jù)中心的規(guī)模大于最大的單一超級計算機(jī)，并且它們在相同的計算、存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施上同時運(yùn)行更多多樣化的應(yīng)用程序，以支持更多互動式終端用戶。MDC運(yùn)營商的范圍是其全球用戶群，隨著應(yīng)用的增長，而HPC運(yùn)營商的范圍是在規(guī)劃時定義的應(yīng)用程序容量。圖1顯示了HPC和MDC工作負(fù)載的概貌。

MDC系統(tǒng)運(yùn)行分布式應(yīng)用程序，其中異步進(jìn)程使用諸如遠(yuǎn)程過程調(diào)用（RPC）等編程接口進(jìn)行成對通信。這些應(yīng)用程序很少需要使用多服務(wù)器或全局同步，因此減少了延遲對總體應(yīng)用性能的影響。單個端點對之間的通信產(chǎn)生的增加的延遲僅影響個別請求，而不影響整個應(yīng)用程序。每當(dāng)在MDC應(yīng)用程序中出現(xiàn)多對一的通信模式，例如在Map-Reduce或分布式文件系統(tǒng)中的組播模式，開發(fā)人員通常依賴于軟截止期限，以減輕響應(yīng)延遲的長尾影響。由此產(chǎn)生的應(yīng)用程序不會在無限的尾延遲下停滯，而是在結(jié)果質(zhì)量或效率上做出妥協(xié)。這是通過簡單地忽略遲到的RPC響應(yīng)或在不同服務(wù)器上冗余地啟動它們來實現(xiàn)的。因此，網(wǎng)絡(luò)缺陷不會減緩應(yīng)用程序，而是導(dǎo)致了資源的浪費(fèi)（可以通過添加更多服務(wù)器來恢復(fù)）。

數(shù)據(jù)中心的傳統(tǒng)角色是存儲、處理和將數(shù)據(jù)傳遞給驅(qū)動從其服務(wù)器到互聯(lián)網(wǎng)的終端客戶的數(shù)據(jù)，形成所謂的南北流量。當(dāng)面向互聯(lián)網(wǎng)的路徑成為瓶頸時，數(shù)據(jù)中心網(wǎng)絡(luò)容量可以相對較小。然而，在當(dāng)今分布式數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的時代，互連網(wǎng)絡(luò)的吞吐量和延遲要求穩(wěn)步增長，與服務(wù)器之間的通信相關(guān)的東西西流量以數(shù)量級的方式占主導(dǎo)地位。從這個意義上說，MDC流量類似于傳統(tǒng)的HPC應(yīng)用程序，盡管應(yīng)用了更容忍延遲的模型。對于一些新興應(yīng)用程序來說，明顯地表明HPC和現(xiàn)代大數(shù)據(jù)分析（例如深度學(xué)習(xí)、文檔搜索或推薦系統(tǒng)）具有相似的計算和通信模式。例如，許多機(jī)器學(xué)習(xí)可以被表達(dá)為張量代數(shù)，協(xié)同過濾類似于雙分圖上的傳統(tǒng)圖分析。這些大數(shù)據(jù)工作負(fù)載與傳統(tǒng)HPC工作負(fù)載之間的主要區(qū)別在于前者強(qiáng)調(diào)程序員的生產(chǎn)力，而后者強(qiáng)調(diào)性能。由于各種原因，編程環(huán)境可能會繼續(xù)沿著不同的路徑演變，但我們認(rèn)為底層工作負(fù)載及其計算特性非常相似，并且正在迅速趨于融合。

然而，這些工作負(fù)載是使用非常不同的互連網(wǎng)絡(luò)模式：HPC網(wǎng)絡(luò)被優(yōu)化為最高性能，而MDC網(wǎng)絡(luò)遵循傳統(tǒng)的數(shù)據(jù)中心部署和運(yùn)營理念。當(dāng)深入了解細(xì)節(jié)時，就會發(fā)現(xiàn)最底層已經(jīng)趨于融合，隨著向上移動，共性逐漸顯現(xiàn)。此外，高性能加速器的引入（例如通用圖形處理單元，GPU）對當(dāng)今的MDC產(chǎn)生了更高帶寬需求，需要在MDC中引入專業(yè)網(wǎng)絡(luò)，導(dǎo)致HPC樣式的網(wǎng)絡(luò)連接島嶼。這些系統(tǒng)通常通過專用的HPC樣式后端網(wǎng)絡(luò)來補(bǔ)充前端數(shù)據(jù)中心網(wǎng)絡(luò)。例如，Google TPU的專用環(huán)形互連和Azure HPC的InfiniBand部署連接GPU服務(wù)器。這種復(fù)制導(dǎo)致了顯著的低效率——考慮到底層已經(jīng)相同，只是通信協(xié)議不同！事實上，像AWS Nitro和Microsoft的Catapult [6]這樣的端點解決方案嘗試優(yōu)化現(xiàn)有的以太網(wǎng)絡(luò)。從另一方面來看，Cray的Slingshot技術(shù) [7]來自以HPC為中心的視角，并增加了以太網(wǎng)兼容性。這些例子顯示了需求和解決方案如何隱含了一個共同的高性能網(wǎng)絡(luò)解決方案。

雖然在高層次上，HPC和MDC的網(wǎng)絡(luò)需求相似，但細(xì)節(jié)中藏著復(fù)雜之處。我們將討論一系列要求，涵蓋了從設(shè)計和部署哲學(xué)到應(yīng)用程序編程接口的HPC和數(shù)據(jù)中心網(wǎng)絡(luò)之間的差異。我們評論每個差異的根本性，并揭示未來基于智能網(wǎng)卡（NIC）和交換機(jī)的網(wǎng)絡(luò)計算解決方案將彌合其中許多差異。每個部分都以簡要的技術(shù)預(yù)測結(jié)束。

03.設(shè)計和部署哲學(xué)

兩種網(wǎng)絡(luò)觀點之間最顯著的差異在于機(jī)器部署的方式。一個MDC自然是來自多個供應(yīng)商的松散連接的服務(wù)器集合，可以逐步擴(kuò)展和升級。布線基礎(chǔ)設(shè)施會經(jīng)歷多代機(jī)器和技術(shù)。MDC會將光纖安裝為樓宇基礎(chǔ)設(shè)施，從而將基礎(chǔ)設(shè)施和大部分網(wǎng)絡(luò)拓?fù)渑c服務(wù)器解耦。機(jī)架交換機(jī)代表了數(shù)據(jù)中心網(wǎng)絡(luò)和計算服務(wù)器之間的架構(gòu)邊界。多供應(yīng)商支持是基本的，并且基于以太網(wǎng)用于物理層和互聯(lián)網(wǎng)協(xié)議（IP）用于更高層次。速度異構(gòu)性對于MDC網(wǎng)絡(luò)也是基本的，不同的服務(wù)器可能以不同的鏈路速度連接，并且內(nèi)部網(wǎng)絡(luò)鏈路可能與端點速度不同。MDC運(yùn)營商無法承受因重新配置而導(dǎo)致的大量停機(jī)時間，必須同時運(yùn)行多種技術(shù)。在MDC中進(jìn)行的這種增量升級使現(xiàn)代化變得具有挑戰(zhàn)性，并禁止在技術(shù)上取得大的躍進(jìn)。

傳統(tǒng)上，超級計算機(jī)被視為一次性的安裝，并且通常是按照這種方式設(shè)計和布線的：所有端點和內(nèi)部鏈路的鏈路速度都相同；它們的網(wǎng)絡(luò)使用單一供應(yīng)商的組件；通常在初始安裝之前就會制定升級計劃。由于高帶寬互連的重要性和成本，許多超級計算機(jī)超越了Clos網(wǎng)絡(luò)或胖樹作為互連拓?fù)涞姆桨?。設(shè)計范圍從超立方體或高維扭曲網(wǎng)絡(luò) [8] 到更具成本效益的低直徑拓?fù)?[9]，[10]。它們的部署模型允許超級計算機(jī)在系統(tǒng)的每個新一代中應(yīng)用對網(wǎng)絡(luò)技術(shù)的徹底變革。HPC站點會并行運(yùn)行舊系統(tǒng)和新系統(tǒng)，在停用系統(tǒng)之前遷移工作負(fù)載。這種操作模式在占地面積、功耗和成本方面昂貴，HPC運(yùn)營商正在推動更加漸進(jìn)的方法。

技術(shù)預(yù)測：增量部署和向后兼容性要求阻礙了許多創(chuàng)新技術(shù)在MDC中的應(yīng)用。HPC系統(tǒng)將繼續(xù)引領(lǐng)技術(shù)領(lǐng)域朝著完全新的、革命性的方向發(fā)展。

04.運(yùn)營理念

在歷史上，數(shù)據(jù)中心和HPC中心對其運(yùn)營采取了非常不同的方式。這是由他們的客戶所要求的：云數(shù)據(jù)中心為從手機(jī)用戶到銀行和醫(yī)院等各種終端客戶提供服務(wù)。它們運(yùn)行I/O密集的工作負(fù)載作為實時服務(wù)，其中中斷在幾秒鐘內(nèi)就可見，并可能導(dǎo)致巨大的經(jīng)濟(jì)損失。例如，收集的數(shù)據(jù)，比如信用卡交易，無法重建，任何損失都是有害的。因此，提供的服務(wù)必須非?？煽坎⑹冀K可用。超級計算機(jī)沿著一條不同的道路發(fā)展，這條道路以性能和成本為代價，其中可以容忍小規(guī)模的中斷（每年幾個小時）。個別作業(yè)可能會失敗，只要它們可以在服務(wù)等級協(xié)議（SLA）允許的時間內(nèi)重新運(yùn)行，并且計算資源進(jìn)行了過度配置以允許這樣做。這使得HPC運(yùn)營商能夠在軟件和硬件方面采用更冒險的部署，并且總體上比MDC運(yùn)營商在網(wǎng)絡(luò)和硬件技術(shù)方面更為激進(jìn)。

MDC網(wǎng)絡(luò)通過結(jié)合確保部分操作的機(jī)制（例如，用于故障隔離的獨(dú)立網(wǎng)絡(luò)平面）和用于控制平面冗余的分布式協(xié)議，以優(yōu)先考慮網(wǎng)絡(luò)可用性。HPC互連使用單獨(dú)的管理網(wǎng)絡(luò)以確?？煽啃裕蕾囉诩惺娇刂破矫鎭韺崿F(xiàn)高性能網(wǎng)絡(luò)，以在有效管理的情況下接受短時間的不可用性。在MDC上運(yùn)行的應(yīng)用程序使用軟件級別的復(fù)雜冗余（例如，在單獨(dú)的服務(wù)器上使用備用服務(wù)或復(fù)制存儲）來實現(xiàn)可靠性。在故障端點上運(yùn)行的應(yīng)用程序?qū)⒀杆僦匦聠拥叫沦Y源上，并重新連接到服務(wù)。這使得運(yùn)營商可以以更低可靠性的、更便宜的硬件為代價，但需要額外的軟件開銷。另一方面，HPC應(yīng)用程序依賴于在故障后從檢查點重新啟動應(yīng)用程序。為了在大規(guī)模時降低重新啟動成本，HPC供應(yīng)商使用比MDC更可靠的硬件，例如，HPC網(wǎng)絡(luò)使用鏈路級和端到端的重試來保護(hù)通信。因此，HPC軟件的可靠性開銷較低，而MDC必須采用昂貴的復(fù)制和共識方案。MDC網(wǎng)絡(luò)運(yùn)營商可以從HPC中學(xué)到更先進(jìn)的硬件容錯技術(shù)，例如使用鏈路級重試。

安全性對于任何計算系統(tǒng)都是一個重要的考慮因素。HPC系統(tǒng)在軟件[11]和硬件安全性方面?zhèn)鹘y(tǒng)上要求不那么嚴(yán)格，通常依賴于物理安全性（例如，空氣隔離系統(tǒng)和建筑保護(hù)），并避免在節(jié)點上使用多租戶。系統(tǒng)管理員是一個受信任的實體，用戶被謹(jǐn)慎地允許進(jìn)入系統(tǒng)。MDC系統(tǒng)為敏感的第三方工作負(fù)載提供服務(wù)，其租戶不信任運(yùn)營商或其他租戶，后者可能是任何持有信用卡的人。這需要在MDC中具備更高水平的安全性，并促使解決方案的出現(xiàn)，例如可信執(zhí)行或一般的機(jī)密計算，以及安全的高性能網(wǎng)絡(luò)[12]。最近，越來越多的HPC系統(tǒng)在共享文件系統(tǒng)中托管敏感數(shù)據(jù)（例如醫(yī)療記錄），因此需要采用類似MDC的安全性概念。

MDC由極少數(shù)人員操作；其規(guī)模如此之大，以至于使用基于人的操作模型是不切實際的，自動化是必須的。這要求具備復(fù)雜的監(jiān)控、日志記錄和控制基礎(chǔ)設(shè)施，在HPC系統(tǒng)中是不存在的。監(jiān)控對于故障排除和容量管理至關(guān)重要。雖然我們尚未深入討論容量問題，但“工作負(fù)載焦慮”是MDC網(wǎng)絡(luò)設(shè)計中的一個重要因素。這源于計算和存儲容量必須被配置來吸收端用戶流量和應(yīng)用工作負(fù)載配置中的不可預(yù)測的變化。網(wǎng)絡(luò)必須容忍這種計算、存儲和工作負(fù)載的變化，而不需要進(jìn)行重大的重新設(shè)計。

MDC在部署或配置應(yīng)用程序時不愿考慮物理親和性，因為容量是按照時間順序部署的，而親和性會使虛擬機(jī)（VM）分配策略變得更加復(fù)雜。此外，可用性服務(wù)級別協(xié)議要求在區(qū)域或可用性區(qū)域內(nèi)跨數(shù)據(jù)中心分布應(yīng)用程序。在HPC應(yīng)用程序部署中通?？紤]地理位置。雖然在遞歸結(jié)構(gòu)網(wǎng)絡(luò)（例如胖樹或Clos網(wǎng)絡(luò)）上相對簡單實現(xiàn)本地放置，但在其他拓?fù)渖蠈崿F(xiàn)本地放置較為困難。然而，全球帶寬網(wǎng)絡(luò)承諾使得放置決策變得不那么關(guān)鍵。

技術(shù)預(yù)測：根本的差異在于對（網(wǎng)絡(luò)）可用性和安全性的處理方式。如果HPC運(yùn)營商實施MDC運(yùn)營提出的更嚴(yán)格的要求，HPC和MDC網(wǎng)絡(luò)的運(yùn)營方面將縮小差距。其他方面更為相似，可能會趨于融合。

05.服務(wù)多樣性

MDC折射了其運(yùn)營商的業(yè)務(wù)模式。一個專注于向企業(yè)客戶銷售虛擬機(jī)容量的運(yùn)營商（例如Microsoft），與一個聚焦于人際互動的“終端用戶中心”運(yùn)營商（例如Facebook），擁有不同的網(wǎng)絡(luò)配置文件、控制策略和服務(wù)級別協(xié)議（SLA）。然而，所有MDC運(yùn)營商都廣泛應(yīng)用虛擬化和多租戶技術(shù)，以提高管理效率和資源利用率。虛擬化對網(wǎng)絡(luò)產(chǎn)生深遠(yuǎn)影響，因為它促使采用覆蓋網(wǎng)絡(luò)，將流量引導(dǎo)到虛擬端點而非物理端點。而當(dāng)前的HPC互連則未涉及這種虛擬化或多租戶的要求，通過采用裸金屬尋址以降低開銷。

MDC承載著大量具有截然不同流量需求的服務(wù)。例如，吞吐量型工作負(fù)載，如備份流量、復(fù)制和存儲，與對延遲極為敏感的流量（如分布式計算和客戶互動）共享相同的物理鏈路。這對MDC網(wǎng)絡(luò)提出了極高的服務(wù)質(zhì)量（QoS）要求。HPC網(wǎng)絡(luò)主要用于并行計算和文件I/O，QoS曾不是首要任務(wù)，盡管隨著工作負(fù)載多樣性的增加，它變得越來越重要。例如，許多HPC和AI應(yīng)用程序中使用的AllReduce操作在相對靜默的網(wǎng)絡(luò)上表現(xiàn)良好，但其他租戶的流量可能顯著影響可擴(kuò)展性[13]。值得注意的是，用于美國Exascale系統(tǒng)的HPC互連提供了QoS和先進(jìn)的擁塞管理。

MDC網(wǎng)絡(luò)的規(guī)模受可靠供電而非應(yīng)用可擴(kuò)展性的限制。當(dāng)今的MDC網(wǎng)絡(luò)跨足多個位置和地區(qū)，以確保在面對大規(guī)模故障時仍能保持可用性。這引入了高度的數(shù)據(jù)中心間流量，與傳統(tǒng)的數(shù)據(jù)中心內(nèi)部東西流量和面向客戶的南北流量不同。另一方面，HPC流量主要由保持在單個數(shù)據(jù)中心內(nèi)的本地通信所主導(dǎo)。

技術(shù)預(yù)測：在MDC網(wǎng)絡(luò)上運(yùn)行的服務(wù)將繼續(xù)需要廣泛的QoS類別。HPC系統(tǒng)將看到服務(wù)多樣性的增加，這將使MDC風(fēng)格的機(jī)制變得相關(guān)。

06.協(xié)議棧和層次結(jié)構(gòu)

開放系統(tǒng)互連（OSI）層次結(jié)構(gòu)規(guī)定了從物理層（L1）到應(yīng)用層（L7）的通信協(xié)議棧的設(shè)計模式。層次之間的區(qū)分有爭議，但大多數(shù)互聯(lián)網(wǎng)服務(wù)可以映射到它們。數(shù)據(jù)中心業(yè)界繼承了許多傳統(tǒng)的互聯(lián)網(wǎng)協(xié)議棧，并且只是最近開始轉(zhuǎn)向更專業(yè)化的協(xié)議，例如數(shù)據(jù)中心TCP（DCTCP）或數(shù)據(jù)中心量化擁塞通知（DCQCN）。然而，HPC網(wǎng)絡(luò)始終調(diào)整為最高性能，并且不提供用于完整OSI棧所需的許多頭部（每個協(xié)議級別一個）。例如，在HPC互連網(wǎng)絡(luò)中，傳輸層L3很少存在，因為網(wǎng)絡(luò)不打算可路由。圖2比較了MDC和HPC系統(tǒng)的OSI層次。

圖2：開放系統(tǒng)互聯(lián)層

在電氣或光信號級別（L1），MDC和HPC網(wǎng)絡(luò)是相同的。在布線和設(shè)備基礎(chǔ)設(shè)施的規(guī)模經(jīng)濟(jì)和眾多的技術(shù)約束方面，確保誰先到達(dá)誰就是贏家。以25G、56G，以及最近的112G通道為代表，以太網(wǎng)多年來一直在這場競賽中勝出。一些HPC和MDC網(wǎng)絡(luò)技術(shù)共享L2-L4，但其他HPC技術(shù)采用專有協(xié)議，具有更專業(yè)和更精簡的頭部，以實現(xiàn)最低的開銷。

一個有趣的融合點是遠(yuǎn)程直接內(nèi)存訪問（RDMA），長期以來一直在HPC和存儲網(wǎng)絡(luò)中使用，以在L4或L5上實現(xiàn)源進(jìn)程和目標(biāo)進(jìn)程之間的高性能通信。該協(xié)議通常完全卸載到硬件實現(xiàn)中，操作系統(tǒng)繞過減少了延遲和延遲的變化。許多MDC運(yùn)營商在生產(chǎn)中使用或計劃使用它（Azure、Google 1RMA、AWS Nitro）。然而，在MDC規(guī)模上，RDMA和TCP/IP流之間的緩沖區(qū)和帶寬共享可能會對某些流量造成不利影響。

當(dāng)今RDMA網(wǎng)絡(luò)實現(xiàn)中的簡單基于硬件的重傳機(jī)制依賴于無丟包傳輸層。然而，大多數(shù)數(shù)據(jù)中心網(wǎng)絡(luò)傳統(tǒng)上使用有丟包的路由器，即在隊列滿時丟棄數(shù)據(jù)包。盡管有關(guān)有丟包（端點控制的流速）與無丟包（網(wǎng)絡(luò)控制的流速）的辯論尚未結(jié)束，但RDMA對無丟包網(wǎng)絡(luò)的要求在保守的數(shù)據(jù)中心環(huán)境中提高了應(yīng)用的障礙。出于這個原因，為了確保無丟包的語義，MDC將RDMA流量分配到專用的QoS隊列或在后端網(wǎng)絡(luò)中進(jìn)行物理隔離。

技術(shù)預(yù)測：隨著鏈路速度的增加，額外數(shù)據(jù)包頭部的相對帶寬開銷逐漸消失，HPC網(wǎng)絡(luò)可能選擇支持更復(fù)雜的可路由協(xié)議。我們預(yù)計將看到對UDP/IP上基于消息的協(xié)議的轉(zhuǎn)變；遠(yuǎn)程直接內(nèi)存訪問（RDMA）通過融合以太網(wǎng)（RoCE）是這一趨勢的第一個跡象。在MDC和HPC規(guī)模上的實驗和優(yōu)化將受到離散事件網(wǎng)絡(luò)模擬的推動，例如分布式的ns-3、SST或LogGOPSim。

07.網(wǎng)絡(luò)利用率

網(wǎng)絡(luò)利用率即成本效益，是MDC和HPC系統(tǒng)中的重要驅(qū)動因素之一。由于許多MDC應(yīng)用程序可以容忍較高的延遲，因此它們的網(wǎng)絡(luò)理論上可以以更高的穩(wěn)定利用率運(yùn)行，并且在平均負(fù)載超過30-40%的情況下，不會產(chǎn)生過多的延遲影響。然而，丟包的影響可能如此嚴(yán)重，以至于運(yùn)營商努力保持網(wǎng)絡(luò)鏈路的利用率遠(yuǎn)低于數(shù)據(jù)包開始丟棄的點。

在網(wǎng)絡(luò)規(guī)劃階段，網(wǎng)絡(luò)利用率是關(guān)于估算所有疊加工作負(fù)載的端到端性能的。我們發(fā)現(xiàn)，在這個階段，應(yīng)用網(wǎng)絡(luò)模擬可以分析個別鏈路的運(yùn)行狀態(tài)、交換機(jī)緩沖區(qū)的壓力，當(dāng)然還有數(shù)據(jù)包的丟棄和重傳。在運(yùn)營階段，網(wǎng)絡(luò)利用率是關(guān)于監(jiān)視相同的鏈路和交換機(jī)緩沖區(qū)，當(dāng)然還要將丟包和重傳與鏈路和緩沖區(qū)進(jìn)行關(guān)聯(lián)。模擬和操作都可以以服務(wù)級別協(xié)議（SLA）為導(dǎo)向，其中整個網(wǎng)絡(luò)利用率通過延遲分布來感知，幾乎不需要將帶寬作為指標(biāo)處理。

大規(guī)模的BSP式HPC應(yīng)用程序在通信和計算階段運(yùn)行，產(chǎn)生突發(fā)的開關(guān)式流量模式，對延遲分布有嚴(yán)格的要求。HPC網(wǎng)絡(luò)被設(shè)計為滿足突發(fā)流量的峰值帶寬要求。當(dāng)系統(tǒng)運(yùn)行多個作業(yè)時，可以增加效益，但作業(yè)之間的爭用，也被稱為“近鄰干擾”（Noisy Neighbor）問題，會導(dǎo)致關(guān)鍵的延遲變化。在MDC和HPC網(wǎng)絡(luò)中，性能隔離可以緩解此問題，因此這是一個關(guān)注點。MDC運(yùn)營商在流量源（通常是虛擬機(jī)）處實施速率限制器以解決網(wǎng)絡(luò)性能隔離問題。在HPC中，確保最小化性能變化要求限制應(yīng)用程序及其流量類型之間的交互，因為系統(tǒng)噪聲[5]，[14]和網(wǎng)絡(luò)噪聲[13]，[15]對應(yīng)用程序性能產(chǎn)生有害影響。在HPC網(wǎng)絡(luò)中使用的單一供應(yīng)商模型允許部署在更細(xì)粒度上運(yùn)行的新型硬件擁塞管理機(jī)制（例如[7]）。

靜態(tài)等代價多路徑（ECMP，Static Equal Cost Multipathing）可能導(dǎo)致?lián)砣麩狳c，尤其是在通信密集型流較少的情況下。自適應(yīng)路由或數(shù)據(jù)包噴射（packet spraying）可提高網(wǎng)絡(luò)利用率，同時控制瞬時數(shù)據(jù)包丟失的風(fēng)險。然而，直到最近，大多數(shù)商用以太網(wǎng)交換機(jī)沒有提供自適應(yīng)路由或數(shù)據(jù)包噴射，因為MDC網(wǎng)絡(luò)端點不太支持亂序數(shù)據(jù)包的接收。最近引入了自適應(yīng)流簇（flowlet）路由，在不改變數(shù)據(jù)包順序的同時提供某種有限形式的自適應(yīng)路徑選擇，這在MDC交換機(jī)中得到了應(yīng)用。自適應(yīng)路由是在低直徑拓?fù)洌ㄔ贖PC中常見）中高效利用的先決條件，基本上允許同時使用最小路徑和非最小路徑。HPC網(wǎng)絡(luò)端點使用RDMA傳輸支持亂序交付，其中數(shù)據(jù)包攜帶目標(biāo)地址并可以獨(dú)立寫入內(nèi)存。

技術(shù)預(yù)測：基于UDP/IP的基于消息的協(xié)議的興起放寬了端點的排序要求，使得超越靜態(tài)多路徑的路由方法成為可能。我們還預(yù)測這些傳輸?shù)膿砣苊夥矫?，以及TCP本身，將產(chǎn)生快速的演進(jìn)。

08.應(yīng)用程序和編程模型需求

應(yīng)用程序需求在兩方面都發(fā)生了變化，并且似乎在中間趨于一致。HPC曾經(jīng)是非常底層的，應(yīng)用在裸機(jī)上運(yùn)行，并通過緊湊的消息傳遞（MPI）[1]，[16]或遠(yuǎn)程內(nèi)存訪問（RMA）[17]接口訪問網(wǎng)絡(luò)。這些接口可以提供低于100納秒的開銷，以達(dá)到亞微秒級的端到端延遲。MDC應(yīng)用程序通常依賴于開銷巨大的拷貝語義的套接字?？焖俚腞PC框架[18]可以潛在地彌合差距，并在MDC環(huán)境中實現(xiàn)透明的零拷貝。

基于任務(wù)的HPC編程模型使用和擴(kuò)展這些已建立的接口，以放寬BSP對延遲的要求。傳統(tǒng)的MDC應(yīng)用程序?qū)ρ舆t相對不敏感，但新興的工作負(fù)載，例如新的數(shù)據(jù)分析和深度學(xué)習(xí)工作負(fù)載類似于BSP風(fēng)格的HPC應(yīng)用程序，并具有同樣嚴(yán)格的延遲要求。然而，在MDC中，程序員的生產(chǎn)力、快速原型設(shè)計和快速部署比性能更為重要。只有成熟的應(yīng)用程序和堆棧明確針對性能進(jìn)行調(diào)優(yōu)。許多應(yīng)用程序是使用Java或Python等托管語言編寫的，并在虛擬化環(huán)境中運(yùn)行，僅用了多達(dá)10微秒才能到達(dá)網(wǎng)絡(luò)。HPC和MDC在不同的級別進(jìn)行優(yōu)化：HPC專注于最佳利用CPU和網(wǎng)絡(luò)資源，而MDC專注于整個系統(tǒng)的生產(chǎn)力和利用率。

不同的應(yīng)用需求導(dǎo)致了不同的網(wǎng)絡(luò)API。對于高性能計算來說，向RDMA網(wǎng)絡(luò)的轉(zhuǎn)變發(fā)生在將近二十年前。從那時起，RDMA一直以個位數(shù)微秒的延遲運(yùn)行，允許將大部分通信工作卸載到網(wǎng)絡(luò)接口。虛擬內(nèi)存機(jī)制允許數(shù)據(jù)路徑繞過主機(jī)操作系統(tǒng)，直接在端點內(nèi)存之間移動數(shù)據(jù)。高性能計算編程框架直接向應(yīng)用程序公開遠(yuǎn)程內(nèi)存訪問語義，以最小化開銷[17]。而MDC則逐漸認(rèn)識到這些技術(shù)的潛力[19]。由于RDMA不適用于傳統(tǒng)的TCP/IP套接字模型和分層路由，MDC應(yīng)用速度較慢。然而，RoCEv2和Priority Flow Control（PFC）等規(guī)范使得L3路由成為可能，并將RDMA引入MDC。

現(xiàn)代HPC網(wǎng)絡(luò)遠(yuǎn)不止于RDMA，網(wǎng)卡執(zhí)行消息匹配和集體操作，將這些任務(wù)從CPU或GPU卸載出來，以提高計算和通信的重疊。MDC中的智能網(wǎng)卡應(yīng)用通常是為了提供者的利益，確保隔離，而不是改善租戶應(yīng)用。在MDC中，多租戶使得卸載用戶級邏輯比在HPC中更加復(fù)雜，因為網(wǎng)卡通常由單個應(yīng)用程序擁有。通用的智能網(wǎng)卡編程接口，如網(wǎng)絡(luò)中的流處理（sPIN [20]），承諾一種通用的加速策略，可以描述為網(wǎng)絡(luò)的CUDA。

技術(shù)預(yù)測：RDMA在當(dāng)今的HPC系統(tǒng)中無處不在，而MDC運(yùn)營商正在為其更大比例的流量采用RDMA。此外，我們預(yù)計在MDC和HPC網(wǎng)絡(luò)中會看到可編程網(wǎng)絡(luò)加速器的顯著發(fā)展，超越RDMA的簡單內(nèi)存存儲語義。

09.結(jié)論與預(yù)測

盡管數(shù)據(jù)中心提供商正忙于調(diào)整到RDMA和數(shù)據(jù)包級別的路由方法，但研究界正在迅速轉(zhuǎn)向具有智能網(wǎng)卡和交換機(jī)的通用的流處理。新的網(wǎng)絡(luò)加速設(shè)備以及營銷術(shù)語，如DPU、IPU或NPU，正被各種供應(yīng)商推向市場。

目前，它們主要部署在微軟的Catapult和AWS的Nitro網(wǎng)卡上，用作基礎(chǔ)設(shè)施支持。它們的主要用途是提高安全性（租戶隔離），效率（封裝和加密卸載）和成本（專業(yè)化和內(nèi)部開發(fā)），以支持多租戶主機(jī)。HPC系統(tǒng)尚未大規(guī)模部署智能網(wǎng)卡。我們預(yù)測，它們的角色將很快包括更通用的網(wǎng)絡(luò)處理和將應(yīng)用特定協(xié)議卸載到專用硬件。

由于HPC和MDC之間的主要區(qū)別在協(xié)議棧的上層，智能網(wǎng)卡和網(wǎng)絡(luò)計算可以通過使用應(yīng)用特定協(xié)議將兩者統(tǒng)一起來。我們將在同一網(wǎng)絡(luò)上看到基于套接字的（TCP/IP或QUIC）應(yīng)用程序和MPI應(yīng)用程序，并且智能加速的網(wǎng)卡（參見[21]）將實現(xiàn)協(xié)議的差異。此外，應(yīng)用特定協(xié)議是端點和交換機(jī)中網(wǎng)絡(luò)加速的重要機(jī)遇。我們將看到基于交換機(jī)的網(wǎng)絡(luò)計算，例如用于深度學(xué)習(xí)工作負(fù)載的減少[22]，從而在所有層面實現(xiàn)工作負(fù)載的專業(yè)化。

與網(wǎng)絡(luò)組件（如網(wǎng)卡或交換機(jī)）相關(guān)的術(shù)語“智能”需要超出當(dāng)前營銷術(shù)語的嚴(yán)格定義。我們建議將網(wǎng)絡(luò)接口稱為“智能”，如果它允許對消息或流進(jìn)行有狀態(tài)計算。有了這樣清晰的定義，我們可以推理出這些智能網(wǎng)絡(luò)的行為。

我們得出結(jié)論，雖然HPC和MDC在應(yīng)用層面上趨于融合，但它們的特性需求足夠不同，以支持兩條發(fā)展線。當(dāng)前的生態(tài)系統(tǒng)形成了一個有趣的反饋循環(huán)，突破性的新技術(shù)可以在風(fēng)險可接受的HPC環(huán)境中推動并測試。然而，大眾市場仍將是以太網(wǎng)，它會慢慢吸收在HPC中開發(fā)的成功技術(shù)。最近的一個例子是RoCE的出現(xiàn)。如果可以通過使用智能網(wǎng)卡和交換機(jī)進(jìn)行配置，HPC和MDC都可以通過使用相同的硬件基礎(chǔ)設(shè)施顯著降低成本。以太網(wǎng)品牌的核心是互操作性的承諾，這可以為HPC和MDC網(wǎng)絡(luò)奠定堅實的基礎(chǔ)，然而，支持RDMA的供應(yīng)商仍需履行這一承諾。

總之，雖然我們不知道哪種技術(shù)將在10-15年內(nèi)主導(dǎo)大眾市場，但它肯定會被稱為以太網(wǎng)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴