一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AWS HPC為什么不用Infiniband?有何原因?

SDNLAB ? 來源:zartbot ? 2024-04-16 16:59 ? 次閱讀

HPC的低延遲需求來自于很多應(yīng)用都會通過網(wǎng)格刨分來進(jìn)行并行運(yùn)算,然后網(wǎng)格間有復(fù)雜而頻繁的通信數(shù)據(jù)交互,Brain將其稱為“Ghost Cell Exchange”。

dde3bfa6-fbcd-11ee-a297-92fbcf53809c.png

因此很多HPC系統(tǒng)將單個報(bào)文的延遲(Single packet latency)放在第一位,這也是Infiniband/RoCEv1/RoCEv2非常在意報(bào)文大小和HPE Cray構(gòu)建HPC Ethernet的原因。

在AWS EFA的實(shí)踐來看,單個報(bào)文的延遲并不是問題,而更重要的是網(wǎng)絡(luò)中的擁塞沖突帶來的長尾延遲。通過SRD來解決了幾個問題:

多路徑降低擁塞沖突概率

多路徑解決鏈路失效等問題

MPI的很多操作不需要Reliable Connection的通信語義嚴(yán)格保序

解決QP數(shù)量多的爆炸問題

關(guān)于不兼容RC語義的原因:從Brain的履歷也能大概看出來,由于Brain大量的OpenMPI的開發(fā)經(jīng)歷,所以在構(gòu)建SRD時選擇了不和標(biāo)準(zhǔn)的RC語義兼容,這也給后續(xù)的生態(tài)帶來了一些問題。

1. 不使用Infiniband的原因

訪談中Brain介紹了一些原因: "云數(shù)據(jù)中心很多時候是要滿足資源調(diào)度和共享等一系列彈性部署的需求,專用的Infiniband網(wǎng)絡(luò)構(gòu)建的集群如同在汪洋大海中的孤島" 并且國外HPC需求較國內(nèi)高的原因在訪談中也介紹了:國外并沒有太多的線下機(jī)房,通常一些HPC任務(wù)需要在一些超算集群排隊(duì)數(shù)周,如果有一個性能差不多的云上環(huán)境,對客戶而言很有吸引力。

2. 應(yīng)用性能

從應(yīng)用性能來看,Brain的觀點(diǎn)是單個報(bào)文的延遲(Single packet latency)并沒有那么的重要,更重要的是實(shí)現(xiàn)長尾延遲的避免,例如Star-CCM+的測試報(bào)告《EFA-enabled C5n instances to scale Simcenter STAR-CCM+》[2],在3000核時加速比都還非常好。

de073062-fbcd-11ee-a297-92fbcf53809c.png

ANSYS Fluent性能也非常好。

de2187a0-fbcd-11ee-a297-92fbcf53809c.png

訪談中Brain還提到高性能存儲是影響HPC應(yīng)用的另一個關(guān)鍵因素,因此構(gòu)建了FSx for Lustre的支持。

df001d58-fbcd-11ee-a297-92fbcf53809c.png

3. 一些缺點(diǎn)和爭議

AWS通過Reliable Datagram實(shí)現(xiàn)了多路徑的支持能力,但是似乎國內(nèi)很多人把這個事情搞混了,雖然傳輸語義上實(shí)現(xiàn)了可交換,但是基于Reliable Connection語義Verbs兼容的情況下依舊可以實(shí)現(xiàn)多路徑的處理,而且這個技術(shù)在2002年IETF提出iWARP時構(gòu)建的Direct Data Placement(DDP)就已經(jīng)討論的很清楚了。

df189c2a-fbcd-11ee-a297-92fbcf53809c.png

另外在HPC這個領(lǐng)域,特別是在國內(nèi)部門間的通信壁壘非常高,很多從業(yè)者材料/物理/機(jī)械這些專業(yè)畢業(yè)的,對于HPC軟件和相應(yīng)的求解器只會使用,而IT等部門通常也只是使用商用軟件測試招標(biāo),相應(yīng)的算法和通信等優(yōu)化的團(tuán)隊(duì)較少,并且企業(yè)通常因?yàn)檐浖跈?quán)價(jià)格等問題停留在較老的軟件版本上。針對這些商用軟件生態(tài)兼容使得RD這樣的語義帶來了很多負(fù)擔(dān)。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    331

    瀏覽量

    24123
  • SRD
    SRD
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    12911
  • 數(shù)據(jù)交互
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    10589
  • AWS
    AWS
    +關(guān)注

    關(guān)注

    0

    文章

    435

    瀏覽量

    24952

原文標(biāo)題:AWS HPC 為什么不用 Infiniband ?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    InfiniBand 連接現(xiàn)在和未來

    InfiniBand 連接現(xiàn)在和未來InfiniBand是致力于服務(wù)器端的高性能互聯(lián)技術(shù),它的使命是:使處理器級的帶寬,從處理器到系統(tǒng)I/O、到存儲網(wǎng)絡(luò),穿越整個數(shù)據(jù)中心,形成一張統(tǒng)一的、包括服務(wù)器
    發(fā)表于 11-13 21:57

    InfiniBand系統(tǒng)級調(diào)試

    This application note is written for R & D engineers developing InfiniBand processors
    發(fā)表于 09-10 09:18

    何原因導(dǎo)致的STM32的重啟

    可以定位是硬件問題了,但是我左看右看也看不出硬件哪里出了問題;本來想放棄,想想這個問題不搞明白,后患無窮;采用的是仿真的手段,看看是何原因導(dǎo)致的重啟:程序中加入對RCC_CSR寄存器清零的代碼,以便在程序...
    發(fā)表于 08-02 08:54

    何原因導(dǎo)致的STM32程序仿真重啟

    何原因導(dǎo)致的STM32程序仿真重啟?怎樣去解決這個問題?
    發(fā)表于 09-24 06:27

    為什么我不能下載spc5studio呢?是何原因

    為什么我不能下載spc5studio?是何原因
    發(fā)表于 01-17 06:18

    proteus中cpu負(fù)載過大無法仿真是何原因?怎么解決?

    proteus中cpu負(fù)載過大無法仿真是何原因?怎么解決?
    發(fā)表于 04-23 16:40

    modbus通訊延遲回復(fù)導(dǎo)致讀取錯位是何原因

    modbus通訊延遲回復(fù)導(dǎo)致讀取錯位是何原因?
    發(fā)表于 05-05 16:09

    InfiniBand,InfiniBand是什么意思

    InfiniBand,InfiniBand是什么意思 InfiniBand架構(gòu)是一種支持多并發(fā)鏈接的“轉(zhuǎn)換線纜”技術(shù),在這種技術(shù)中,每種鏈接都可以達(dá)到2.5 Gbps的運(yùn)
    發(fā)表于 04-10 11:34 ?1187次閱讀

    實(shí)現(xiàn)InfiniBand網(wǎng)絡(luò)優(yōu)化自動化HPC管理工具

    實(shí)現(xiàn)InfiniBand網(wǎng)絡(luò)優(yōu)化自動化HPC管理工具 憑借對通信網(wǎng)絡(luò)獨(dú)特和系統(tǒng)深入的認(rèn)知,QLogic Corp.(Nasdaq: QLGC)新推出的InfiniBand® Fabric Suite (IFS) 6.0
    發(fā)表于 05-24 11:09 ?884次閱讀

    何原因造成芯片產(chǎn)業(yè)爛尾潮?

    在短短一年多時間里,分布于我國江蘇、四川、湖北、貴州、陜西等5省的6個百億級半導(dǎo)體大項(xiàng)目先后停擺。業(yè)界擔(dān)憂,造芯熱引發(fā)爛尾潮,造成國有資產(chǎn)損失,延誤芯片產(chǎn)業(yè)發(fā)展大好機(jī)遇。那么問題來了,是何原因造成上述爛尾潮?中國芯崛起之路又當(dāng)如何前行?
    的頭像 發(fā)表于 11-03 09:12 ?1.4w次閱讀

    半橋諧振LLC效率偏低是何原因?資料下載

    電子發(fā)燒友網(wǎng)為你提供半橋諧振LLC效率偏低是何原因?資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計(jì)、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-05 08:45 ?24次下載
    半橋諧振LLC效率偏低是<b class='flag-5'>何原因</b>?資料下載

    基于NVIDIA QM8700/8790交換機(jī)與HDR網(wǎng)卡的InfiniBand高性能網(wǎng)絡(luò)解決方案

    InfiniBand (IB) 是一個計(jì)算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),在高性能計(jì)算(HPC)領(lǐng)域廣泛的應(yīng)用,可以提供高吞吐帶寬和超低的網(wǎng)絡(luò)傳輸時延。
    的頭像 發(fā)表于 11-03 17:57 ?4619次閱讀
    基于NVIDIA QM8700/8790交換機(jī)與HDR網(wǎng)卡的<b class='flag-5'>InfiniBand</b>高性能網(wǎng)絡(luò)解決方案

    關(guān)于InfiniBand網(wǎng)絡(luò)相關(guān)內(nèi)容簡介!

    的互連。 ? InfiniBand最重要的一個特點(diǎn)就是高帶寬、低延遲,因此在高性能計(jì)算項(xiàng)目中廣泛的應(yīng)用。 主要用于高性能計(jì)算(HPC)、高性能集群應(yīng)用服務(wù)器和高性能存儲。 ? InfiniBand
    的頭像 發(fā)表于 03-21 10:07 ?1544次閱讀
    關(guān)于<b class='flag-5'>InfiniBand</b>網(wǎng)絡(luò)相關(guān)內(nèi)容簡介!

    一文詳解超算中的InfiniBand網(wǎng)絡(luò)、HDR與IB

    InfiniBand技術(shù)被認(rèn)為是面向未來的高性能計(jì)算(HPC)標(biāo)準(zhǔn),在超級計(jì)算機(jī)、存儲甚至LAN網(wǎng)絡(luò)的HPC連接方面享有很高的聲譽(yù)。
    的頭像 發(fā)表于 04-16 10:18 ?9773次閱讀
    一文詳解超算中的<b class='flag-5'>InfiniBand</b>網(wǎng)絡(luò)、HDR與IB

    InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算的關(guān)鍵技術(shù)和應(yīng)用

    InfiniBand在高性能計(jì)算(HPC)和人工智能(AI)應(yīng)用中發(fā)揮著關(guān)鍵作用,體現(xiàn)在它提供了高速、低延遲的網(wǎng)絡(luò)通信能力,以支持大規(guī)模數(shù)據(jù)傳輸和復(fù)雜計(jì)算任務(wù)。而InfiniBand的重要性還延伸至
    的頭像 發(fā)表于 10-23 11:33 ?767次閱讀