一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

國產(chǎn)千卡GPU集群完成大模型訓(xùn)練測(cè)試,極具高兼容性和穩(wěn)定性

Carol Li ? 來源:電子發(fā)燒友網(wǎng)原創(chuàng) ? 作者:李彎彎 ? 2024-06-11 07:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)隨著人工智能技術(shù)的快速發(fā)展,對(duì)于計(jì)算能力的需求日益增長。特別是在大模型訓(xùn)練方面,對(duì)算力的需求更是呈現(xiàn)指數(shù)級(jí)增長。傳統(tǒng)的單卡計(jì)算已經(jīng)無法滿足大模型訓(xùn)練的需求,因此,采用多卡集群的方式成為了必然的選擇。

2023年底,摩爾線程推出首個(gè)全國產(chǎn)千卡千億模型訓(xùn)練平臺(tái)“摩爾線程KUAE智算中心”。摩爾線程相關(guān)負(fù)責(zé)人此前談到,百卡或更小規(guī)模都是實(shí)驗(yàn)性的,千卡才是大集群的基本單元,只有千卡及以上才能滿足一些基礎(chǔ)模型的算力需求。

國產(chǎn)千卡集群完成大模型訓(xùn)練測(cè)試

日前,摩爾線程官方宣布,聯(lián)合羽人科技,已成功實(shí)現(xiàn)了夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配,高效完成了70億參數(shù)羽人大語言模型YuRen-7b的訓(xùn)練測(cè)試。

測(cè)試結(jié)果顯示,訓(xùn)練效率達(dá)到預(yù)期,夸娥千卡智算集群展現(xiàn)出了高度的兼容性和穩(wěn)定性。未來,羽人科技的零代碼訓(xùn)練平臺(tái)將遷移到摩爾線程夸娥千卡智算集群。

在今年5月27日,摩爾線程聯(lián)合無問芯穹宣布,雙方在近日正式完成基于國產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實(shí)訓(xùn)。該模型名為“MT-infini-3B”,在摩爾線程夸娥(KUAE)千卡智算集群與無問芯穹AIStudio PaaS平臺(tái)上完成了高效穩(wěn)定的訓(xùn)練。

MT-infini-3B模型訓(xùn)練總用時(shí)13.2天,經(jīng)過精度調(diào)試,實(shí)現(xiàn)全程穩(wěn)定訓(xùn)練不中斷,集群訓(xùn)練穩(wěn)定性達(dá)到100%,千卡訓(xùn)練和單機(jī)相比擴(kuò)展效率超過90%。

5月29日,摩爾線程又與國內(nèi)領(lǐng)先的數(shù)據(jù)智能服務(wù)商滴普科技共同宣布,摩爾線程“夸娥”(KUAE)千卡智算集群與滴普企業(yè)大模型Deepexi v1.0已完成訓(xùn)練、推理適配,獲得產(chǎn)品兼容互認(rèn)證明。

基于摩爾線程夸娥千卡智算集群,滴普科技成功完成了LLaMA2 700億參數(shù)大語言模型的預(yù)訓(xùn)練測(cè)試。訓(xùn)練時(shí)長共計(jì)77小時(shí),全程無故障連續(xù)運(yùn)行,集群訓(xùn)練穩(wěn)定性達(dá)到100%,訓(xùn)練效率和兼容性均達(dá)到預(yù)期。

可以看到,摩爾線程全國產(chǎn)夸娥千卡智算集群在大模型訓(xùn)練上展現(xiàn)出足夠的實(shí)力。摩爾線程夸娥方案基于全功能MTT S4000 GPU,提供軟硬一體化的全棧解決方案,具備模型覆蓋、推理加速、CUDA兼容、斷點(diǎn)續(xù)訓(xùn)、分布式訓(xùn)練、集群可靠性等8大核心能力。

MTT S4000是摩爾線程推出的大模型智算加速卡,采用第三代MUSA內(nèi)核,單卡支持48GB顯存容量和768GB/s的顯存帶寬,F(xiàn)P16算力為100TFLOPS。借助摩爾線程自研開發(fā)工具,MTT S4000計(jì)算卡可以充分利用現(xiàn)有CUDA軟件生態(tài),實(shí)現(xiàn)CUDA代碼零成本遷移到MUSA平臺(tái)。

大模型訓(xùn)練用千卡集群搭建需要關(guān)注的重點(diǎn)

可以看到,國產(chǎn)千卡集群已經(jīng)取得實(shí)質(zhì)性突破,在性能上能夠達(dá)到國際先進(jìn)水平,在應(yīng)用上,已經(jīng)有多個(gè)大模型實(shí)訓(xùn)案例。同時(shí),國產(chǎn)企業(yè)也在積極構(gòu)建和完善生態(tài)系統(tǒng)。

事實(shí)上,用于大模型訓(xùn)練的千卡集群的搭建并不容易,需要注意多方面的事情。如基礎(chǔ)設(shè)施搭建方面,首先要考慮硬件的選擇,需要選擇高性能的GPU或TPU作為核心計(jì)算單元,才能夠提供必要的計(jì)算能力和加速訓(xùn)練過程。其次是網(wǎng)絡(luò)互聯(lián),構(gòu)建能夠支持萬卡級(jí)別高速互聯(lián)的智算集群,才能確保各個(gè)計(jì)算單元之間的數(shù)據(jù)傳輸效率和穩(wěn)定性。還有分布式存儲(chǔ),需要配置分布式存儲(chǔ)系統(tǒng),滿足大模型訓(xùn)練過程中大規(guī)模數(shù)據(jù)的存儲(chǔ)和訪問需求。

除了GPU的選擇,網(wǎng)絡(luò)互聯(lián)也是千卡集群建設(shè)需要關(guān)注的重點(diǎn)。大模型訓(xùn)練千卡集群互聯(lián)要求高,這樣能夠確保集群的高效、穩(wěn)定和可靠運(yùn)行。

具體來看,首先需要高帶寬與與低時(shí)延,大規(guī)模GPU集群中,模型訓(xùn)練對(duì)卡間互聯(lián)的帶寬和時(shí)延提出更高要求,特別是在萬億參數(shù)量模型中,網(wǎng)絡(luò)節(jié)點(diǎn)可能由百卡組建的“超節(jié)點(diǎn)”構(gòu)成,單次通信數(shù)據(jù)量雖小但通信頻繁,因此需要高帶寬支持以實(shí)現(xiàn)快速數(shù)據(jù)傳輸。低時(shí)延同樣重要,因?yàn)樵诖竽P陀?xùn)練中,任何延遲都可能影響訓(xùn)練效率。

其次需要高效互聯(lián)拓?fù)洌S著智算中心向千卡萬卡級(jí)別的全互聯(lián)方向演進(jìn),傳統(tǒng)的直連拓?fù)浣Y(jié)構(gòu)不再適用。集群需要采用更高效、更先進(jìn)的互聯(lián)拓?fù)浣Y(jié)構(gòu),如全向智感互聯(lián)(OISA)設(shè)計(jì)方案,以突破大規(guī)??ㄩg互聯(lián)的技術(shù)瓶頸。

再者還需要支持大規(guī)模擴(kuò)展,千卡集群的互聯(lián)方案需要支持從單機(jī)多卡到多機(jī)多卡、從單卡到千卡集群的無縫擴(kuò)展。這要求互聯(lián)方案具有良好的可擴(kuò)展性,能夠隨著集群規(guī)模的增長而靈活調(diào)整。

另外還要考慮穩(wěn)定性和可靠性、安全性、兼容性等。大模型訓(xùn)練千卡集群的互聯(lián)方案有多種,如RDMA(遠(yuǎn)程直接內(nèi)存訪問)網(wǎng)絡(luò),RDMA允許計(jì)算機(jī)之間的內(nèi)存直接訪問,無需操作系統(tǒng)CPU的干預(yù),從而大大降低了通信延遲,提高了數(shù)據(jù)傳輸速率。在千卡集群中,RDMA網(wǎng)絡(luò)可以確保節(jié)點(diǎn)間的高效數(shù)據(jù)傳輸,支持大規(guī)模的分布式訓(xùn)練任務(wù)。

NVLink高速互聯(lián),NVLink是NVIDIA開發(fā)的一種GPU間高速互聯(lián)技術(shù),專為GPU到GPU的通信而設(shè)計(jì)。它提供了比PCIe更高的帶寬和更低的延遲,適用于多GPU系統(tǒng)內(nèi)的數(shù)據(jù)共享和通信。在千卡集群中,可以使用NVLink連接GPU服務(wù)器,實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)部GPU間的高效互聯(lián)。

高性能交換機(jī)與網(wǎng)絡(luò)拓?fù)洌褂酶咝阅芙粨Q機(jī),如InfiniBand交換機(jī)或以太網(wǎng)交換機(jī),來構(gòu)建集群的網(wǎng)絡(luò)拓?fù)?。網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)需要考慮集群的規(guī)模和通信需求,以確保所有節(jié)點(diǎn)之間的低延遲和高帶寬連接??赡艿木W(wǎng)絡(luò)拓?fù)浒ㄈB接、部分連接或基于交換機(jī)的層次化結(jié)構(gòu)。

還有多路徑數(shù)據(jù)傳輸、全向智感互聯(lián)(OISA)設(shè)計(jì)方案等,OISA是一個(gè)新興的設(shè)計(jì)方案,旨在解決大規(guī)??ㄩg互聯(lián)的技術(shù)瓶頸。OISA通過優(yōu)化網(wǎng)絡(luò)協(xié)議和拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)了更高的帶寬、更低的延遲和更好的擴(kuò)展性。該方案適用于需要高效通信的大規(guī)模GPU集群。

寫在最后

千卡集群主要是用于處理大規(guī)模、高復(fù)雜度的計(jì)算任務(wù),特別是在人工智能(AI)、深度學(xué)習(xí)、大模型訓(xùn)練等領(lǐng)域。而此前這種集群的建設(shè)都依賴國外的GPU,而如今,可以看到,全國產(chǎn)的千卡集群正在不斷進(jìn)步和完善,在當(dāng)下國際GPU產(chǎn)品對(duì)中國限售的背景下,這對(duì)于國內(nèi)人工智能,尤其是大模型的長遠(yuǎn)發(fā)展具有深遠(yuǎn)意義。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4944

    瀏覽量

    131223
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35112

    瀏覽量

    279657
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3139

    瀏覽量

    4064
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    沐曦曦云C500通用計(jì)算GPU與百度飛槳完成Ⅱ級(jí)兼容性測(cè)試

    近日,沐曦曦云C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級(jí)兼容性測(cè)試。測(cè)試結(jié)果顯示,雙方兼容性表現(xiàn)
    的頭像 發(fā)表于 03-31 14:22 ?827次閱讀

    采集兼容性測(cè)試:確保穩(wěn)定可靠的視頻信號(hào)捕獲與處理

    兼容所有應(yīng)用場(chǎng)景。因此,進(jìn)行全面嚴(yán)謹(jǐn)?shù)牟杉?b class='flag-5'>卡兼容性測(cè)試,是確保其穩(wěn)定可靠運(yùn)行,并最終保障用戶體驗(yàn)的關(guān)鍵環(huán)節(jié)。本文將深入探討采集
    的頭像 發(fā)表于 03-11 17:24 ?525次閱讀
    采集<b class='flag-5'>卡</b><b class='flag-5'>兼容性</b><b class='flag-5'>測(cè)試</b>:確保<b class='flag-5'>穩(wěn)定</b>可靠的視頻信號(hào)捕獲與處理

    軍工EMC檢測(cè)測(cè)試整改:確保裝備穩(wěn)定的電磁兼容性

    深圳南柯電子|軍工EMC檢測(cè)測(cè)試整改:確保裝備穩(wěn)定的電磁兼容性
    的頭像 發(fā)表于 03-06 09:43 ?435次閱讀
    軍工EMC檢測(cè)<b class='flag-5'>測(cè)試</b>整改:確保裝備<b class='flag-5'>穩(wěn)定</b>的電磁<b class='flag-5'>兼容性</b>

    澎峰科技與沐曦完成聯(lián)合測(cè)試,實(shí)現(xiàn)全面兼容

    實(shí)現(xiàn)了全面兼容,為用戶提供了更為高效、穩(wěn)定的解決方案。 在測(cè)試過程中,澎峰科技與沐曦科技的技術(shù)團(tuán)隊(duì)緊密協(xié)作,對(duì)PerfXLM和PerfXCloud在曦云系列GPU上的運(yùn)行性能、
    的頭像 發(fā)表于 01-21 15:20 ?636次閱讀

    天數(shù)智芯與無問芯穹合作突破千卡集群訓(xùn)練優(yōu)化

    近日,天數(shù)智芯與無問芯穹宣布達(dá)成深度合作,并在千卡集群訓(xùn)練優(yōu)化領(lǐng)域取得了重大技術(shù)突破。這一合作基于天數(shù)智芯的天垓150卓越計(jì)算能力和無問芯穹自主研發(fā)的大模型
    的頭像 發(fā)表于 01-21 14:31 ?866次閱讀

    國產(chǎn)智算集群黑馬!曦源一號(hào)SADA算力集群綜合評(píng)測(cè)表現(xiàn)優(yōu)異

    近日,加佳科技曦源一號(hào)SADA算力集群項(xiàng)目一期順利通過工信部中國軟件評(píng)測(cè)中心權(quán)威評(píng)測(cè)認(rèn)證。本次測(cè)試涵蓋了項(xiàng)目一期已上線的1024張沐曦高性能GPU加速
    的頭像 發(fā)表于 12-25 11:16 ?872次閱讀
    <b class='flag-5'>國產(chǎn)</b>智算<b class='flag-5'>集群</b>黑馬!曦源一號(hào)SADA算力<b class='flag-5'>集群</b>綜合評(píng)測(cè)表現(xiàn)優(yōu)異

    Meta萬GPU集群穩(wěn)定性剖析與最佳實(shí)踐

    一、背景 本文中我們將具體介紹 Meta 對(duì)其萬 AI 集群穩(wěn)定性的剖析和刻畫,以及在其中遇到的各種挑戰(zhàn),并在其中補(bǔ)充了一些真實(shí)場(chǎng)景中遇到的 Case,便于理解。 對(duì)應(yīng)的論文為
    的頭像 發(fā)表于 12-17 09:51 ?2148次閱讀
    Meta萬<b class='flag-5'>卡</b><b class='flag-5'>GPU</b><b class='flag-5'>集群</b><b class='flag-5'>穩(wěn)定性</b>剖析與最佳實(shí)踐

    訓(xùn)練AI大模型需要什么樣的gpu

    訓(xùn)練AI大模型需要選擇具有強(qiáng)大計(jì)算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴(kuò)展性的GPU。在選擇時(shí),需要根據(jù)具體需求進(jìn)行權(quán)衡和選擇。
    的頭像 發(fā)表于 12-03 10:10 ?648次閱讀

    如何測(cè)試晶振的穩(wěn)定性

    以下是一些常用的方法來測(cè)試晶振的穩(wěn)定性。
    的頭像 發(fā)表于 11-29 16:41 ?1069次閱讀

    如何測(cè)試DDR內(nèi)存的穩(wěn)定性

    測(cè)試DDR內(nèi)存的穩(wěn)定性是確保計(jì)算機(jī)系統(tǒng)穩(wěn)定運(yùn)行的重要步驟。以下是一些常用的測(cè)試DDR內(nèi)存穩(wěn)定性的方法: 一、使用專業(yè)
    的頭像 發(fā)表于 11-29 15:01 ?2701次閱讀

    deepin社區(qū)與此芯科技完成產(chǎn)品兼容性認(rèn)證

    近日, deepin 23 正式版操作系統(tǒng)與此芯科技首款芯片此芯P1 完成兼容性測(cè)試認(rèn)證。測(cè)試結(jié)果表明,雙方產(chǎn)品在兼容性、性能及
    的頭像 發(fā)表于 11-28 16:06 ?605次閱讀

    性能提升近一倍!壁仞科技攜手無問芯穹,在千卡訓(xùn)練集群等領(lǐng)域取得技術(shù)新突破

    隨著智能算力需求的倍增,到2024年,千卡算力集群已成為國內(nèi)大模型訓(xùn)練的必備場(chǎng)景。壁仞科技,作為國內(nèi)少數(shù)擁有原創(chuàng)訓(xùn)推一體架構(gòu)的高端算力芯片廠商之一,與在AI算力市場(chǎng)具有重要影響力的無問
    發(fā)表于 11-05 18:45 ?1643次閱讀
    性能提升近一倍!壁仞科技攜手無問芯穹,在<b class='flag-5'>千卡</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>集群</b>等領(lǐng)域取得技術(shù)新突破

    Orin芯片的穩(wěn)定性測(cè)試

    在自動(dòng)駕駛技術(shù)迅速發(fā)展的今天,芯片的穩(wěn)定性和可靠成為了衡量其性能的重要指標(biāo)。NVIDIA的Orin芯片,作為自動(dòng)駕駛領(lǐng)域的一項(xiàng)突破產(chǎn)品,其穩(wěn)定性
    的頭像 發(fā)表于 10-27 16:56 ?1460次閱讀

    中國電信人工智能研究院完成首個(gè)全國產(chǎn)化萬萬參大模型訓(xùn)練

    近日,中國電信人工智能研究院宣布了一項(xiàng)重大技術(shù)突破:成功完成國內(nèi)首個(gè)基于全國產(chǎn)化萬集群訓(xùn)練的萬億參數(shù)大
    的頭像 發(fā)表于 09-30 16:41 ?2047次閱讀

    摩爾線程與羽人科技完成大語言模型訓(xùn)練測(cè)試

    (YuRen-7b)大語言模型訓(xùn)練測(cè)試。測(cè)試結(jié)果顯示,訓(xùn)練效率達(dá)到預(yù)期,夸娥千卡智算
    的頭像 發(fā)表于 08-27 16:19 ?821次閱讀