青青草视频无码在线观看,中日韩免费中文字幕一级毛片

電子發(fā)燒友網(wǎng)報道（文/李彎彎）萬卡集群是指由一萬張及以上的加速卡（包括GPU、TPU及其他專用AI加速芯片）組成的高性能計算系統(tǒng)，主要用于加速人工智能模型的訓練和推理過程。這種集群的構(gòu)建旨在解決大模型訓練對算力需求的巨大增長問題，尤其是現(xiàn)在模型參數(shù)量從百億級、千億級邁向萬億級。

國內(nèi)外企業(yè)積極構(gòu)建萬卡集群

目前，在國際上，包括微軟、Google、Meta等AI領域的巨頭，都已落子超萬卡集群的項目部署。如Meta于2022年推出了擁有16000張算卡的超級集群中心；Google于2023年推出了一個擁有2.6萬張算卡的Compute Engine A3；而持有OpenAI的微軟更是傳出正在進行百萬規(guī)模算卡集群的籌建。

不只是國際廠商，國內(nèi)廠商也在此前大量采購GPU推進萬卡集群建設。尤其在今年以來，三大運營商也相繼公布了對超萬卡集群的部署。

近日，在中國移動算力網(wǎng)絡大會上，中國移動副總經(jīng)理高同慶宣布，今年將商用哈爾濱、呼和浩特、貴陽的三個萬卡集群，總規(guī)模近6萬張GPU卡，充分滿足大模型集中訓練的需求。

今年1月，中國電信宣布將在上海規(guī)劃建設1.5萬張卡規(guī)模的算力集群，其總算力超4500P，這也將是國內(nèi)首個超大規(guī)模國產(chǎn)算力液冷集群。中國聯(lián)通表示，在今年內(nèi)將在上海臨港國際云數(shù)據(jù)中心，建成中國聯(lián)通首個萬卡集群。

除了運營商之外，2023年，螞蟻集團宣布已建成萬卡異構(gòu)算力集群。此外，包括字節(jié)跳動、阿里、百度、華為及科大訊飛等在內(nèi)的互聯(lián)網(wǎng)和AI頭部企業(yè)均在發(fā)力萬卡集群的建設。

另外，今年5月20日，網(wǎng)宿科技與航錦科技正式簽署戰(zhàn)略合作協(xié)議，雙方圍繞NVIDIA最新一代萬卡集群（L20 cluster AIDC）項目建立戰(zhàn)略合作關系，共同開展智算中心建設、相關技術研發(fā)、市場拓展等工作，旨在打造高效、智能、綠色的算力基礎設施，承載千行百業(yè)的大模型訓練及推理需求。

網(wǎng)宿科技是全球領先的信息基礎設施平臺服務提供商，專注于邊緣計算、云分發(fā)、云安全、云計算、云服務及綠色數(shù)據(jù)中心業(yè)務。航錦科技是由武漢市國資委控股的上市企業(yè)，控股子公司超擎數(shù)智作為AI算力和網(wǎng)絡整體解決方案提供商，是NVIDIA Compute（GPU）、Networking（網(wǎng)絡）的雙Elite精英級合作伙伴。

構(gòu)建萬卡集群面臨的挑戰(zhàn)

萬卡集群的建設和維護面臨諸多挑戰(zhàn)，首先是GPU的供應，由于全球超萬卡集群的建設都處于起步階段，部署模式都以英偉達GPU及配套設備為主。目前國內(nèi)在獲得英偉達旗艦高性能GPU方面受限，同時，國產(chǎn)AI芯片相比于英偉達GPU在性能上存在一定差距。

其次，在大模型場景下，算力需要大規(guī)模集中式訓練，單個GPU無法完全容納整個模型訓練，需要采用分布式訓練。這會帶來GPU之間互聯(lián)帶寬受限或AI服務器之間網(wǎng)絡互聯(lián)帶寬有限的問題。此外，卡數(shù)量增多后，過熱、故障也會一定比例出現(xiàn)，模型訓練成本會增加。

當然，目前各企業(yè)正在積極解決這些問題。如越來越多國產(chǎn)的AI芯片已經(jīng)開始在集群的建設中得到使用，包括華為、海光、寒武紀、摩爾線程等公司。

如為了支撐千卡乃至超萬卡的大規(guī)模算力集群，摩爾線程于2023年推出了首個國內(nèi)產(chǎn)千卡千億模型訓練平臺——夸娥智算集群，該模型深度參與中國移動大模型訓練與推理環(huán)節(jié)，可以為大模型訓練提供穩(wěn)定、高效、高兼容的算力支撐。

摩爾線程相關負責人此前談到，百卡或更小規(guī)模都是實驗性的，千卡才是大集群的基本單元，只有千卡及以上才能滿足一些基礎模型的算力需求，這也是推出夸娥智算集群的目標設定。

另外，浪潮信息董事長彭震日前談到，芯片算力并非是AI發(fā)展不起來的直接原因，更多的其實是系統(tǒng)問題。他認為，對于服務器廠商而言，當前已經(jīng)不能再局限于提供單一硬件產(chǎn)品，而是要綜合性解決方案，這些解決方案可能包括服務器、存儲、網(wǎng)絡、安全等方面。

浪潮信息希望從算力層提供一個平臺，支撐多元算力入駐。對于芯片企業(yè)而言，只需要專注在芯片本身而不需要研究互聯(lián)帶寬問題。

據(jù)了解，目前不少服務器廠商也在學習英偉達的NVlink，NVlink提供一種高效可擴展的芯片通信間協(xié)議，允許所有GPU同時全速實時通信，就好像整個系統(tǒng)是單個GPU一樣。在今年4月的GTC大會上，英偉達還宣布NVlink更新到第五代，包括可擴展至576個GPU，能夠解決萬億參數(shù)混合專家模型通信瓶頸。

新華三集團高級副總裁、云與計算存儲產(chǎn)品線總裁徐潤安此前也談到算力互聯(lián)。在他看來，過去，大家的目標可能是做更強算力的單顆芯片，現(xiàn)在會從另一個角度努力，怎樣將芯片做成更大集群，同時使得集群的通信效果更高，集群的處理能力更強。

新華三希望做更加開放的平臺，做上游GPU廠商合作伙伴的最佳選擇，利用自身網(wǎng)絡優(yōu)勢，對網(wǎng)絡通信的理解，幫助更多GPU廠商，將算力互聯(lián)互通實現(xiàn)得更好。新華三提供的科學計算算力調(diào)度平臺傲飛3.0，實現(xiàn)了跨集群統(tǒng)一管理，將訓練任務進行切分，將合適的子任務放在合適的近端或遠端模塊集群實現(xiàn)。

寫在最后

當前，萬卡集群式應對大模型背景下算力需求的重要解決方案之一，對于推動人工智能技術的發(fā)展和應用具有重要意義?？梢钥吹?，國內(nèi)外都在積極推進萬卡集群的建設。然而，在國內(nèi)，萬卡集群的建設并不容易，首先是AI芯片性能及軟件生態(tài)存在差距，其次是萬卡集群建設存在芯片間、卡之間、集群間的互聯(lián)問題，這些都還需要持續(xù)去解決。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算力

算力

+關注

關注
2

文章
1201

瀏覽量
15658
大模型

大模型

+關注

關注
2

文章
3146

瀏覽量
4075

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

萬卡集群解決大模型訓算力需求，建設面臨哪些挑戰(zhàn)

評論

搜索歷史

萬卡集群解決大模型訓算力需求，建設面臨哪些挑戰(zhàn)

評論

萬卡集群解決大模型訓算力需求，建設面臨哪些挑戰(zhàn)