工業(yè)和信息化部高新技術司近日公布2024年未來產業(yè)創(chuàng)新發(fā)展優(yōu)秀典型案例申報成果,壁仞科技作為牽頭單位,聯(lián)合上海儀電、中興通訊申報的 “軟硬一體異構協(xié)同的國產GPU智算集群解決方案”,成功入選工信部未來產業(yè)創(chuàng)新發(fā)展“標志性產品”優(yōu)秀典型案例。壁仞科技是“未來信息”方向“標志性產品”類別唯一芯片設計企業(yè)及上海市唯一上榜企業(yè),充分體現(xiàn)了壁仞科技在人工智能芯片和智算集群領域的技術創(chuàng)新和產品實力。
創(chuàng)新標志性產品“超大規(guī)模新型智算中心”方向唯一上榜企業(yè)
為落實工業(yè)和信息化部等七部門《關于推動未來產業(yè)創(chuàng)新發(fā)展的實施意見》的部署要求,充分發(fā)揮標桿和樣板的示范引領作用,加快推動標志性產品打造、高水平產業(yè)主體培育和應用場景建設,工業(yè)和信息化部高新技術司組織開展了2024年未來產業(yè)創(chuàng)新發(fā)展優(yōu)秀典型案例征集工作。案例征集工作聚焦未來制造、未來信息、未來材料、未來能源、未來空間、未來健康等六大方向,面向全國征集遴選標志性產品、領軍企業(yè)和典型應用場景三類典型案例。其中,標志性產品的定義為“代表未來產業(yè)發(fā)展方向,且已實現(xiàn)產業(yè)化,能切實體現(xiàn)前沿技術突破并具有良好應用前景的產品”。
在十大創(chuàng)新標志性產品方向中,“超大規(guī)模新型智算中心”旨在加快突破GPU芯片、集群低時延互連網絡、異構資源管理等技術,建設超大規(guī)模智算中心,滿足大模型迭代訓練和應用推理需求。壁仞科技自主創(chuàng)新研發(fā)的“軟硬一體異構協(xié)同的國產GPU智算集群解決方案”成為該方向唯一上榜產品。
六項核心技術創(chuàng)新成果,突破大規(guī)模智算集群及異構算力孤島難題
大模型參數從千億擴展到萬億,訓練資源從千卡需要擴展到萬卡甚至十萬卡的集群。DeepSeek引爆了大模型的落地應用,推理資源需求激增。但高端算力供應緊張、國產芯片百花齊放、智算中心擴容混建,形成大量異構算力孤島,智算集群的資源利用效率和靈活性存在很大挑戰(zhàn)。
本案例基于壁仞科技國產高性能GPU打造了軟硬一體、全棧優(yōu)化、異構協(xié)同、自主可控的智算集群解決方案,實現(xiàn)智算集群資源的高效利用及異構協(xié)同,支持大模型快速發(fā)展。本案例堅持自主創(chuàng)新,整體方案覆蓋高性能集群、大模型訓練一體平臺、加速庫、基礎框架、超大模型框架、算法/應用等六個層次,取得六項業(yè)界首創(chuàng)成果:
1)業(yè)界首創(chuàng)利用Chiplet架構實現(xiàn)大算力GPU;
2)國內第一次實現(xiàn)GPU跨節(jié)點光互連技術驗證并實現(xiàn)商用落地;
3)業(yè)界首創(chuàng)大模型3D并行彈性訓練,通過訓推一體平臺實現(xiàn)集群高效調度利用;
4)業(yè)界首創(chuàng)三級異步Checkpoint,實現(xiàn)低開銷、高可靠斷點續(xù)訓;
5)業(yè)界首創(chuàng)異步Offload技術,突破大模型訓練的顯存瓶頸;
6)業(yè)界首次支持4種及以上不同廠商不同型號的GPU混合訓練同一個大模型,實現(xiàn)數千卡規(guī)?;煊?,突破大模型異構算力孤島難題。
商業(yè)化落地加速,技術迭代持續(xù)領跑
本案例方案已經在多個大規(guī)模智算集群落地應用,通過應用落地和生態(tài)、標準建設持續(xù)打磨技術,技術持續(xù)升級滿足客戶新興重要需求,形成良性循環(huán)。目前,壁仞科技壁礪系列通用GPU產品已經在中國電信落地千卡集群并開展商業(yè)化落地應用,千卡集群、千億參數模型訓練線性加速比超過95%,多次運行l(wèi)oss零誤差持續(xù)收斂,連續(xù)訓練30天不中斷,連續(xù)訓練5天無故障,千卡集群千億參數斷點續(xù)訓時間小于5分鐘,滿足大模型訓練的性能、精度、穩(wěn)定性要求。壁仞科技自主研發(fā)了BIRENLINK高速互連技術,原生支持跨節(jié)點的多機高速光互連通信,業(yè)內首次完成技術可行性驗證,之后聯(lián)合上海儀電旗下上海智能算力科技有限公司設計并建設了首批國產大規(guī)模光互連集群,實現(xiàn)了國產光互連集群的技術突破。
為解決大模型異構算力孤島難題,壁仞科技自主研發(fā)了異構GPU協(xié)同訓練方案HGCT,業(yè)界首次支持四種異構GPU混合訓練同一個大模型,完成數千卡混訓落地,實現(xiàn)了異構算力的有效聚合,將逐步實現(xiàn)萬卡異構集群?;贖GCT方案,壁仞已聯(lián)合中國移動發(fā)布“芯合”異構混合并行訓練系統(tǒng),聯(lián)合中國電信、中興通訊等發(fā)布“智算異構四芯混訓解決方案”,牽頭推動智算集群異構混訓標準建設工作,實現(xiàn)技術創(chuàng)新、落地應用、標準制定的有機結合。
躋身新質生產力標桿,共建開放智算生態(tài)
憑借技術創(chuàng)新與商用落地能力,壁仞科技的超大規(guī)模智算集群解決方案近期榮登「2024新質生產力產業(yè)實踐“人工智能”示范案例」TOP5。未來,壁仞科技將攜手合作伙伴,以基礎軟件棧為核心,構建開放融合的智算生態(tài),推動國產算力從“可用”向“好用”躍遷,支撐更大參數規(guī)模模型、更大規(guī)模異構集群及多業(yè)務場景融合,為中國算力強國戰(zhàn)略提供堅實底座。
-
gpu
+關注
關注
28文章
4946瀏覽量
131233 -
人工智能
+關注
關注
1806文章
49018瀏覽量
249466 -
壁仞科技
+關注
關注
1文章
67瀏覽量
3175 -
大模型
+關注
關注
2文章
3143瀏覽量
4067
原文標題:壁仞科技入選工信部2024年未來產業(yè)創(chuàng)新發(fā)展“標志性產品”優(yōu)秀典型案例
文章出處:【微信號:Birentech,微信公眾號:壁仞科技Birentech】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
評論