一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云原生是大模型“降本增效”的解藥嗎?

科技云報(bào)到 ? 來(lái)源:jf_60444065 ? 作者:jf_60444065 ? 2024-02-20 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

科技云報(bào)道原創(chuàng)。

在過(guò)去一兩年里,以GPT和Diffusion model為代表的大語(yǔ)言模型和生成式AI,將人們對(duì)AI的期待推向了一個(gè)新高峰,并吸引了千行百業(yè)嘗試在業(yè)務(wù)中利用大模型。

國(guó)內(nèi)各家大廠在大模型領(lǐng)域展開(kāi)了激烈的軍備競(jìng)賽,如:文心大模型、通義千問(wèn)、混元大模型、盤(pán)古大模型等等,這些超大規(guī)模的模型訓(xùn)練參數(shù)都在千億以上,有的甚至超過(guò)萬(wàn)億級(jí)。

即便訓(xùn)練一次千億參數(shù)量模型的成本可能就高達(dá)數(shù)百萬(wàn)美元,但大廠們依然拼盡全力,除此之外也有很多行業(yè)企業(yè)希望擁有自己的專(zhuān)屬大模型。

對(duì)于企業(yè)來(lái)說(shuō),要想在大模型的競(jìng)爭(zhēng)中勝出,就必須充分利用算力,并且構(gòu)建高效穩(wěn)定的服務(wù)運(yùn)行環(huán)境,這就對(duì)IT基礎(chǔ)設(shè)施能力提出了更高的要求。

而云原生正是比拼的重要一環(huán)。云原生技術(shù)的自動(dòng)化部署和管理、彈性伸縮等功能,能夠有效提高大模型應(yīng)用效率并降低成本。

據(jù)Gartner預(yù)測(cè),2023年70%的AI應(yīng)用會(huì)基于容器和Serverless技術(shù)開(kāi)發(fā)。在實(shí)際生產(chǎn)中,越來(lái)越多的AI業(yè)務(wù),比如自動(dòng)駕駛、NLP等,也正在轉(zhuǎn)向容器化部署。

那么,云原生是如何幫助大模型降本增效,在這個(gè)過(guò)程中又遇到了哪些挑戰(zhàn)?

云原生成為大模型的標(biāo)配

近年來(lái),容器和Kubernetes已經(jīng)成為越來(lái)越多AI應(yīng)用首選的運(yùn)行環(huán)境和平臺(tái)。

一方面,Kubernetes幫助用戶標(biāo)準(zhǔn)化異構(gòu)資源和運(yùn)行時(shí)環(huán)境、簡(jiǎn)化運(yùn)維流程;另一方面,AI這種重度依賴(lài)GPU的場(chǎng)景可以利用K8s的彈性?xún)?yōu)勢(shì)節(jié)省資源成本。

隨著大模型浪潮的到來(lái),以云原生環(huán)境運(yùn)行AI應(yīng)用正在變成一種事實(shí)標(biāo)準(zhǔn)。

彈性伸縮與資源管理

大模型訓(xùn)練往往需要大量的計(jì)算資源,而云原生環(huán)境通過(guò)容器化和編排工具可以實(shí)現(xiàn)資源的彈性調(diào)度與自動(dòng)擴(kuò)縮容。

這意味著在大模型訓(xùn)練過(guò)程中可以迅速獲取所需資源,并在任務(wù)完成后釋放資源,降低閑置成本。

分布式計(jì)算支持

云原生架構(gòu)天然支持分布式系統(tǒng),大模型訓(xùn)練過(guò)程中的并行計(jì)算需求可以通過(guò)云上的分布式集群輕松實(shí)現(xiàn),從而加速模型收斂速度。

微服務(wù)架構(gòu)與模塊化設(shè)計(jì)

大模型推理服務(wù)可以被分解為多個(gè)微服務(wù),比如預(yù)處理服務(wù)、模型加載服務(wù)和后處理服務(wù)等,這些服務(wù)能夠在云原生環(huán)境中獨(dú)立部署、升級(jí)和擴(kuò)展,提高系統(tǒng)的可維護(hù)性和迭代效率。

持續(xù)集成/持續(xù)部署(CI/CD)

云原生理念強(qiáng)調(diào)快速迭代和自動(dòng)化運(yùn)維,借助CI/CD流程,大模型的研發(fā)團(tuán)隊(duì)能夠以更高效的方式構(gòu)建、測(cè)試和部署模型版本,確保模型更新的敏捷性。

存儲(chǔ)與數(shù)據(jù)處理

云原生提供了多種數(shù)據(jù)持久化和臨時(shí)存儲(chǔ)解決方案,有助于解決大模型所需的大量數(shù)據(jù)讀取和寫(xiě)入問(wèn)題。

同時(shí),利用云上大數(shù)據(jù)處理和流式計(jì)算能力可以對(duì)大規(guī)模數(shù)據(jù)進(jìn)行有效預(yù)處理和后處理。

可觀測(cè)性和故障恢復(fù)

在云原生環(huán)境下,監(jiān)控、日志和追蹤功能完善,使得大模型服務(wù)的狀態(tài)更加透明,遇到問(wèn)題時(shí)能更快地定位和修復(fù),保證服務(wù)高可用性。

總體而言,云原生架構(gòu)的諸多優(yōu)勢(shì)契合了大模型在計(jì)算密集、數(shù)據(jù)驅(qū)動(dòng)、迭代頻繁等方面的需求,能夠?yàn)榇竽P蛶?lái)成本、性能、效率等多方面的價(jià)值,因而成為大模型發(fā)展的標(biāo)配。

大模型對(duì)云原生能力提出新挑戰(zhàn)

盡管云原生對(duì)于大模型有著天然的優(yōu)勢(shì),但是面對(duì)LLM、AIGC這樣的新領(lǐng)域,依然對(duì)云原生能力提出了更多挑戰(zhàn)。

在訓(xùn)練階段,大模型對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等基礎(chǔ)架構(gòu)的要求都更高。

規(guī)模上,要訓(xùn)練出具有廣泛知識(shí)和專(zhuān)業(yè)領(lǐng)域理解及推理能力的大語(yǔ)言模型,往往需要高達(dá)萬(wàn)卡級(jí)別的GPU集群和PB級(jí)的數(shù)據(jù)存儲(chǔ)以及TB級(jí)的數(shù)據(jù)吞吐。

此外,高性能網(wǎng)絡(luò)也將達(dá)到單機(jī)800Gbps甚至3.2Tbps的RDMA互聯(lián)。

性能方面,隨著模型體積和參數(shù)量的增長(zhǎng),單張顯卡已無(wú)法承載完整的模型。因此需要使用多張顯卡進(jìn)行分布式訓(xùn)練,并采用各種混合并行策略進(jìn)行加速。

這些策略包括數(shù)據(jù)并行、模型并行、流水線并行以及針對(duì)語(yǔ)言模型的序列并行等,以及各種復(fù)雜的組合策略。

在推理階段,大模型需要提供高效且穩(wěn)定的推理服務(wù),這需要不斷優(yōu)化其性能,并確保服務(wù)質(zhì)量(QoS)得到保證。

在此基礎(chǔ)上,最重要的目標(biāo)是提高資源效率和工程效率。一方面,持續(xù)提高資源利用效率,并通過(guò)彈性擴(kuò)展資源規(guī)模,以應(yīng)對(duì)突發(fā)的計(jì)算需求。

另一方面,要最優(yōu)化算法人員的工作效率,提高模型迭代速度和質(zhì)量。

由此可見(jiàn),大模型對(duì)云原生技術(shù)提出了新的能力要求:

一是,統(tǒng)一管理異構(gòu)資源,提升資源利用率。

從異構(gòu)資源管理的角度,對(duì)IaaS云服務(wù)或者IDC內(nèi)的各種異構(gòu)計(jì)算(如 CPU,GPU,NPU,VPU,FPGAASIC)、存儲(chǔ)(OSS,NAS, CPFS,HDFS)、網(wǎng)絡(luò)(TCP, RDMA)資源進(jìn)行抽象,統(tǒng)一管理、運(yùn)維和分配,通過(guò)彈性和軟硬協(xié)同優(yōu)化,持續(xù)提升資源利用率。

在運(yùn)維過(guò)程中,需要多維度的異構(gòu)資源可觀測(cè)性,包括監(jiān)控、健康檢查、告警、自愈等自動(dòng)化運(yùn)維能力。

對(duì)于寶貴的計(jì)算資源,如GPU和NPU等加速器,需要通過(guò)各種調(diào)度、隔離和共享的方法,最大限度地提高其利用率。

在此過(guò)程中,還需要持續(xù)利用云資源的彈性特征,持續(xù)提高資源的交付和使用效率。

二是,通過(guò)統(tǒng)一工作流和調(diào)度,實(shí)現(xiàn) AI、大數(shù)據(jù)等多類(lèi)復(fù)雜任務(wù)的高效管理。

對(duì)于大規(guī)模分布式AI任務(wù),需要提供豐富的任務(wù)調(diào)度策略,如Gang scheduling、Capacity scheduling、Topology aware scheduling、優(yōu)先級(jí)隊(duì)列等,并使用工作流或數(shù)據(jù)流的方式串聯(lián)起整個(gè)任務(wù)流水線。

同時(shí),需兼容Tensorflow,Pytorch,Horovod,ONNX,Spark,F(xiàn)link等各種計(jì)算引擎和運(yùn)行時(shí),統(tǒng)一運(yùn)行各類(lèi)異構(gòu)工作負(fù)載流程,統(tǒng)一管理作業(yè)生命周期,統(tǒng)一調(diào)度任務(wù)工作流,保證任務(wù)規(guī)模和性能。

一方面不斷提升運(yùn)行任務(wù)的性?xún)r(jià)比,另一方面持續(xù)改善開(kāi)發(fā)運(yùn)維體驗(yàn)和工程效率。

此外,在計(jì)算框架與算法層面適配資源彈性能力,提供彈性訓(xùn)練和彈性推理服務(wù),優(yōu)化任務(wù)整體運(yùn)行成本。

除了計(jì)算任務(wù)優(yōu)化,還應(yīng)關(guān)注數(shù)據(jù)使用效率的優(yōu)化。為此,需要統(tǒng)一的數(shù)據(jù)集管理、模型管理和訪問(wèn)性能優(yōu)化等功能,并通過(guò)標(biāo)準(zhǔn)API和開(kāi)放式架構(gòu)使其易于被業(yè)務(wù)應(yīng)用程序集成。

對(duì)于大模型還有一個(gè)主要能力,就是能夠在分鐘級(jí)內(nèi)準(zhǔn)備好開(kāi)發(fā)環(huán)境和集群測(cè)試環(huán)境,幫助算法工程師開(kāi)始執(zhí)行深度學(xué)習(xí)任務(wù)。

把端到端的 AI 生產(chǎn)過(guò)程通過(guò)相同的編程模型、運(yùn)維方式進(jìn)行交付。

結(jié)語(yǔ)

隨著大模型等AI技術(shù)的不斷發(fā)展,云原生技術(shù)將面臨一些新的挑戰(zhàn)和需求。例如,如何快速適應(yīng)新的開(kāi)源大模型訓(xùn)練方法,以及如何提高大模型推理性能并確保其質(zhì)量和穩(wěn)定性。

同時(shí),也需要關(guān)注一些前沿技術(shù)和創(chuàng)新能力,通過(guò)標(biāo)準(zhǔn)化和可編程的方式來(lái)集成,不斷迭代業(yè)務(wù)應(yīng)用,形成 AI+ 或 LLM+ 的新應(yīng)用開(kāi)發(fā)模式和編程模型。

但無(wú)論技術(shù)如何發(fā)展,為大模型提供快速、準(zhǔn)確、穩(wěn)定且成本可控的服務(wù),保證大模型訓(xùn)練和推理的成本、性能和效率,都將成為企業(yè)為其價(jià)值買(mǎi)單的根本。

【關(guān)于科技云報(bào)道】

專(zhuān)注于原創(chuàng)的企業(yè)級(jí)內(nèi)容行家——科技云報(bào)道。成立于2015年,是前沿企業(yè)級(jí)IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可,可信云、全球云計(jì)算大會(huì)官方指定傳播媒體之一。深入原創(chuàng)報(bào)道云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279947
  • 云原生
    +關(guān)注

    關(guān)注

    0

    文章

    261

    瀏覽量

    8275
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3146

    瀏覽量

    4071
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    IBM探索AI驅(qū)動(dòng)的降本增效新路徑

    AI 驅(qū)動(dòng)已成為企業(yè)降本增效的戰(zhàn)略級(jí)引擎,其價(jià)值實(shí)現(xiàn)不在于技術(shù)本身,而在于與業(yè)務(wù)場(chǎng)景的深度融合。IBM 咨詢(xún)提出的"戰(zhàn)略規(guī)劃+運(yùn)營(yíng)管理"雙軌并行模式,突破傳統(tǒng)單點(diǎn)優(yōu)化的局限,構(gòu)建
    的頭像 發(fā)表于 05-22 15:29 ?352次閱讀

    福田歐曼銀河5助力物流運(yùn)輸行業(yè)降本增效

    在物流運(yùn)輸行業(yè)競(jìng)爭(zhēng)日趨白熱化的當(dāng)下,每一分成本削減與效率提升都直接關(guān)乎用戶的生存空間,而運(yùn)輸效率與運(yùn)營(yíng)效益已成為檢驗(yàn)重卡性能的核心指標(biāo)。面對(duì)行業(yè)降本增效的迫切需求,歐曼銀河5精準(zhǔn)錨定用戶痛點(diǎn),從動(dòng)
    的頭像 發(fā)表于 05-20 09:23 ?419次閱讀

    PLC遠(yuǎn)程維護(hù)上下載,降本增效減少出差的利器

    PLC(可編程邏輯控制器)遠(yuǎn)程維護(hù)上下載技術(shù)已成為現(xiàn)代工業(yè)領(lǐng)域降本增效、減少出差的核心工具,尤其在工業(yè)4.0與物聯(lián)網(wǎng)技術(shù)推動(dòng)下,價(jià)值愈發(fā)凸顯。對(duì)此,數(shù)之能提供PLC遠(yuǎn)程編程調(diào)試和遠(yuǎn)程上下載程序等
    的頭像 發(fā)表于 05-19 11:17 ?202次閱讀
    PLC遠(yuǎn)程維護(hù)上下載,<b class='flag-5'>降本增效</b>減少出差的利器

    云原生AI服務(wù)怎么樣

    云原生AI服務(wù),是指采用云原生的原則和技術(shù)來(lái)構(gòu)建、部署和管理人工智能應(yīng)用及工作負(fù)載的方法和模式。那么,云原生AI服務(wù)怎么樣呢?下面,AI部落小編帶您了解。
    的頭像 發(fā)表于 01-23 10:47 ?460次閱讀

    云原生LLMOps平臺(tái)作用

    云原生LLMOps平臺(tái)是一種基于云計(jì)算基礎(chǔ)設(shè)施和開(kāi)發(fā)工具,專(zhuān)門(mén)用于構(gòu)建、部署和管理大型語(yǔ)言模型(LLM)全生命周期的平臺(tái)。以下,是對(duì)云原生LLMOps平臺(tái)作用的梳理,由AI部落小編整理。
    的頭像 發(fā)表于 01-06 10:21 ?461次閱讀

    如何選擇云原生機(jī)器學(xué)習(xí)平臺(tái)

    當(dāng)今,云原生機(jī)器學(xué)習(xí)平臺(tái)因其彈性擴(kuò)展、高效部署、低成本運(yùn)營(yíng)等優(yōu)勢(shì),逐漸成為企業(yè)構(gòu)建和部署機(jī)器學(xué)習(xí)應(yīng)用的首選。然而,市場(chǎng)上的云原生機(jī)器學(xué)習(xí)平臺(tái)種類(lèi)繁多,功能各異,如何選擇云原生機(jī)器學(xué)習(xí)平臺(tái)呢?下面,AI部落小編帶您探討。
    的頭像 發(fā)表于 12-25 11:54 ?457次閱讀

    什么是云原生MLOps平臺(tái)

    云原生MLOps平臺(tái),是指利用云計(jì)算的基礎(chǔ)設(shè)施和開(kāi)發(fā)工具,來(lái)構(gòu)建、部署和管理機(jī)器學(xué)習(xí)模型的全生命周期的平臺(tái)。以下,是對(duì)云原生MLOps平臺(tái)的介紹,由AI部落小編整理。
    的頭像 發(fā)表于 12-12 13:13 ?527次閱讀

    戴爾科技助力企業(yè)實(shí)現(xiàn)科學(xué)的降本增效

    降本增效作為一個(gè)老生常談的話題,盡管在多年的實(shí)踐中各種策略和方法層出不窮,但真正實(shí)現(xiàn)成本削減和效率提升的路徑依然不明確,一不小心就變成了“降本降效”。
    的頭像 發(fā)表于 10-29 15:19 ?733次閱讀

    云原生和非云原生哪個(gè)好?六大區(qū)別詳細(xì)對(duì)比

    云原生和非云原生各有優(yōu)劣,具體選擇取決于應(yīng)用場(chǎng)景。云原生利用云計(jì)算的優(yōu)勢(shì),通過(guò)微服務(wù)、容器化和自動(dòng)化運(yùn)維等技術(shù),提高了應(yīng)用的可擴(kuò)展性、更新速度和成本效益。非云原生則可能更適合對(duì)延遲敏感
    的頭像 發(fā)表于 09-13 09:53 ?773次閱讀

    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站降本增效

    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站降本增效 隨著光伏行業(yè)的不斷發(fā)展,光伏運(yùn)維的重要性日益提升,因此公眾智能監(jiān)測(cè)結(jié)合相關(guān)的計(jì)算機(jī)技術(shù)和數(shù)據(jù)處理技術(shù),自主研發(fā)了光伏電站智慧運(yùn)維系統(tǒng),該系
    的頭像 發(fā)表于 09-06 16:50 ?889次閱讀
    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站<b class='flag-5'>降本增效</b>

    市場(chǎng)解讀 對(duì)話展商 磁元件峰會(huì)揭秘新能源降本增效秘籍

    現(xiàn)場(chǎng)對(duì)話華東磁性元件產(chǎn)業(yè)鏈峰會(huì)展商,揭秘高性能材料與智能化設(shè)備如何攜手并進(jìn),為新能源產(chǎn)業(yè)注入強(qiáng)勁動(dòng)力,實(shí)現(xiàn)降本增效的綠色新篇章! 隨著科技的進(jìn)步,磁性元件行業(yè)正加速向高性能材料創(chuàng)新與智能化生產(chǎn)方向
    的頭像 發(fā)表于 08-06 13:44 ?599次閱讀
    市場(chǎng)解讀 對(duì)話展商 磁元件峰會(huì)揭秘新能源<b class='flag-5'>降本增效</b>秘籍

    京東云原生安全產(chǎn)品重磅發(fā)布

    “安全產(chǎn)品那么多,我怎么知道防住了?”“大家都說(shuō)自己是云原生的,我看都是換湯不換藥”在與客戶溝通云原生安全方案的時(shí)候,經(jīng)常會(huì)遇到這樣的吐槽。越來(lái)越的客戶已經(jīng)開(kāi)始了云原生化的技術(shù)架構(gòu)改造,也意識(shí)到
    的頭像 發(fā)表于 07-26 10:36 ?781次閱讀
    京東<b class='flag-5'>云原生</b>安全產(chǎn)品重磅發(fā)布

    從積木式到裝配式云原生安全

    云原生安全風(fēng)險(xiǎn) 隨著云原生架構(gòu)的快速發(fā)展,核心能力逐漸穩(wěn)定,安全問(wèn)題日趨緊急。在云原生安全領(lǐng)域不但有新技術(shù)帶來(lái)的新風(fēng)險(xiǎn),傳統(tǒng)IT基礎(chǔ)設(shè)施下的安全威脅也依然存在。要想做好云原生安全,就要
    的頭像 發(fā)表于 07-26 10:35 ?551次閱讀
    從積木式到裝配式<b class='flag-5'>云原生</b>安全

    AR眼鏡:醫(yī)藥廠商降本增效新利器

    在快速迭代的醫(yī)藥行業(yè)中,每一分效率的提升都意味著更多的機(jī)遇與成本節(jié)約。面對(duì)復(fù)雜多變的市場(chǎng)環(huán)境,特別是疫情帶來(lái)的挑戰(zhàn),醫(yī)藥廠商們正積極尋求創(chuàng)新與突破。讓我們一同探索AR眼鏡如何成為醫(yī)藥廠商降本增效的得力
    的頭像 發(fā)表于 07-23 13:39 ?615次閱讀

    直線電機(jī)模組:米思米如何以“磁”之力,引領(lǐng)降本增效新風(fēng)尚?

    在“降本增效”成為企業(yè)共識(shí)的今天,米思米直線電機(jī)模組以其獨(dú)特的磁力驅(qū)動(dòng)技術(shù)、優(yōu)化的結(jié)構(gòu)設(shè)計(jì)以及高性?xún)r(jià)比優(yōu)勢(shì)脫穎而出成為了眾多企業(yè)的首選。
    的頭像 發(fā)表于 07-23 11:16 ?675次閱讀