一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型訓(xùn)練和部署的關(guān)鍵技術(shù)

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-05-30 13:56 ? 次閱讀

電子發(fā)燒友網(wǎng)報道(文/李彎彎)ChatGPT的出現(xiàn)讓大模型迅速出圈,事實上,在過去這些年中,模型規(guī)模在快速提升。數(shù)據(jù)顯示,自2016年至今,模型大小每18個月增長40倍,自2019年到現(xiàn)在,更是每18個月增長340倍。

然而相比之下,硬件增長速度較慢,自2016年至今,GPU的性能增長每18個月1.7倍,模型大小和硬件增長的差距逐漸擴大。顯存占用大、算力消費大、成本高昂等瓶頸嚴重阻礙AIGC行業(yè)的快速發(fā)展。在此背景下,潞晨科技創(chuàng)始人尤洋認為,分布式訓(xùn)練勢在必行。

圖:潞晨科技創(chuàng)始人尤洋演講


基礎(chǔ)大模型結(jié)構(gòu)為模型訓(xùn)練提供了基礎(chǔ)架構(gòu)

其一、Google首創(chuàng)的Transformer大模型,是現(xiàn)在所有大模型最基礎(chǔ)的架構(gòu)?,F(xiàn)在Transformer已經(jīng)成為除了MLP、CNN、RNN以外第四種最重要的深度學(xué)習(xí)算法架構(gòu)。

其二、Google發(fā)布的首個預(yù)大模型BERT,從而引爆了預(yù)練大橫型的潮流和的勢,BERT強調(diào)了不再像以往一樣采用傳統(tǒng)的單向語言模型或者把兩個單向語言橫型進行淺層拼接的方法進行預(yù)認訓(xùn)練,而是采用新的masked language model(MLM),以致能生成深度的雙向語言表征。

其三、ViT Google提出的首個使用Transformert的視覺大模型,ViT作為視覺轉(zhuǎn)換器的使用,而不是CNN威混合方法來執(zhí)行圖像任務(wù),作者假設(shè)進一步的預(yù)認訓(xùn)練可以提高性能,因為與其他現(xiàn)有技術(shù)模型相比,ViT具有相對可擴展性。

其四、Google將Transformer中的Feedforward Network(FFN)層替換成了MoE層,并且將MoE層和數(shù)據(jù)并行巧妙地結(jié)合起來,在數(shù)據(jù)并行訓(xùn)練時,模型在訓(xùn)練集群中已經(jīng)被復(fù)制了若干份,通過在多路數(shù)據(jù)并行中引入Al-to-Al通信來實現(xiàn)MoE的功能。

在這些基礎(chǔ)大模型結(jié)構(gòu)之上,過去這些年,在大模型的發(fā)展歷程中,出現(xiàn)了幾個具有里程碑意義性的大模型包括GPT-3、T5、Swin Transformer、Switch Transformer。

GPT-3:OpenAI發(fā)布的首個百億規(guī)模的大模型,應(yīng)該非常具有開創(chuàng)性意義,現(xiàn)在的大模型都是對標GPT-3,GPT-3依舊延續(xù)自己的單向語言模型認訓(xùn)練方式,只不過這次把模型尺寸增大到了1750億,并且使用45TB數(shù)據(jù)進行訓(xùn)練。

T5(Text-To-Text Transfer Transformer):Google T5將所有NLP任務(wù)都轉(zhuǎn)化成Text-to-Text(文本到文本)任務(wù)。它最重要作用給整個NLP預(yù)訓(xùn)型領(lǐng)城提供了一個通用框架,把所有任務(wù)都轉(zhuǎn)化成一種形式。

Swin Transformer:微軟亞研提出的Swin Transformer的新型視覺Transformer,它可以用作計算機視的通用backbone。在個領(lǐng)域之同的差異,例如視覺實體尺度的巨大差異以及與文字中的單詞相比,圖像中像素的高分率,帶來了使Transformer從語言適應(yīng)視覺方面的挑戰(zhàn)。

超過萬億規(guī)模的稀疏大模型Switch Transformer:能夠訓(xùn)練包含超過一萬億個參數(shù)的語言模型的技術(shù),直接將參數(shù)量從GPT-3的1750億拉高到1.6萬億,其速度是Google以前開發(fā)的語言模型T5-XXL的4倍。

另外,更具里程碑意義的大模型,在Pathways上實現(xiàn)的大預(yù)言模型PaLM。

分布式框架Pathways:Pathways的很多重要思想來源于現(xiàn)有系統(tǒng),包括用于表達和執(zhí)行TPU計算的XLA、用于表征和執(zhí)行分布式CPU計算的TensorFlow圖和執(zhí)行器、基于Python編程框架的JAX以及TensorFlowAPL,通過有效地使用這些模塊,Pathways不需要對現(xiàn)有橫型進行很多改動就能運行。

PaLM模型:PaLM吸引人眼球的是該模型具有5400億參數(shù)以及果用新一代AI框架Pathways訓(xùn)練。模型結(jié)構(gòu)也給出了很多方面優(yōu)化,這些技術(shù)優(yōu)化工作汲取了現(xiàn)有突出的研究成果,具體包括SwiGLU激活函數(shù)代替ReLU、層并行技術(shù)(Parallel Layers)、多查詢注意力(Multi-Query Attention),旋轉(zhuǎn)位置編碼(RoPE)、共享輸入和輸出詞嵌入、去掉偏置參數(shù)(No Biases)等。


PaLM模型也是通過堆疊Transformer中的Decoder部分而成,該模型具有5400億參數(shù)以及采用新一代AI框架Pathways訓(xùn)練。

大規(guī)模分布式訓(xùn)練當(dāng)前主要技術(shù)路線

大規(guī)模分布式訓(xùn)練當(dāng)前主要技術(shù)路線——并行訓(xùn)練技術(shù)。分布式訓(xùn)練并行技術(shù)即通過在訓(xùn)練過程中使用GPU集群(多機多卡)來提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。

數(shù)據(jù)并行:相同的設(shè)置和模型被復(fù)制多份,每份每次都被饋送不同的一份數(shù)據(jù),處理是并行完成的,所有份在每個訓(xùn)練步結(jié)束時同步。

張量并行:每個張量都被分成多個塊,因此張量的每個分片都位于其指定的GPU上,在處理過程中,每個分片在不同的GPU上分別并行處理,結(jié)果在步驟結(jié)束時同步。

流水線并行:模型在多個GPU上垂直(即按量)拆分,因此只有一個或多個模型層放置在單個GPU上,每個GPU并行處理流水線的不同階段,并處理batch的一部分數(shù)據(jù)。


潞晨科技成立于2021年,是一家致力于“解放AI生產(chǎn)力”的全球性公司。主要業(yè)務(wù)是通過打造分布式AI開發(fā)和部署平臺,幫助企業(yè)降低大模型的落地成本,提升訓(xùn)練、推理效率。

潞晨開源的智能系統(tǒng)架構(gòu)Colossal-AI技術(shù),有兩大特性:一是最小化部署成本,Colossal-AI 可以顯著提高大規(guī)模AI模型訓(xùn)練和部署的效率。僅需在筆記本電腦上寫一個簡單的源代碼,Colossal-AI 便可自動部署到云端和超級計算機上。

通常訓(xùn)練大模型 (如GPT-3) 需要 100 多個GPU,而使用Colossal-AI僅需一半的計算資源。即使在低端硬件條件下,Colossal-AI也可以訓(xùn)練2-3倍的大模型。

二是最大化計算效率,在并行計算技術(shù)支持下,Colossal-AI在硬件上訓(xùn)練AI模型,性能顯著提高。潞晨開源的目標是提升訓(xùn)練AI大模型速度10倍以上。

小結(jié)

如今,全球眾多科技企業(yè)都在研究大模型,然而大模型的訓(xùn)練和部署對硬件也有極高的要求,高昂的硬件需求和訓(xùn)練成本是當(dāng)前亟待解決的問題??梢姡薕penAI、谷歌、百度、阿里等致力于大模型研究企業(yè),以及英偉達等提供硬件的企業(yè)之外,潞晨科技這類提供微調(diào),致力于提升大模型訓(xùn)練和部署效率、降低成本的企業(yè),也值得關(guān)注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2941

    瀏覽量

    3683
收藏 人收藏

    評論

    相關(guān)推薦

    電機系統(tǒng)節(jié)能關(guān)鍵技術(shù)及展望

    節(jié)約能源既是我國經(jīng)濟和社會發(fā)展的一項長遠戰(zhàn)略和基本國策,也是當(dāng)前的緊迫任務(wù)。論文在深入分析國內(nèi)外電機系統(tǒng)節(jié)能現(xiàn)狀和介紹先進的節(jié)能關(guān)鍵技術(shù)的基礎(chǔ)上,指出了現(xiàn)階段我國在電機系統(tǒng)節(jié)能方面存在的問題,并結(jié)合
    發(fā)表于 04-30 00:43

    淺談華為通信大模型關(guān)鍵技術(shù)

    推理、幻覺糾正及多維聯(lián)合決策等方面創(chuàng)新成果的肯定。為此,我們將分三期深入解讀華為通信大模型無線的關(guān)鍵技術(shù)和價值應(yīng)用,本期聚焦于通信大模型部署訓(xùn)練
    的頭像 發(fā)表于 03-26 14:35 ?396次閱讀

    請問如何在imx8mplus上部署和運行YOLOv5訓(xùn)練模型?

    我正在從事 imx8mplus yocto 項目。我已經(jīng)在自定義數(shù)據(jù)集上的 YOLOv5 上訓(xùn)練了對象檢測模型。它在 ubuntu 電腦上運行良好?,F(xiàn)在我想在我的 imx8mplus 板上運行該模型
    發(fā)表于 03-25 07:23

    K230D部署模型失敗的原因?

    流程中看到MicroPython部署時要選擇第三路串口,但并未成功 補充材料 參考的主要流程如下,這個文件內(nèi)容是在社區(qū)官網(wǎng)的模型訓(xùn)練結(jié)束后生成的文件壓縮包解壓后的結(jié)果 確認問題 1.K230D應(yīng)該
    發(fā)表于 03-11 06:19

    《AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫

    ,提供更穩(wěn)定的服務(wù)質(zhì)量,但需要考慮API調(diào)用成本和網(wǎng)絡(luò)延遲等因素。在代碼實現(xiàn)方面,作者提供了相對詳細的示例,包括文本分塊的具體參數(shù)設(shè)置、向量化過程中的模型選擇、檢索閾值的調(diào)優(yōu)等關(guān)鍵技術(shù)點,這些內(nèi)容對想要
    發(fā)表于 03-07 19:49

    用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費級顯卡上,利用PaddleNLP實踐OpenAI的GPT-2模型的預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-4等大參數(shù)
    的頭像 發(fā)表于 02-19 16:10 ?718次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b>預(yù)<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>技術(shù)</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型
    發(fā)表于 01-14 16:51

    AI模型部署邊緣設(shè)備的奇妙之旅:目標檢測模型

    網(wǎng)絡(luò)(DenseNet)等創(chuàng)新設(shè)計都是為了克服深層網(wǎng)絡(luò)訓(xùn)練中的挑戰(zhàn)而提出的。 3 邊緣端設(shè)備部署 在邊緣端設(shè)備部署目標檢測模型,特別是像PP-PicoDet這樣輕量級且高效的
    發(fā)表于 12-19 14:33

    AI模型部署邊緣設(shè)備的奇妙之旅:如何實現(xiàn)手寫數(shù)字識別

    較大的準確率損失。 2.4.2 量化(Quantization) 模型量化是深度學(xué)習(xí)模型優(yōu)化的一種關(guān)鍵技術(shù),旨在通過減少模型參數(shù)和激活值的數(shù)值精度來降低
    發(fā)表于 12-06 17:20

    基于Pytorch訓(xùn)練部署ONNX模型在TDA4應(yīng)用筆記

    電子發(fā)燒友網(wǎng)站提供《基于Pytorch訓(xùn)練部署ONNX模型在TDA4應(yīng)用筆記.pdf》資料免費下載
    發(fā)表于 09-11 09:24 ?0次下載
    基于Pytorch<b class='flag-5'>訓(xùn)練</b>并<b class='flag-5'>部署</b>ONNX<b class='flag-5'>模型</b>在TDA4應(yīng)用筆記

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復(fù)雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理加速關(guān)鍵
    的頭像 發(fā)表于 07-24 11:38 ?1500次閱讀

    大語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?799次閱讀

    人臉識別模型訓(xùn)練流程

    人臉識別模型訓(xùn)練流程是計算機視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細介紹人臉識別模型訓(xùn)練流程,包括數(shù)據(jù)準備、
    的頭像 發(fā)表于 07-04 09:19 ?1596次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    函數(shù),位置編碼以及其他關(guān)鍵模塊。這些模塊和設(shè)計選型都是大語言模型在處理各種自然語言處理任務(wù)時的基礎(chǔ),影響模型的學(xué)習(xí)能力,泛化性和運行效率。 大語言模型通過最常用的
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    其預(yù)訓(xùn)練和微調(diào),直到模型部署和性能評估。以下是對這些技術(shù)的綜述: 模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu),最常見的是Transf
    發(fā)表于 05-05 10:56