一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

開(kāi)源方案低成本復(fù)現(xiàn)ChatGPT流程,僅需1.6GB顯存即可體驗(yàn)

OSC開(kāi)源社區(qū) ? 來(lái)源:OSC開(kāi)源社區(qū) ? 2023-02-21 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

開(kāi)源并行訓(xùn)練系統(tǒng) ColossalAI 表示,已低成本復(fù)現(xiàn)了一個(gè) ChatGPT 訓(xùn)練的基本流程,包括 stage 1 預(yù)訓(xùn)練、stage 2 的獎(jiǎng)勵(lì)模型的訓(xùn)練,以及最為復(fù)雜的 stage 3 強(qiáng)化學(xué)習(xí)訓(xùn)練。具體亮點(diǎn)包括:
  • 一個(gè)開(kāi)源完整的基于 PyTorch 的 ChatGPT 等效實(shí)現(xiàn)流程,涵蓋所有 3 個(gè)階段,可以幫助你構(gòu)建基于預(yù)訓(xùn)練模型的 ChatGPT 式服務(wù)。

  • 提供了一個(gè)迷你演示訓(xùn)練過(guò)程供用戶試玩,它只需要 1.62GB 的 GPU 顯存,并且可能在單個(gè)消費(fèi)級(jí) GPU 上實(shí)現(xiàn),GPU模型容量最多提升10.3 倍。

  • 與原始 PyTorch 相比,單機(jī)訓(xùn)練過(guò)程最高可提升7.73 倍,單 GPU 推理速度提升 1.42 倍,僅需一行代碼即可調(diào)用。

  • 在微調(diào)任務(wù)上,同樣僅需一行代碼,就可以在保持足夠高的運(yùn)行速度的情況下,最多提升單GPU的微調(diào)模型容量3.7 倍。

  • 提供多個(gè)版本的單 GPU 規(guī)模、單節(jié)點(diǎn)多 GPU 規(guī)模和原始 1750 億參數(shù)規(guī)模。還支持從 Hugging Face 導(dǎo)入 OPT、GPT-3、BLOOM 和許多其他預(yù)訓(xùn)練的大型模型到你的訓(xùn)練過(guò)程中。

ColossalAI 是一個(gè)具有高效并行化技術(shù)的綜合大規(guī)模模型訓(xùn)練系統(tǒng);旨在無(wú)縫整合不同的并行化技術(shù)范式,包括數(shù)據(jù)并行、管道并行、多張量并行和序列并行。其聲稱已通過(guò) ZeRO、Gemini、Chunk-based 內(nèi)存管理等技術(shù),極大地降低 ChatGPT 訓(xùn)練的顯存開(kāi)銷;僅需一半硬件資源即可啟動(dòng) 1750 億參數(shù)模型訓(xùn)練(從 64 卡到 32 卡),顯著降低應(yīng)用成本。若使用上述相同硬件資源,Colossal-AI 則能以更短時(shí)間進(jìn)行訓(xùn)練,節(jié)省訓(xùn)練成本,加速產(chǎn)品迭代。為了讓更多開(kāi)發(fā)者體驗(yàn)復(fù)現(xiàn) ChatGPT 模型,除 1750 億參數(shù)版本外,Colossal-AI 還提供高效的單 GPU、單機(jī) 4/8 GPU 的類 ChatGPT 版本,以降低硬件限制。2f5923c4-b130-11ed-bfe3-dac502259ad0.png博客內(nèi)容還指出,在單機(jī)多 GPU 服務(wù)器上,即便使用最高端的 A100 80GB 顯卡,由于 ChatGPT 的復(fù)雜性和內(nèi)存碎片,PyTorch 最大僅能啟動(dòng)基于 GPT-L(774M)這樣的小模型的 ChatGPT。用 PyTorch 原生的 DistributedDataParallel (DDP) 進(jìn)行多卡并行擴(kuò)展至 4 卡或 8 卡,性能提升有限。Colossal-AI 不僅在單GPU速度上訓(xùn)練和推理優(yōu)勢(shì)明顯,隨著并行規(guī)模擴(kuò)大還可進(jìn)一步提升,最高可提升單機(jī)訓(xùn)練速度 7.73 倍,單 GPU 推理速度 1.42 倍;并且能夠繼續(xù)擴(kuò)展至大規(guī)模并行,顯著降低 ChatGPT 復(fù)現(xiàn)成本。2fa38996-b130-11ed-bfe3-dac502259ad0.png為了最大限度地降低培訓(xùn)成本和易用性,Colossal-AI 提供了可以在單個(gè) GPU 上試用的 ChatGPT 培訓(xùn)流程。與在 14999 美元的 A100 80GB 上最多只能啟動(dòng) 7.8 億個(gè)參數(shù)模型的 PyTorch 相比,Colossal-AI 將單個(gè) GPU 的容量提升了 10.3 倍,達(dá)到 80 億個(gè)參數(shù)。對(duì)于基于 1.2 億參數(shù)的小模型的 ChatGPT 訓(xùn)練,至少需要 1.62GB 的 GPU 內(nèi)存,任意單個(gè)消費(fèi)級(jí) GPU 都可以滿足。2fd62f2c-b130-11ed-bfe3-dac502259ad0.png此外,Colossal-AI 還在致力于降低基于預(yù)訓(xùn)練大型模型的微調(diào)任務(wù)的成本。以 ChatGPT 可選的開(kāi)源基礎(chǔ)模型 OPT 為例,Colossal-AI 能夠在單 GPU 上將微調(diào)模型的容量提高到 PyTorch 的 3.7 倍,同時(shí)保持高速運(yùn)行。Colossal-AI 為 Hugging Face 社區(qū)的 GPT、OPT 和 BLOOM 等主流預(yù)訓(xùn)練模型,提供了開(kāi)箱即用的 ChatGPT 復(fù)現(xiàn)代碼。以 GPT 為例,僅需一行代碼,指定使用 Colossal-AI 作為系統(tǒng)策略即可快速使用。
from chatgpt.nn import GPTActor, GPTCritic, RewardModel
from chatgpt.trainer import PPOTrainer
from chatgpt.trainer.strategies import ColossalAIStrategy

strategy = ColossalAIStrategy(stage=3, placement_policy='cuda')

with strategy.model_init_context():
    actor = GPTActor().cuda()
    critic = GPTCritic().cuda()
    initial_model = deepcopy(actor).cuda()
    reward_model = RewardModel(deepcopy(critic.model)).cuda()

trainer = PPOTrainer(strategy, actor, critic, reward_model, initial_model,...)
trainer.fit(prompts)
審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4925

    瀏覽量

    130920
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    13

    文章

    9752

    瀏覽量

    87558
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1589

    瀏覽量

    8954

原文標(biāo)題:開(kāi)源方案低成本復(fù)現(xiàn)ChatGPT流程,僅需1.6GB顯存即可體驗(yàn)

文章出處:【微信號(hào):OSC開(kāi)源社區(qū),微信公眾號(hào):OSC開(kāi)源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    香蕉派開(kāi)源社區(qū)與矽昌通信共推BPI-Wifi5 低成本路由器開(kāi)源方案

    香蕉派開(kāi)源社區(qū)與矽昌通信共推BPI-Wifi5 低成本路由器[]() 香蕉派 BPI-Wifi5 路由器采用矽昌SF19A2890S2芯片方案設(shè)計(jì)。它是一款高性能無(wú)線路由器,適用于小微企業(yè)、家庭
    發(fā)表于 11-28 10:37

    低成本藍(lán)牙串口模塊解決方案

    傳統(tǒng)電子產(chǎn)品生產(chǎn)商對(duì)價(jià)格比較敏感,進(jìn)口的藍(lán)牙串口模塊對(duì)廠商的成本控制有很大的壓力。針對(duì)此種情況,紅果電子推出了完整的低成本藍(lán)牙串口模塊解決方案,采用RG-BT10-10低成本藍(lán)牙模塊,
    發(fā)表于 03-21 16:46

    追求性能提升 使用8GB HBM2顯存

    更積極,繼Altera之后賽靈思也宣布了集成HBM 2做內(nèi)存的FPGA新品,而且用了8GB容量?!   BM顯存雖然首發(fā)于AMD顯卡上,不過(guò)HBM 2這一代FPGA廠商比GPU廠商更積極  AMD
    發(fā)表于 12-07 15:54

    科技大廠競(jìng)逐AIGC,中國(guó)的ChatGPT在哪?

    迭代,需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。2020年發(fā)布的GPT-3,其訓(xùn)練參數(shù)量已經(jīng)達(dá)到了驚人的1750億個(gè),“大量的數(shù)據(jù)被反復(fù)‘喂’給ChatGPT?!? 而且,ChatGPT的訓(xùn)練成本支出巨大。據(jù)Lambda
    發(fā)表于 03-03 14:28

    低成本遙控器線路ICHQ1628產(chǎn)品規(guī)格書

    這是一款低成本的紅外線遙控器線路方案,整個(gè)遙控器一個(gè)IC完成,降低了物料成本及生產(chǎn)成本
    發(fā)表于 12-31 17:10 ?19次下載

    堅(jiān)果Pro 3開(kāi)啟了促銷活動(dòng)最高直降500元8GB+128GB2399元

    為了迎接新年,堅(jiān)果手機(jī)開(kāi)啟新年促銷活動(dòng)。目前購(gòu)買堅(jiān)果Pro 3可享直降最高500元的活動(dòng),購(gòu)買8GB+128GB堅(jiān)果Pro 32399元;購(gòu)買8GB+256GB版本
    的頭像 發(fā)表于 01-03 16:27 ?3832次閱讀

    榮耀V30 PRO在5G網(wǎng)絡(luò)環(huán)境下下載一部1.6GB大小的1080P電影2分鐘

    筆者定位芍藥居北里南門,在5G網(wǎng)絡(luò)環(huán)境下,使用榮耀V30 PRO下載一部1.6GB大小的1080P電影。電影從10:23開(kāi)始下載,10:25完成下載,耗時(shí)也2分鐘,盡管是在室外下載的,但是就實(shí)際使用體驗(yàn)而言,這個(gè)下載速度已經(jīng)相當(dāng)快了。
    發(fā)表于 01-07 15:30 ?2360次閱讀

    華為Mate 20降價(jià)促銷 6+128GB2199元

    近日,據(jù)網(wǎng)友爆料,拼多多華為Mate 20降價(jià)促銷,6+128GB到手2199元,比首發(fā)價(jià)便宜2300元。
    的頭像 發(fā)表于 03-09 11:32 ?6308次閱讀

    低成本的醫(yī)療檢測(cè)與監(jiān)測(cè)方案

    介紹最新的低成本的醫(yī)療檢測(cè)與監(jiān)測(cè)方案。
    發(fā)表于 03-16 15:38 ?8次下載
    <b class='flag-5'>低成本</b>的醫(yī)療檢測(cè)與監(jiān)測(cè)<b class='flag-5'>方案</b>

    ESP32低成本開(kāi)源項(xiàng)目

    電子發(fā)燒友網(wǎng)站提供《ESP32低成本開(kāi)源項(xiàng)目.zip》資料免費(fèi)下載
    發(fā)表于 07-18 11:20 ?4次下載
    ESP32<b class='flag-5'>低成本</b>板<b class='flag-5'>開(kāi)源</b>項(xiàng)目

    低成本無(wú)線火箭發(fā)射器開(kāi)源分享

    電子發(fā)燒友網(wǎng)站提供《低成本無(wú)線火箭發(fā)射器開(kāi)源分享.zip》資料免費(fèi)下載
    發(fā)表于 10-21 14:54 ?0次下載
    <b class='flag-5'>低成本</b>無(wú)線火箭發(fā)射器<b class='flag-5'>開(kāi)源</b>分享

    低成本機(jī)器人消毒系統(tǒng)開(kāi)源分享

    電子發(fā)燒友網(wǎng)站提供《低成本機(jī)器人消毒系統(tǒng)開(kāi)源分享.zip》資料免費(fèi)下載
    發(fā)表于 11-24 09:15 ?0次下載
    <b class='flag-5'>低成本</b>機(jī)器人消毒系統(tǒng)<b class='flag-5'>開(kāi)源</b>分享

    開(kāi)源防火墻的低成本使用

    開(kāi)源防火墻的低成本使用
    的頭像 發(fā)表于 01-04 11:17 ?1612次閱讀

    開(kāi)源低成本電力監(jiān)控系統(tǒng)

    電子發(fā)燒友網(wǎng)站提供《開(kāi)源低成本電力監(jiān)控系統(tǒng).zip》資料免費(fèi)下載
    發(fā)表于 02-02 15:04 ?0次下載
    <b class='flag-5'>開(kāi)源</b><b class='flag-5'>低成本</b>電力監(jiān)控系統(tǒng)

    源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存23GB 性能可媲美LLaMA3

    北京2024年8月23日?/美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開(kāi)源大模型。4bit量化版推理運(yùn)行顯存
    的頭像 發(fā)表于 08-25 22:06 ?633次閱讀
    源2.0-M32大模型發(fā)布量化版 運(yùn)行<b class='flag-5'>顯存</b><b class='flag-5'>僅</b><b class='flag-5'>需</b>23<b class='flag-5'>GB</b> 性能可媲美LLaMA3