一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一張RTX 2080Ti搞定大模型訓(xùn)練!算力節(jié)省136倍!

CVer ? 來(lái)源:機(jī)器之心 ? 2023-01-03 11:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

任何 transformer 變體、任何數(shù)據(jù)集都通用。

在一塊消費(fèi)級(jí) GPU 上只用一天時(shí)間訓(xùn)練,可以得到什么樣的 BERT 模型?

最近一段時(shí)間,語(yǔ)言模型再次帶火了 AI 領(lǐng)域。預(yù)訓(xùn)練語(yǔ)言模型的無(wú)監(jiān)督訓(xùn)練屬性使其可以在海量樣本基礎(chǔ)上進(jìn)行訓(xùn)練,并獲得大量語(yǔ)義語(yǔ)法知識(shí),不論分類(lèi)還是問(wèn)答,似乎沒(méi)有 AI 解決不了的問(wèn)題。

然而,大模型既帶來(lái)了技術(shù)突破,也對(duì)算力提出了無(wú)窮無(wú)盡的需求。

最近,來(lái)自馬里蘭大學(xué)的 Jonas Geiping、Tom Goldstein 討論了所有關(guān)于擴(kuò)大計(jì)算規(guī)模的研究,深入探討了縮小計(jì)算規(guī)模的改進(jìn)方向。他們的研究引發(fā)了機(jī)器學(xué)習(xí)社區(qū)的關(guān)注。

在新研究中,作者對(duì)于單塊消費(fèi)級(jí) GPU(RTX 2080Ti)能訓(xùn)練出什么樣的語(yǔ)言模型進(jìn)行了討論,并獲得了令人興奮的結(jié)果。讓我們看看它是如何實(shí)現(xiàn)的:

模型規(guī)模的擴(kuò)展

在自然語(yǔ)言處理(NLP)領(lǐng)域,基于 Transformer 架構(gòu)的預(yù)訓(xùn)練模型已經(jīng)成為主流,并帶來(lái)諸多突破性進(jìn)展。很大程度上,這些模型性能強(qiáng)大的原因是它們的規(guī)模很大。隨著模型參數(shù)量和數(shù)據(jù)量的增長(zhǎng),模型的性能會(huì)不斷提高。因此,NLP 領(lǐng)域內(nèi)掀起了一場(chǎng)增大模型規(guī)模的競(jìng)賽。

然而,很少有研究人員或從業(yè)者認(rèn)為他們有能力訓(xùn)練大型語(yǔ)言模型(LLM),通常只有行業(yè)內(nèi)的科技巨頭擁有訓(xùn)練 LLM 的資源。

為了扭轉(zhuǎn)這一趨勢(shì),來(lái)自馬里蘭大學(xué)的研究者進(jìn)行了一番探索。

論文《Cramming: Training a Language Model on a Single GPU in One Day》:

d9c064ee-8a02-11ed-bfe3-dac502259ad0.jpg

論文鏈接:https://arxiv.org/abs/2212.14034

這個(gè)問(wèn)題對(duì)于大多數(shù)研究人員和從業(yè)者來(lái)說(shuō)具有重要意義,因?yàn)檫@將成為模型訓(xùn)練成本的參考,并有望打破 LLM 訓(xùn)練成本超高的瓶頸。該研究的論文迅速在推特上引發(fā)關(guān)注和討論。

d9cf5918-8a02-11ed-bfe3-dac502259ad0.png

IBM 的 NLP 研究專(zhuān)家 Leshem Choshen 在推特上評(píng)價(jià)道:「這篇論文總結(jié)了所有你能想到的大模型訓(xùn)練 trick?!?/p>

d9e0d062-8a02-11ed-bfe3-dac502259ad0.png

馬里蘭大學(xué)的研究者認(rèn)為:如果按比例縮小的模型預(yù)訓(xùn)練是大型預(yù)訓(xùn)練的可行模擬,那么這將開(kāi)啟一系列目前難以實(shí)現(xiàn)的大規(guī)模模型的進(jìn)一步學(xué)術(shù)研究。

此外,該研究嘗試對(duì)過(guò)去幾年 NLP 領(lǐng)域的整體進(jìn)展進(jìn)行基準(zhǔn)測(cè)試,而不僅僅局限于模型規(guī)模的影響。

該研究創(chuàng)建了一項(xiàng)稱(chēng)為「Cramming」的挑戰(zhàn) —— 在測(cè)試前一天學(xué)習(xí)整個(gè)語(yǔ)言模型。研究者首先分析了訓(xùn)練 pipeline 的方方面面,以了解哪些修改可以實(shí)際提高小規(guī)模模擬模型的性能。并且,該研究表明,即使在這種受限環(huán)境中,模型性能也嚴(yán)格遵循在大型計(jì)算環(huán)境中觀(guān)察到的擴(kuò)展定律。

雖然較小的模型架構(gòu)可以加快梯度計(jì)算,但隨著時(shí)間的推移,模型改進(jìn)的總體速度幾乎保持不變。該研究嘗試?yán)脭U(kuò)展定律在不影響模型大小的情況下通過(guò)提高梯度計(jì)算的有效率獲得性能提升。最后,該研究成功訓(xùn)練出性能可觀(guān)的模型 —— 在 GLUE 任務(wù)上接近甚至超過(guò) BERT—— 而且訓(xùn)練成本很低。

資源有限

為了模擬普通從業(yè)者和研究人員的資源環(huán)境,該研究首先構(gòu)建了一個(gè)資源受限的研究環(huán)境:

一個(gè)任意大小的基于 transformer 的語(yǔ)言模型,完全從頭開(kāi)始使用掩碼語(yǔ)言建模(masked-language modeling)進(jìn)行訓(xùn)練;

pipeline 中不能包含現(xiàn)有的預(yù)訓(xùn)練模型;

任何原始文本(不包括下游數(shù)據(jù))都可以包含在訓(xùn)練中,這意味著可以通過(guò)明智地選擇如何以及何時(shí)對(duì)數(shù)據(jù)進(jìn)行采樣來(lái)實(shí)現(xiàn)加速,前提是采樣機(jī)制不需要預(yù)訓(xùn)練模型;

原始數(shù)據(jù)的下載和預(yù)處理不計(jì)入總預(yù)算,這里的預(yù)處理包括基于 CPU 的 tokenizer 構(gòu)造、tokenization 和 filtering,但不包括表征學(xué)習(xí);

訓(xùn)練僅在單塊 GPU 上進(jìn)行 24 小時(shí);

下游性能在 GLUE 上進(jìn)行評(píng)估,GLUE 上的下游微調(diào)僅限于僅使用下游任務(wù)的訓(xùn)練數(shù)據(jù)進(jìn)行簡(jiǎn)單訓(xùn)練(5 個(gè) epoch 或者更少),并且需要使用為所有 GLUE 任務(wù)設(shè)置的全局超參數(shù),下游微調(diào)不計(jì)算在總預(yù)算中。

該研究與一些經(jīng)典大模型的具體訓(xùn)練設(shè)置比較如下表所示:

d9efb37a-8a02-11ed-bfe3-dac502259ad0.png

改進(jìn)方法

研究人員實(shí)施并測(cè)試了已有工作提出的一些修改方向,包括通用實(shí)現(xiàn)和初始數(shù)據(jù)設(shè)置,并嘗試了修改架構(gòu)、訓(xùn)練以及改動(dòng)數(shù)據(jù)集的方法。

實(shí)驗(yàn)在 PyTorch 中進(jìn)行,不使用特質(zhì)化的實(shí)現(xiàn)以盡量公平,所有內(nèi)容都保留在 PyTorch 框架的實(shí)現(xiàn)級(jí)別上,只允許可應(yīng)用于所有組件的自動(dòng)運(yùn)算符融合,另外只有在選擇了最終的架構(gòu)變體之后,才會(huì)重新啟用高效注意力內(nèi)核。

d9ffe3d0-8a02-11ed-bfe3-dac502259ad0.jpg

圖 1:不同 transformer 架構(gòu)變體 MLM 損失函數(shù)與 token 對(duì)比的情況。左:全局視圖。右圖:放大到 10e8 和更多 token 情況下。所有模型都用相同算力成本訓(xùn)練,我們可以看到:通過(guò)架構(gòu)重塑實(shí)現(xiàn)的改進(jìn)微乎其微。

有關(guān)提升性能,我們最先想到的方法肯定是修改模型架構(gòu)。從直覺(jué)上,較小 / 較低容量的模型似乎在一日一卡式的訓(xùn)練中是最優(yōu)的。然而在研究了模型類(lèi)型與訓(xùn)練效率之間的關(guān)系后,研究人員發(fā)現(xiàn)縮放法則為縮小規(guī)模設(shè)置了巨大的障礙。每個(gè) token 的訓(xùn)練效率在很大程度上取決于模型大小,而不是 transformer 的類(lèi)型。

此外,較小的模型學(xué)習(xí)效率較低,這在很大程度上減緩了吞吐量的增加。幸運(yùn)的是,在相同大小的模型中,訓(xùn)練效率幾乎保持不變這一事實(shí),意味著我們可以在參數(shù)量類(lèi)似的架構(gòu)中尋找合適的,主要根據(jù)影響單個(gè)梯度步驟的計(jì)算時(shí)間來(lái)做出設(shè)計(jì)選擇。

da100f80-8a02-11ed-bfe3-dac502259ad0.jpg

圖 2:學(xué)習(xí)率 Schedule。盡管在全局范圍內(nèi)行為相似,但在中間的放大圖里可以看到差異確實(shí)存在。

在該工作中,作者研究了訓(xùn)練超參數(shù)對(duì) BERT-base 架構(gòu)的影響。可以理解的是,原始 BERT 訓(xùn)練方法的模型在 Cramming 式訓(xùn)練要求中的表現(xiàn)不佳,因此研究人員重新審視了一些標(biāo)準(zhǔn)選擇。

作者也研究了優(yōu)化數(shù)據(jù)集的思路。擴(kuò)展法則阻礙了通過(guò)架構(gòu)修改取得重大收益的方式(超出計(jì)算效率),但縮放定律并不妨礙我們?cè)诟玫臄?shù)據(jù)上進(jìn)行訓(xùn)練。如果想在在每秒訓(xùn)練更多的 token,我們應(yīng)該尋求在更好的 token 上訓(xùn)練。

da1c92e6-8a02-11ed-bfe3-dac502259ad0.jpg

圖 3:在 bookcorpus-wikipedia 數(shù)據(jù)的 Cramming 式訓(xùn)練中訓(xùn)練的模型的詞匯量與 GLUE 分?jǐn)?shù)和 MNLI 準(zhǔn)確性。

在 GLUE 上的表現(xiàn)

研究人員系統(tǒng)地評(píng)估了 GLUE 基準(zhǔn)的性能和 WNLI,并注意到在前面的部分中只使用了 MNLI (m),并且沒(méi)有根據(jù)完整的 GLUE 分?jǐn)?shù)調(diào)整超參數(shù)。在新研究中對(duì)于 BERT-base 作者微調(diào)了 5 個(gè) epoch 的所有數(shù)據(jù)集,batch size 為 32,學(xué)習(xí)率為 2 × 10-5。對(duì)于 Cramming 訓(xùn)練的模型這不是最優(yōu)的,其可以從 16 的 batch size 和 4 × 10?5 的學(xué)習(xí)率以及余弦衰減中獲得微小的改進(jìn)(此設(shè)置不會(huì)改進(jìn)預(yù)訓(xùn)練的 BERT check point)。

表 3 和表 4 描述了此設(shè)置在 GLUE 下游任務(wù)上的性能。作者比較了原始的 BERT-base check point、在達(dá)到算力上限后停止的 BERT 預(yù)訓(xùn)練設(shè)置、Izsak 等人 2021 年研究中描述的設(shè)置和修改后的設(shè)置,為每塊 GPU 設(shè)置訓(xùn)練一天。總體而言,性能出奇地好,尤其是對(duì)于 MNLI、QQP、QNLI 和 SST-2 等較大的數(shù)據(jù)集,下游微調(diào)可以消除完整 BERT 模型和 Cramming 設(shè)置變體之間的剩余差異。

此外,作者發(fā)現(xiàn)新方法與算力有限的普通 BERT 訓(xùn)練及 Izsak 等人描述的方法相比都有很大改進(jìn)。對(duì)于 Izsak 等人的研究,其描述的方法最初是為一個(gè)完整的 8 GPU 刀片服務(wù)器設(shè)計(jì)的,并且在新的場(chǎng)景中,將其中的 BERT-large 模型壓縮到較小的 GPU 上是導(dǎo)致大部分性能下降的原因。

da2ae74c-8a02-11ed-bfe3-dac502259ad0.jpg

表格 3:基線(xiàn) BERT 與 Cramming 版本模型的 GLUE-dev 性能比較。其中所有任務(wù)的超參數(shù)都是固定的,epoch 限制為 5 個(gè),缺失值為 NaN。是為 8 GPU 刀片服務(wù)器設(shè)計(jì)的,而在這里,所有計(jì)算被塞進(jìn)了一塊 GPU。

da38d7da-8a02-11ed-bfe3-dac502259ad0.jpg

表格 4:基線(xiàn) BERT 與填充模型的 GLUE-dev 性能比較。

總體而言,使用論文中的方法,訓(xùn)練結(jié)果已經(jīng)非常接近原版 BERT,但要知道后者使用的總 FLOPS 是新方法 45-136 倍(在 16 塊 TPU 上要花費(fèi)四天時(shí)間)。而當(dāng)訓(xùn)練時(shí)間延長(zhǎng) 16 倍時(shí)(在 8 塊 GPU 上訓(xùn)練兩天),新方法的性能實(shí)際上比原始 BERT 提高了很多,達(dá)到了 RoBERTa 的水平。

總結(jié)

在該工作中,人們討論了基于 transformer 的語(yǔ)言模型在計(jì)算量非常有限的環(huán)境中可以實(shí)現(xiàn)多少性能,值得慶幸的是,幾條修改方向可以讓我們?cè)?GLUE 上獲得不錯(cuò)的下游性能。研究人員表示,希望這項(xiàng)工作可以為進(jìn)一步的改進(jìn)提供一個(gè)基線(xiàn),并進(jìn)一步給近年來(lái)為 transformer 架構(gòu)提出的許多改進(jìn)和技巧提供理論支撐。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4949

    瀏覽量

    131323
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14168
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1202

    瀏覽量

    15669
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3148

    瀏覽量

    4090

原文標(biāo)題:重磅!一張RTX 2080Ti搞定大模型訓(xùn)練!算力節(jié)省136倍!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理

    工作者身份的轉(zhuǎn)變期),便對(duì)這項(xiàng)技術(shù)深深癡迷,但當(dāng)時(shí)主流的RTX20系列,需要2080級(jí)別以上的才支持,鑒于個(gè)人實(shí)力,便將目光放在了9系卡上,這也就是「芯片 | 書(shū)中講的pascal
    發(fā)表于 06-18 19:31

    瑞芯微模型量化文件構(gòu)建

    模型一張圖片輸入時(shí),量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個(gè)輸入。該模型訓(xùn)練時(shí)數(shù)據(jù)集只標(biāo)注
    發(fā)表于 06-13 09:07

    網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

    ? 電子發(fā)燒友網(wǎng)綜合報(bào)道 隨著AI技術(shù)迅猛發(fā)展,尤其是大型語(yǔ)言模型的興起,對(duì)于的需求呈現(xiàn)出爆炸性增長(zhǎng)。這不僅推動(dòng)了智中心的建設(shè),還對(duì)網(wǎng)絡(luò)互聯(lián)技術(shù)提出了新的挑戰(zhàn)。 ? 在AI大
    的頭像 發(fā)表于 06-08 08:11 ?6442次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式<b class='flag-5'>訓(xùn)練</b>范式

    AI原生架構(gòu)升級(jí):RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的突破

    近年來(lái),隨著千億級(jí)參數(shù)模型的崛起,AI訓(xùn)練對(duì)的需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對(duì)分布式訓(xùn)練、高并發(fā)計(jì)算和顯存優(yōu)化等場(chǎng)景時(shí)逐漸顯露瓶
    的頭像 發(fā)表于 04-24 09:27 ?308次閱讀

    智能服務(wù)器應(yīng)用領(lǐng)域

    智能服務(wù)器應(yīng)用領(lǐng)域 、?金融行業(yè)? 智能風(fēng)控與投顧?:通過(guò)集群支撐AI模型
    的頭像 發(fā)表于 04-21 09:09 ?334次閱讀
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b>服務(wù)器應(yīng)用領(lǐng)域

    RAKsmart智能架構(gòu):異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動(dòng)企業(yè)AI訓(xùn)練范式升級(jí)

    在AI大模型參數(shù)量突破萬(wàn)億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能
    的頭像 發(fā)表于 04-17 09:29 ?329次閱讀

    芯片的生態(tài)突圍與革命

    據(jù)的爆發(fā)式增長(zhǎng),大芯片已成為科技競(jìng)爭(zhēng)的核心領(lǐng)域之。 ? 大芯片的核心應(yīng)用場(chǎng)景豐富多樣。在人工智能
    的頭像 發(fā)表于 04-13 00:02 ?1752次閱讀

    智能最具潛力的行業(yè)領(lǐng)域

    智能最具潛力的行業(yè)領(lǐng)域 、金融行業(yè) 智能風(fēng)控與精準(zhǔn)服務(wù)?:大型銀行通過(guò)集群(6.27萬(wàn)臺(tái)服務(wù)器)支撐AI
    的頭像 發(fā)表于 04-11 08:20 ?397次閱讀
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b>最具潛力的行業(yè)領(lǐng)域

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    隨著人工智能技術(shù)的飛速發(fā)展,AI需求正以前所未有的速度增長(zhǎng)。DeepSeek等大模型訓(xùn)練與推理任務(wù)對(duì)
    發(fā)表于 03-25 12:00

    科技云報(bào)到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技云報(bào)到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?473次閱讀

    從零開(kāi)始訓(xùn)練個(gè)大語(yǔ)言模型需要投資多少錢(qián)?

    關(guān)于訓(xùn)練技巧和模型評(píng)估的文章,但很少有直接告訴你如何估算訓(xùn)練時(shí)間和成本的。前面分享了些關(guān)于大模型/本地知識(shí)庫(kù)的安裝部署方法,無(wú)需編寫(xiě)代碼,
    的頭像 發(fā)表于 11-08 14:15 ?796次閱讀
    從零開(kāi)始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b>個(gè)大語(yǔ)言<b class='flag-5'>模型</b>需要投資多少錢(qián)?

    AI時(shí)代的重要性及現(xiàn)狀:平衡發(fā)展與優(yōu)化配置的挑戰(zhàn)

    瓦時(shí)的電力。訓(xùn)練次擁有1746億參數(shù)的GPT-3模型,所需的更是高達(dá)3640PFlops,耗資466萬(wàn)美元。
    的頭像 發(fā)表于 11-04 11:45 ?1182次閱讀

    模型訓(xùn)練時(shí)代,九章云極DataCanvas公司打造普惠服務(wù)新范式

    在數(shù)據(jù)存儲(chǔ)與處理的關(guān)鍵環(huán)節(jié),大模型訓(xùn)練模式對(duì)系統(tǒng)的安全性提出了更高要求,以確保資源能夠無(wú)縫且安全地融入各類(lèi)業(yè)務(wù)系統(tǒng)。依托業(yè)務(wù)系統(tǒng)與互聯(lián)網(wǎng)的海量數(shù)據(jù)資源,以任務(wù)為驅(qū)動(dòng),大
    的頭像 發(fā)表于 09-14 16:00 ?672次閱讀
    大<b class='flag-5'>模型</b>后<b class='flag-5'>訓(xùn)練</b>時(shí)代,九章云極DataCanvas公司打造普惠<b class='flag-5'>算</b><b class='flag-5'>力</b>服務(wù)新范式

    模型時(shí)代的需求

    現(xiàn)在AI已進(jìn)入大模型時(shí)代,各企業(yè)都爭(zhēng)相部署大模型,但如何保證大模型,以及相關(guān)的穩(wěn)定性和性能,是
    發(fā)表于 08-20 09:04