一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT背后的經(jīng)濟(jì)賬

OSC開(kāi)源社區(qū) ? 來(lái)源:OneFlow ? 2023-02-16 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ChatGPT能否取代Google、百度這樣的傳統(tǒng)搜索引擎?為什么中國(guó)不能很快做出ChatGPT?當(dāng)前,對(duì)這些問(wèn)題的探討大多囿于大型語(yǔ)言模型(LLM)的技術(shù)可行性,忽略或者非常粗糙地估計(jì)了實(shí)現(xiàn)這些目標(biāo)背后的經(jīng)濟(jì)成本,從而造成對(duì)LLM的開(kāi)發(fā)和應(yīng)用偏離實(shí)際的誤判。

本文作者從經(jīng)濟(jì)學(xué)切入,詳細(xì)推導(dǎo)了類ChatGPT模型搜索的成本、訓(xùn)練GPT-3以及繪制LLM成本軌跡的通用框架,為探討LLM成本結(jié)構(gòu)和其未來(lái)發(fā)展提供了可貴的參考視角。

重點(diǎn)概覽:

LLM驅(qū)動(dòng)的搜索已經(jīng)在經(jīng)濟(jì)上可行:粗略估計(jì),在現(xiàn)有搜索成本結(jié)構(gòu)的基礎(chǔ)上,高性能LLM驅(qū)動(dòng)搜索的成本約占當(dāng)下預(yù)估廣告收入/查詢的15%。

但經(jīng)濟(jì)可行并不意味著經(jīng)濟(jì)合理:LLM驅(qū)動(dòng)搜索的單位經(jīng)濟(jì)性是有利可圖的,但對(duì)于擁有超1000億美元搜索收入的現(xiàn)有搜索引擎來(lái)說(shuō),添加此功能可能意味著超100億美元的額外成本。

其他新興的LLM驅(qū)動(dòng)業(yè)務(wù)利潤(rùn)很高:比如Jasper.ai使用LLM生成文案,很可能有SaaS服務(wù)那樣的毛利率(超75%)。

對(duì)于大公司而言,訓(xùn)練LLM(即使是從頭開(kāi)始)的成本并不高:如今,在公有云中訓(xùn)練GPT-3僅需花費(fèi)約140萬(wàn)美元,即使是像PaLM這樣最先進(jìn)的模型也只需花費(fèi)約1120萬(wàn)美元。

LLM的成本可能會(huì)顯著下降:自GPT-3發(fā)布的兩年半時(shí)間里,與GPT-3性能相當(dāng)?shù)哪P偷挠?xùn)練和推理成本下降了約80%。

數(shù)據(jù)是LLM性能的新瓶頸:與增加高質(zhì)量訓(xùn)練數(shù)據(jù)集的大小相比,增加模型參數(shù)的數(shù)量能獲得的邊際收益越來(lái)越小。

1 動(dòng)機(jī)

LLM的驚人表現(xiàn)引發(fā)了人們的廣泛猜想,這些猜想主要包括LLM可能引發(fā)的新興商業(yè)模式和對(duì)現(xiàn)有模式的影響。

搜索是一個(gè)有趣的機(jī)會(huì),2021年,僅谷歌就從搜索相關(guān)的廣告中獲得了超1000億美元的收入[1]。ChatGPT(一個(gè)使用LLM的聊天機(jī)器人,它可以生成高質(zhì)量的答案,以回答類似于搜索的查詢)的“病毒性”傳播已經(jīng)引發(fā)了許多關(guān)于搜索領(lǐng)域潛在影響的思考,其中一個(gè)就是LLM如今的經(jīng)濟(jì)可行性:

一位聲稱是谷歌員工的人在HackerNews上表示,要想實(shí)施由LLM驅(qū)動(dòng)的搜索,需要先將其成本降低10倍。

與此同時(shí),微軟預(yù)計(jì)將在3月份推出LLM版本的Bing[3],而搜索初創(chuàng)公司如You.com已經(jīng)將該技術(shù)嵌入到了他們的產(chǎn)品之中[4]。

最近,《紐約時(shí)報(bào)》報(bào)道,谷歌將在今年推出帶有聊天機(jī)器人功能的搜索引擎[5]。

更廣泛的問(wèn)題是:將LLM納入當(dāng)前產(chǎn)品和新產(chǎn)品的經(jīng)濟(jì)可行性如何?在本文中,我們梳理了當(dāng)今LLM的成本結(jié)構(gòu),并分析其未來(lái)可能的發(fā)展趨勢(shì)。

2 重溫LLM工作原理

盡管后續(xù)章節(jié)的技術(shù)性更強(qiáng),但這篇文章對(duì)機(jī)器學(xué)習(xí)熟悉程度不做要求,即使不熟悉這方面內(nèi)容的人也可以放心閱讀。為了說(shuō)明LLM的特殊之處,現(xiàn)做一個(gè)簡(jiǎn)要復(fù)習(xí)。

語(yǔ)言模型在給定上下文的情況下,對(duì)可能輸出的token作出預(yù)測(cè):

6171e66c-ad33-11ed-bfe3-dac502259ad0.jpg

自回歸語(yǔ)言模型(Autoregressive Language Model)輸入上下文和輸出內(nèi)容的圖示(在實(shí)踐中,token通常是子詞:即“happy”可能被分解為兩個(gè)token,例如“hap”、“-py”)

為了生成文本,語(yǔ)言模型根據(jù)輸出token的概率重復(fù)采樣新token。例如,在像ChatGPT這樣的服務(wù)中,模型從一個(gè)初始prompt開(kāi)始,該prompt將用戶的查詢作為上下文,并生成token來(lái)構(gòu)建響應(yīng)(response)。新token生成后,會(huì)被附加到上下文窗口以提示下一次迭代。

語(yǔ)言模型已經(jīng)存在了幾十年。當(dāng)下LLM性能的背后是數(shù)十億參數(shù)的高效深度神經(jīng)網(wǎng)絡(luò)(DNN)驅(qū)動(dòng)。參數(shù)是用于訓(xùn)練和預(yù)測(cè)的矩陣權(quán)重,浮點(diǎn)運(yùn)算(FLOPS)的數(shù)值通常與參數(shù)數(shù)量(parameter count)成比例。這些運(yùn)算是在針對(duì)矩陣運(yùn)算優(yōu)化的處理器上計(jì)算的,例如GPU、TPU和其他專用芯片。

隨著LLM參數(shù)量呈指數(shù)增長(zhǎng),這些操作需要更多的計(jì)算資源,這是導(dǎo)致LLM成本增加的潛在原因。

3 LLM驅(qū)動(dòng)搜索的成本

本節(jié),我們將估算運(yùn)行LLM驅(qū)動(dòng)搜索引擎的成本。應(yīng)該如何實(shí)施這樣的搜索引擎仍是一個(gè)活躍的研究領(lǐng)域,我們這里主要考慮兩種方法來(lái)評(píng)估提供此類服務(wù)的成本范圍:

ChatGPT Equivalent:一個(gè)在龐大訓(xùn)練數(shù)據(jù)集上訓(xùn)練的LLM,它會(huì)將訓(xùn)練期間的知識(shí)存儲(chǔ)到模型參數(shù)中。在推理過(guò)程中(使用模型生成輸出),LLM無(wú)法訪問(wèn)外部知識(shí)[6]。

這種方法有如下兩大缺點(diǎn):

容易“幻想”事實(shí)。

模型知識(shí)滯后,僅包含最后訓(xùn)練日期之前的可用信息。

2-Stage Search Summarizer:一種架構(gòu)上類似的LLM,可以在推理時(shí)訪問(wèn)Google或Bing等傳統(tǒng)搜索引擎。在這種方法的第一階段,我們通過(guò)搜索引擎運(yùn)行查詢以檢索前K個(gè)結(jié)果。在第二階段,通過(guò)LLM運(yùn)行每個(gè)結(jié)果以生成K個(gè)響應(yīng),該模型再將得分最高的響應(yīng)返回給用戶[7]。

相比ChatGPT Equivalent,這種方法的優(yōu)點(diǎn)是:

能夠從檢索到的搜索結(jié)果中引用其來(lái)源。

能獲取最新信息。

然而,對(duì)于相同參數(shù)數(shù)量的LLM,這種方法需要更高的計(jì)算成本。使用這種方法的成本也增加了搜索引擎的現(xiàn)有成本,因?yàn)槲覀冊(cè)诂F(xiàn)有搜索引擎的結(jié)果上增加了LLM。

一階近似:基礎(chǔ)模型API

最直接的成本估算方法是參考市場(chǎng)上現(xiàn)有基礎(chǔ)模型API的標(biāo)價(jià),這些服務(wù)的定價(jià)包括成本的溢價(jià)部分,這部分是供應(yīng)商的利潤(rùn)來(lái)源。一個(gè)代表性的服務(wù)是OpenAI,它提供基于LLM的文本生成服務(wù)。

OpenAI的Davinci API由GPT-3的1750億參數(shù)版本提供支持,與支持ChatGPT的GPT-3.5模型具有相同的參數(shù)數(shù)量[8] ?,F(xiàn)在用該模型進(jìn)行推理的價(jià)格約為0.02美元/750個(gè)單詞(0.02美元/1000個(gè)token,其中1000token約等于750個(gè)單詞);用于計(jì)算定價(jià)的單詞總數(shù)包括輸入和輸出[9]。

6184c78c-ad33-11ed-bfe3-dac502259ad0.jpg

按模型功能劃分的基礎(chǔ)模型API定價(jià) (OpenAI)

我們這里做了一些簡(jiǎn)單假設(shè)來(lái)估計(jì)將支付給OpenAI的搜索服務(wù)費(fèi)用:

在ChatGPT equivalent的實(shí)現(xiàn)中,我們假設(shè)該服務(wù)平均針對(duì)50字的prompt生成400字的響應(yīng)。為了產(chǎn)生更高質(zhì)量的結(jié)果,我們還假設(shè)模型對(duì)每個(gè)查詢采樣5個(gè)響應(yīng),從中選擇最佳響應(yīng)。因此:

61991a70-ad33-11ed-bfe3-dac502259ad0.jpg

在2-Stage Search Summarizer的實(shí)現(xiàn)中,響應(yīng)生成過(guò)程是相似的。然而:

提示明顯更長(zhǎng),因?yàn)樗瑫r(shí)包含查詢和搜索結(jié)果中的相關(guān)部分

為每K個(gè)搜索結(jié)果生成一個(gè)單獨(dú)的LLM響應(yīng)

假設(shè)K = 10并且搜索結(jié)果中的每個(gè)相關(guān)部分平均為1000個(gè)單詞:

61a9afa2-ad33-11ed-bfe3-dac502259ad0.jpg

假設(shè)優(yōu)化的緩存命中率為30%(谷歌歷史搜索緩存命中率的下限[10])和OpenAI云服務(wù)的毛利率為75%(與典型的SaaS服務(wù)一致),我們的一階估計(jì)意味著:

61c39c50-ad33-11ed-bfe3-dac502259ad0.jpg

按照數(shù)量級(jí),ChatGPT Equivalent服務(wù)的預(yù)計(jì)云計(jì)算成本為0.010美元/次,與公眾評(píng)論一致:

61db3a36-ad33-11ed-bfe3-dac502259ad0.jpg

OpenAI首席執(zhí)行官Sam Altman談ChatGPT每次聊天的成本([推特](https://twitter.com/sama/status/1599671496636780546?lang=en)

鑒于ChatGPT Equivalent的上述缺點(diǎn)(即幻想事實(shí)、模型信息陳舊),在實(shí)際操作中,LLM驅(qū)動(dòng)搜索引擎的開(kāi)發(fā)者更可能部署2-Stage Search Summarizer變體。

2012年,谷歌搜索主管表示,其搜索引擎每月處理的搜索次數(shù)達(dá)1000億次[11]。世界銀行數(shù)據(jù)顯示:全球互聯(lián)網(wǎng)普及率已從2012年的34%上升到了2020年的60%[12]。假設(shè)搜索量按比例增長(zhǎng),則預(yù)計(jì)其年均搜索量將達(dá)2.1萬(wàn)億次,與搜索相關(guān)的收入將達(dá)約1000億美元[13],平均每次搜索的收入為0.048美元。

換句話說(shuō),2-Stage Search Summarizer的查詢成本為0.066美元/次,約為每次查詢收入0.048美元的1.4倍。

通過(guò)以下優(yōu)化,預(yù)估成本大約會(huì)降至原來(lái)的1/4:1、量化(使用較低精度的數(shù)據(jù)類型) 2、知識(shí)蒸餾(通過(guò)學(xué)習(xí)較大的模型去訓(xùn)練一個(gè)較小的模型) 3、訓(xùn)練更小的“計(jì)算優(yōu)化”模型,該模型具有相同的性能(稍后將對(duì)此展開(kāi)更詳細(xì)的討論)

假設(shè)云計(jì)算的毛利率約為50%,與依賴云服務(wù)提供商相比,運(yùn)行自建(內(nèi)部)基礎(chǔ)設(shè)施(infrastructure in-house)會(huì)使成本降低至當(dāng)前的1/2。

綜合以上改進(jìn),降低至原有成本的1/8之后,在搜索中融入高性能LLM的成本大約占據(jù)當(dāng)前查詢收入的15%(現(xiàn)有的基礎(chǔ)設(shè)施成本除外)。(注:成本最低可降至 0.066 美元/次 * 1/4 * 1/2, 約定于0.008美元,因此大約占每次查詢收入 0.048 美元的 15%)

深度解析:云計(jì)算成本

如今,SOTA大型語(yǔ)言模型通常會(huì)用到可比較的模型架構(gòu)(最常見(jiàn)的是僅包含解碼器的Transformer模型),在推理過(guò)程中每個(gè)token的計(jì)算成本(以FLOPs為指標(biāo))約為2N,其中N為模型參數(shù)數(shù)量(model parameter count)[14]。

目前,NVIDIA A100是AWS最具成本效益的GPU選擇,若預(yù)定1年使用該GPU,擁有8個(gè)A100的AWS P4實(shí)例的有效時(shí)薪(effective hourly rate)將達(dá)19.22美元。[15]每個(gè)A100提供峰值312 TFLOPS(萬(wàn)億次浮點(diǎn)數(shù)/秒)FP16/FP32 混合精度吞吐量,這是LLM訓(xùn)練和推理的關(guān)鍵指標(biāo)[16]。FP16/FP32混合精度是指以16位格式(FP16)執(zhí)行操作,而以32位格式(FP32)存儲(chǔ)信息。由于FP16的開(kāi)銷較低,混合精度不僅支持更高的FLOPS吞吐量,而且保持精確結(jié)果所需的數(shù)值穩(wěn)定性也會(huì)保持不變[17]。

假設(shè)模型的FLOPS利用率為21.3%,與訓(xùn)練期間的GPT-3保持一致(雖然最近越來(lái)越多的模型效率得以提升,但其FLOPS利用率對(duì)于低延遲推理而言仍充滿挑戰(zhàn))[18]。因此,對(duì)于像GPT-3這樣擁有1750億參數(shù)的模型:

61ec7878-ad33-11ed-bfe3-dac502259ad0.jpg

我們也應(yīng)用了基于GCP TPU v4定價(jià)( GCP TPU v4 pricing)相同的計(jì)算方法,并得到了相似的結(jié)果[19]:

61fdfcce-ad33-11ed-bfe3-dac502259ad0.jpg

預(yù)估GPT-3通過(guò)云服務(wù)提供商 (AWS, GCP)每處理1000個(gè)token所需的推理成本

OpenAI的API定價(jià)為0.02美元/1000詞,但我們估計(jì)其成本約為0.0035美元/1000詞,占定價(jià)的20%左右。這就意味著:對(duì)于一臺(tái)一直運(yùn)行的機(jī)器而言,其毛利率約為80%。這一估算與我們之前設(shè)想的75%毛利率大致相同,進(jìn)而為ChatGPT Equivalent和2-Stage Search Summarizer搜索成本估算提供了合理性驗(yàn)證(sanity check)。

4 訓(xùn)練成本如何?

另一個(gè)熱門(mén)話題是GPT-3(擁有1750億參數(shù))或最新的LLM(如擁有2800億參數(shù)的Gopher和擁有5400億參數(shù)的PaLM)的訓(xùn)練成本?;趨?shù)數(shù)量和token數(shù)量,我們構(gòu)建了一個(gè)用于估算計(jì)算成本的框架,雖然稍作修改,但同樣適用于此:

每個(gè)token的訓(xùn)練成本通常約為6N(而推理成本約為2N),其中N是LLM的參數(shù)數(shù)量[20]

假設(shè)在訓(xùn)練過(guò)程中,模型的FLOPS利用率為46.2% (而在之前的推理過(guò)程中,模型的FLOPS利用率約為21.3%),與在TPU v4芯片上進(jìn)行訓(xùn)練的PaLM模型(擁有5400億參數(shù))一致[21]。

1750億參數(shù)模型的GPT-3是在3000億token上進(jìn)行訓(xùn)練的。谷歌使用了GCP TPU v4芯片來(lái)訓(xùn)練PaLM模型,若我們現(xiàn)在也像谷歌那樣做,那么如今的訓(xùn)練成本僅為140萬(wàn)美元左右。

620ce8c4-ad33-11ed-bfe3-dac502259ad0.jpg

此外,我們還將該框架應(yīng)用到一些更大的LLM模型中,以了解其訓(xùn)練成本。

621b94b4-ad33-11ed-bfe3-dac502259ad0.jpg

預(yù)估LLM在GCP TPU v4芯片上的訓(xùn)練成本

5 繪制成本軌跡的通用框架

為了推導(dǎo)LLM的推理成本/訓(xùn)練成本,我們總結(jié)了如下框架:

623174dc-ad33-11ed-bfe3-dac502259ad0.jpg

密集激活純解碼器LLM模型Transformer(Densely Activated Decoder-Only Transformer LLMs)的推理成本和訓(xùn)練成本(其中“N”是模型參數(shù)數(shù)量,“processor”是指TPU、GPU或其他張量處理加速器)

因此,我們假設(shè)LLM的架構(gòu)相似,那么推理成本和訓(xùn)練成本將根據(jù)上述變量的變化而變化。雖然我們會(huì)詳細(xì)考慮每個(gè)變量,但是以下部分才是關(guān)鍵點(diǎn):

自2020年GPT-3發(fā)布以來(lái),使用與GPT-3一樣強(qiáng)大的模型進(jìn)行訓(xùn)練和推理的成本大大降低,低于先前的五分之一。

6248399c-ad33-11ed-bfe3-dac502259ad0.jpg

相比2020年推出的GPT-3,與其性能對(duì)等的模型的推理與訓(xùn)練成本降低情況總結(jié)

參數(shù)數(shù)量效率:巨型語(yǔ)言模型參數(shù)每年增長(zhǎng)10倍的神話

考慮到過(guò)去5年中模型參數(shù)呈指數(shù)增長(zhǎng),我們普遍猜測(cè):下一代LLM模型很可能是萬(wàn)億參數(shù)(密集激活)模型:

625b3344-ad33-11ed-bfe3-dac502259ad0.jpg

LLM中模型參數(shù)數(shù)量的增長(zhǎng)

雖然LLM的參數(shù)數(shù)量每年約增長(zhǎng)10倍,但是大多數(shù)模型訓(xùn)練數(shù)據(jù)集的大小并沒(méi)有顯著變化:

626bb188-ad33-11ed-bfe3-dac502259ad0.jpg

所選LLM的模型參數(shù)數(shù)量與訓(xùn)練token數(shù)量 (訓(xùn)練計(jì)算最優(yōu)大語(yǔ)言模型)

然而,最新文獻(xiàn)表明,假設(shè)計(jì)算資源和硬件利用率(即訓(xùn)練“計(jì)算最優(yōu)”模型)保持不變,關(guān)注擴(kuò)展參數(shù)數(shù)量(scaling parameter count)并不是性能最大化的最佳方式:

627f2484-ad33-11ed-bfe3-dac502259ad0.jpg

Google DeepMind的研究人員將一個(gè)參數(shù)函數(shù)(parametric function)擬合到他們的實(shí)驗(yàn)結(jié)果中,發(fā)現(xiàn)參數(shù)數(shù)量N的增速應(yīng)與訓(xùn)練token數(shù)量D的增長(zhǎng)速度大致相同,從而讓模型損失L實(shí)現(xiàn)最小化(即性能最大化):

6290147e-ad33-11ed-bfe3-dac502259ad0.jpg

模型損失的參數(shù)函數(shù) (訓(xùn)練計(jì)算最優(yōu)大語(yǔ)言模型)

研究人員還訓(xùn)練了一個(gè)名為Chinchilla的模型(擁有700億的參數(shù))。雖然該模型的計(jì)算資源與Gopher(擁有2800億參數(shù))相同,但是該模型是在1.4萬(wàn)億token上進(jìn)行訓(xùn)練的而非3000億token。Chinchilla的性能明顯優(yōu)于擁有相同F(xiàn)LOPs預(yù)算的大型模型,從而證明了大多數(shù)LLM過(guò)度支出了計(jì)算量和對(duì)數(shù)據(jù)的渴望 (譯者注:換言之,對(duì)大多數(shù)LLM來(lái)說(shuō),使用更多的數(shù)據(jù)來(lái)訓(xùn)練比增大模型參數(shù)量要更加劃算)。

62a32d52-ad33-11ed-bfe3-dac502259ad0.jpg

通過(guò)訓(xùn)練數(shù)據(jù)大小與模型參數(shù)來(lái)預(yù)測(cè)模型損失(錯(cuò)誤更少:Chinchilla的自然環(huán)境含義)

雖然Chinchilla的參數(shù)(以及推理計(jì)算需求)比GPT-3少60%,但是其性能遠(yuǎn)遠(yuǎn)優(yōu)于擁有1750億參數(shù)的GPT-3模型。

實(shí)際上,即使我們用與GPT-3相同的3000億token數(shù)據(jù)集去訓(xùn)練一個(gè)萬(wàn)億參數(shù)模型,仍可以預(yù)見(jiàn)該模型的表現(xiàn)不如Chinchilla:

62b7df68-ad33-11ed-bfe3-dac502259ad0.jpg

萬(wàn)億參數(shù)模型相應(yīng)損失項(xiàng)的相對(duì)量級(jí)(0.03的模型參數(shù)損失與0.25的訓(xùn)練token損失)也表明,通過(guò)增加模型大小獲得的邊際效益低于增加數(shù)據(jù)量獲得的邊際效益。

展望未來(lái),我們不會(huì)繼續(xù)擴(kuò)大模型參數(shù)數(shù)量,而是將增量計(jì)算資源(incremental computational resources)轉(zhuǎn)移到質(zhì)量相當(dāng)?shù)母髷?shù)據(jù)集上進(jìn)行訓(xùn)練,以獲得極佳的性能。

Cost/FLOP效率

對(duì)于訓(xùn)練LLM而言,最重要的硬件性能指標(biāo)(hardware performance metric)是可實(shí)現(xiàn)的混合精度FP16/FP32 FLOPS。改進(jìn)硬件旨在實(shí)現(xiàn)成本最小化,同時(shí)使得峰值FLOPS吞吐量和模型FLOPS利用率實(shí)現(xiàn)最大化。

雖然這兩個(gè)部分在硬件開(kāi)發(fā)中密不可分,但為了讓分析變得更簡(jiǎn)單,本節(jié)重點(diǎn)關(guān)注吞吐量,下一節(jié)再討論利用率。

62c6b1aa-ad33-11ed-bfe3-dac502259ad0.jpg

目前,我們已經(jīng)通過(guò)查看云實(shí)例定價(jià)(cloud instance pricing)估算了Cost/FLOP效率。為了進(jìn)行下一步探究,我們估算了運(yùn)行以下機(jī)器的成本。主要包括以下兩個(gè)方面:1)硬件購(gòu)買(mǎi)(hardware purchase) 2)能源支出(energy expense)。為說(shuō)明這一點(diǎn),我們?cè)賮?lái)看看GPT-3(一款由OpenAI推出的模型,該模型在Microsoft Azure的10000個(gè)V100 GPU上訓(xùn)練了14.8天)[22]:

62daee18-ad33-11ed-bfe3-dac502259ad0.jpg

2020年用英偉達(dá)V100 GPU訓(xùn)練GPT-3的成本(碳排放與大型神經(jīng)網(wǎng)絡(luò)訓(xùn)練)

黃仁勛定律(英偉達(dá)首席執(zhí)行官黃仁勛于2018年提出)指出,在硬件成本方面,GPU的增長(zhǎng)速度比五年前快了25倍[23]。在訓(xùn)練LLM的背景下,GPU的性能得到了很大提升,這很大程度上得益于張量核心(Tensor Cores)(AMD采用的是矩陣核心(matrix cores))。此外,GPU不再將矢量作為計(jì)算原語(yǔ),而是轉(zhuǎn)為矩陣,從而實(shí)現(xiàn)了性能更好、效率更高的混合精度計(jì)算。

2016年,NVIDIA通過(guò)V100數(shù)據(jù)中心GPU首次推出了張量核心。與最初引入的張量核心相比,雖然這一改進(jìn)不太明顯,但是每一代張量核心都進(jìn)一步提高了吞吐量。如今,對(duì)于用于訓(xùn)練LLM的數(shù)據(jù)中心GPU,我們?nèi)阅芸吹矫恳淮鶪PU的吞吐量都提升了50%(或者說(shuō)年均吞吐量提升了22%左右)。

62f529fe-ad33-11ed-bfe3-dac502259ad0.jpg

數(shù)據(jù)中心GPU FP16/FP32吞吐量/美元 (NVIDIA)

63066fb6-ad33-11ed-bfe3-dac502259ad0.jpg

桌面GPU和數(shù)據(jù)中心GPU、按精度劃分的吞吐量/美元 (英偉達(dá),深度學(xué)習(xí)推理中的計(jì)算和能源消耗趨勢(shì))

能源效率提升得更快?,F(xiàn)在我們可以看到,用于訓(xùn)練LLM的數(shù)據(jù)中心GPU的代際吞吐量/瓦特提高了80%(或者說(shuō)年均吞吐量提高了34%):

6315c6d2-ad33-11ed-bfe3-dac502259ad0.jpg

數(shù)據(jù)中心 GPU FP16/FP32 吞吐量/瓦特 (英偉達(dá))

632b11e0-ad33-11ed-bfe3-dac502259ad0.png

按精度劃分的桌面和數(shù)據(jù)中心GPU吞吐量/瓦特(英偉達(dá),深度學(xué)習(xí)推理中的計(jì)算和能耗趨勢(shì))

僅從V100(用于訓(xùn)練 GPT-3)到即將推出的H100的改進(jìn)來(lái)看,我們預(yù)計(jì)內(nèi)部訓(xùn)練成本將降低58%(即訓(xùn)練成本由74.4萬(wàn)美元降低到31.2萬(wàn)美元)。

634ad5e8-ad33-11ed-bfe3-dac502259ad0.jpg

目前使用英偉達(dá)H100 GPU訓(xùn)練GPT-3的成本

展望未來(lái),我們預(yù)測(cè),隨著硬件設(shè)計(jì)的不斷創(chuàng)新,硬件成本和能效將逐步改進(jìn)。例如,從V100到A100 GPU,NVIDIA添加了稀疏特性(sparsity features),這進(jìn)一步將某些深度學(xué)習(xí)架構(gòu)的吞吐量提高了2倍[24] 。NVIDIA正在H100中添加對(duì)FP8數(shù)據(jù)類型的本地支持,當(dāng)與推理量化等現(xiàn)有技術(shù)相結(jié)合時(shí),可以進(jìn)一步提高吞吐量[25]。

此外,TPU和其他專用芯片的出現(xiàn)從根本上重塑了深度學(xué)習(xí)用例的芯片架構(gòu)。谷歌的TPU建立在脈動(dòng)陣列結(jié)構(gòu)(systolic array architecture)之上,可顯著減少寄存器使用,提高吞吐量[26]。正如下一節(jié)將提到的,隨著我們將訓(xùn)練和推理擴(kuò)展到大型參數(shù)模型,最近許多硬件都著力于提高利用率。

硬件利用率提升

出于內(nèi)存需求,LLM訓(xùn)練的主要挑戰(zhàn)之一就是將這些模型從單個(gè)芯片擴(kuò)展到多個(gè)系統(tǒng)和集群級(jí)別。在典型的LLM訓(xùn)練中,設(shè)置保存優(yōu)化器狀態(tài)、梯度和參數(shù)所需的內(nèi)存為20N,其中N是模型參數(shù)數(shù)量[27]。

因此,BERT-Large(2018年早期的LLM之一,擁有3.4億參數(shù))僅需6.8GB內(nèi)存,就可輕松裝入單個(gè)桌面級(jí)GPU。另一方面,對(duì)于像GPT-3這樣的1750億參數(shù)模型,內(nèi)存要求轉(zhuǎn)換為3.5TB。同時(shí),NVIDIA最新的數(shù)據(jù)中心 GPU(H100)僅包含80GB的高帶寬內(nèi)存(HBM),這表明至少需要44個(gè)H100才能滿足GPT-3的內(nèi)存要求。[28]此外,即使在10000個(gè)V100 GPU上訓(xùn)練GPT-3也需要14.8天。

因此,即使我們?cè)黾佑糜谟?xùn)練的芯片數(shù)量,F(xiàn)LOPS利用率也仍然需要保持高水平,這一點(diǎn)至關(guān)重要。

6360b7c8-ad33-11ed-bfe3-dac502259ad0.jpg

硬件利用率的第一個(gè)維度是在單芯片層面。在單個(gè)A100 GPU上訓(xùn)練GPT-2模型時(shí),硬件利用率達(dá)35.7%[29]。事實(shí)證明,片上內(nèi)存(on-chip memory)和容量是硬件利用的瓶頸之一:處理器內(nèi)核中的計(jì)算需要重復(fù)訪問(wèn)HBM,而帶寬不足會(huì)抑制吞吐量。同樣,有限的本地內(nèi)存容量會(huì)迫使從延遲較高的HBM進(jìn)行更頻繁的讀取,從而限制吞吐量[30]。

硬件利用率的第二個(gè)維度與芯片到芯片的擴(kuò)展有關(guān)。訓(xùn)練像GPT-3這樣的LLM模型需要跨多個(gè)GPU對(duì)模型和數(shù)據(jù)進(jìn)行劃分。正如片上存儲(chǔ)器的帶寬可能成為硬件利用的瓶頸一樣,芯片間互連的帶寬也可能成為硬件利用的限制因素。隨著V100的發(fā)布,NVIDIA的NVLink實(shí)現(xiàn)了每個(gè)GPU 300GB/s的帶寬。對(duì)于A100來(lái)說(shuō),寬帶速度實(shí)現(xiàn)了600GB/s[31]。

硬件利用率的最后一個(gè)維度是系統(tǒng)到系統(tǒng)的擴(kuò)展。一臺(tái)機(jī)器最多可容納16個(gè)GPU,因此擴(kuò)展到更多數(shù)量的GPU要求跨系統(tǒng)的互連不能成為性能瓶頸。為此,Nvidia的Infiniband HCA在過(guò)去3年中將最大帶寬提高了2倍[32]。

在第二和第三個(gè)維度上,軟件劃分策略是硬件有效利用的關(guān)鍵考慮因素。通過(guò)結(jié)合模型和數(shù)據(jù)并行技術(shù),2022年使用MT-NLG的Nvidia芯片集群級(jí)別的LLM訓(xùn)練的模型FLOPS利用率達(dá)到了30.2%[33],而使用GPT-3的模型FLOPS利用率在2020年只有21.3%:

63736044-ad33-11ed-bfe3-dac502259ad0.jpg

選擇LLM的模型FLOPS利用率(PaLM:使用路徑擴(kuò)展語(yǔ)言建模)

TPU等專用硬件實(shí)現(xiàn)了更高的效率。

谷歌5400億參數(shù)的PaLM模型在TPU v4芯片上實(shí)現(xiàn)了46.2%的模型FLOPS利用率,是GPT-3訓(xùn)練利用率的2.2倍[34]

FLOPS利用率的提高得益于更高效的并行訓(xùn)練(使用Google的Pathways ML系統(tǒng))以及從根本上TPU具有完全不同的架構(gòu)。該芯片的脈動(dòng)陣列結(jié)構(gòu)和每個(gè)內(nèi)核的顯著的本地內(nèi)存密度(local memory density)降低了高延遲全局內(nèi)存(global memory)的讀取頻率。

同樣地,我們可以看到Cerebras、Graphcore和SambaNova等公司在處理器中分配了更多的共享內(nèi)存容量。展望未來(lái),我們預(yù)計(jì)其他新興創(chuàng)新,例如將芯片擴(kuò)展到晶圓級(jí)以減少延遲/增加帶寬,或通過(guò)可編程單元優(yōu)化數(shù)據(jù)訪問(wèn)模式等將進(jìn)一步推動(dòng)硬件利用率的發(fā)展[35]。

6 大型語(yǔ)言模型即將迎來(lái)全盛時(shí)期

據(jù)《紐約時(shí)報(bào)》近日?qǐng)?bào)道,谷歌宣稱ChatGPT是其搜索業(yè)務(wù)的“紅色警報(bào)”( code red),它的搜索量呈病毒式發(fā)展。

[36]從經(jīng)濟(jì)角度來(lái)看,通過(guò)粗略估算,將高性能LLM納入搜索將花費(fèi)約15%的查詢收入,這表明該技術(shù)的部署已經(jīng)切實(shí)可行。然而,谷歌的市場(chǎng)主導(dǎo)地位阻礙了它成為這方面的先行者:谷歌目前的搜索收入為1000億美元,將高性能LLM納入搜索會(huì)使谷歌的盈利能力減少一百多億美元。

另一方面,也就難怪微軟會(huì)計(jì)劃將大語(yǔ)言模型納入Bing了[37]。盡管LLM支持的搜索成本高于傳統(tǒng)搜索,并且與谷歌相比,微軟搜索引擎的市場(chǎng)份額要低得多,但是微軟并未虧損。因此,如果微軟能夠成功地從谷歌手中奪取搜索市場(chǎng)份額,那么即使現(xiàn)有查詢成本更高,微軟仍然能夠獲得極高的利潤(rùn)。

有趣的是,對(duì)于其他產(chǎn)品,通過(guò)部署LLM已經(jīng)可以通過(guò)SaaS來(lái)盈利。例如,最近估值為15億美元、使用LLM生成文案的Jasper.ai收費(fèi)為82美元/100000字(相當(dāng)于1.09美元/1000個(gè)token)[38]。使用OpenAI的Davinci API 定價(jià)為 0.02美元/1000個(gè)token,即使我們對(duì)多個(gè)響應(yīng)(response)進(jìn)行采樣,毛利率也可能遠(yuǎn)高于75%。

同樣令人驚訝的是,如今在公有云中僅需約140萬(wàn)美元即可對(duì)GPT-3進(jìn)行訓(xùn)練,而且即使是SOTA模型(如PaLM,約1120萬(wàn)美元)的訓(xùn)練成本也不會(huì)太高。在過(guò)去的兩年半里,類似GPT-3等模型的訓(xùn)練成本下降了80%以上,高性能大語(yǔ)言模型的訓(xùn)練成本將進(jìn)一步降低。

換句話說(shuō),訓(xùn)練大語(yǔ)言模型并不便宜,但也沒(méi)那么燒錢(qián),訓(xùn)練大語(yǔ)言模型需要大量的前期投入,但這些投入會(huì)逐年獲得回報(bào)。更近一步,Chinchilla論文表明,在未來(lái),相比資金,高質(zhì)量數(shù)據(jù)會(huì)成為訓(xùn)練LLM的新興稀缺資源之一,因?yàn)閿U(kuò)展模型參數(shù)數(shù)量帶來(lái)的回報(bào)是遞減的。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ChatGPT背后的經(jīng)濟(jì)賬

文章出處:【微信號(hào):OSC開(kāi)源社區(qū),微信公眾號(hào):OSC開(kāi)源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模電手筆記(22)

    模電手筆記(22)
    的頭像 發(fā)表于 03-12 11:24 ?282次閱讀
    模電手<b class='flag-5'>賬</b>筆記(22)

    模電手筆記(21)

    模電手筆記(21)
    的頭像 發(fā)表于 03-11 10:11 ?264次閱讀
    模電手<b class='flag-5'>賬</b>筆記(21)

    模電手筆記(20)

    模電手筆記(20)
    的頭像 發(fā)表于 03-10 10:12 ?266次閱讀
    模電手<b class='flag-5'>賬</b>筆記(20)

    模電手筆記(19)

    模電手筆記(19)
    的頭像 發(fā)表于 03-07 09:29 ?301次閱讀
    模電手<b class='flag-5'>賬</b>筆記(19)

    模電手筆記(17)

    模電手筆記(17)
    的頭像 發(fā)表于 03-05 08:17 ?316次閱讀
    模電手<b class='flag-5'>賬</b>筆記(17)

    模電手筆記(12)

    模電手筆記(12)
    的頭像 發(fā)表于 02-24 17:02 ?283次閱讀
    模電手<b class='flag-5'>賬</b>筆記(12)

    模電手筆記(10)

    模電手筆記(10)
    的頭像 發(fā)表于 02-20 11:05 ?292次閱讀
    模電手<b class='flag-5'>賬</b>筆記(10)

    模電手筆記(9)

    模電手筆記(9)
    的頭像 發(fā)表于 02-19 10:32 ?328次閱讀
    模電手<b class='flag-5'>賬</b>筆記(9)

    模電手筆記(8)

    模電手筆記(8)
    的頭像 發(fā)表于 02-17 16:58 ?325次閱讀
    模電手<b class='flag-5'>賬</b>筆記(8)

    模電手筆記(7)

    模電手筆記(7)
    的頭像 發(fā)表于 02-13 16:31 ?334次閱讀
    模電手<b class='flag-5'>賬</b>筆記(7)

    模電手筆記(6)

    模電手筆記(6)
    的頭像 發(fā)表于 02-12 15:25 ?338次閱讀
    模電手<b class='flag-5'>賬</b>筆記(6)

    模電手筆記(5)

    模電手筆記(5)
    的頭像 發(fā)表于 02-11 15:32 ?343次閱讀
    模電手<b class='flag-5'>賬</b>筆記(5)

    模電手筆記(3)

    模電手筆記(3)
    的頭像 發(fā)表于 02-08 11:18 ?343次閱讀
    模電手<b class='flag-5'>賬</b>筆記(3)

    模電手筆記(1)

    模電手筆記(1)
    的頭像 發(fā)表于 02-06 20:52 ?311次閱讀
    模電手<b class='flag-5'>賬</b>筆記(1)

    ChatGPT背后的AI背景、技術(shù)門(mén)道和商業(yè)應(yīng)用

    作者:京東科技 李俊兵 各位看官好,我是球神(江湖代號(hào))。 自去年11月30日ChatGPT問(wèn)世以來(lái),迅速爆火出圈。 起初我依然以為這是和當(dāng)年Transformer, Bert一樣的“熱點(diǎn)”模型
    的頭像 發(fā)表于 10-18 15:42 ?3170次閱讀
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>背后</b>的AI背景、技術(shù)門(mén)道和商業(yè)應(yīng)用