一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

最全ChatGPT技術(shù)匯總

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:AINLP ? 2023-03-22 10:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近ChatGPT可以說(shuō)是火遍了全世界,作為由知名人工智能研究機(jī)構(gòu)OpenAI于2022年11月30日發(fā)布的一個(gè)大型語(yǔ)言預(yù)訓(xùn)練模型,他的核心在于能夠理解人類的自然語(yǔ)言,并使用貼近人類語(yǔ)言風(fēng)格的方式來(lái)進(jìn)行回復(fù)。模型開放使用以來(lái),在人工智能領(lǐng)域引起了巨大的轟動(dòng),也成功火出了技術(shù)圈。從數(shù)據(jù)上看,ChatGPT用戶數(shù)在5天內(nèi)就達(dá)到了100萬(wàn),2個(gè)月就達(dá)到了1億;另外,在很多非人工智能領(lǐng)域,已經(jīng)有機(jī)構(gòu)在嘗試用ChatGPT去做一些智能生成的事。例如財(cái)通證券發(fā)布了一篇由ChatGPT生成的行業(yè)研報(bào),從研報(bào)的可讀性和專業(yè)性上來(lái)看,雖然在細(xì)節(jié)上有很多需要推敲的地方,但是整體框架內(nèi)容已經(jīng)比較成熟。對(duì)于其他內(nèi)容生產(chǎn)者來(lái)說(shuō),應(yīng)用ChatGPT也能夠提升個(gè)人的生產(chǎn)效率。

ChatGPT的強(qiáng)大能力是顯而易見的,但對(duì)于人工智能領(lǐng)域不太熟悉的人,對(duì)這種黑盒的技術(shù)仍然會(huì)擔(dān)憂或者不信任??謶滞ǔ?lái)自于不了解,因此本文將為大家全面剖析ChatGPT的技術(shù)原理,盡量以簡(jiǎn)單通俗的文字為大家解惑。

通過(guò)本文,你可以有以下收獲:

1、知道ChatGPT是什么

2、ChatGPT有哪些核心要素

3、ChatGPT能做哪些事

4、ChatGPT不能做哪些事

ChatGPT是什么?

上文說(shuō)到ChatGPT實(shí)際上是一個(gè)大型語(yǔ)言預(yù)訓(xùn)練模型(即Large Language Model,后面統(tǒng)一簡(jiǎn)稱LLM)。什么叫LLM?LLM指的是利用大量文本數(shù)據(jù)來(lái)訓(xùn)練的語(yǔ)言模型,這種模型可以產(chǎn)生出強(qiáng)大的語(yǔ)言關(guān)聯(lián)能力,能夠從上下文中抽取出更多的信息。其實(shí)語(yǔ)言模型的研究從很早就開始了,隨著算力的發(fā)展和數(shù)據(jù)規(guī)模的增長(zhǎng),語(yǔ)言模型的能力隨著模型參數(shù)量的增加而提升。下圖分別展示了LLM在參數(shù)量和數(shù)據(jù)量上的進(jìn)化情況,其中數(shù)據(jù)量圖例展示的是模型在預(yù)訓(xùn)練過(guò)程中會(huì)見到的token數(shù)量,對(duì)于中文來(lái)說(shuō)一個(gè)token就相當(dāng)于一個(gè)中文字符。

99ee11b2-c801-11ed-bfe3-dac502259ad0.jpg

https://www.vinayiyengar.com/2022/08/04/the-promise-and-perils-of-large-language-models/

9a052168-c801-11ed-bfe3-dac502259ad0.jpg

https://babylm.github.io/

為什么語(yǔ)言模型的參數(shù)量和數(shù)據(jù)量會(huì)朝著越來(lái)越大的方向發(fā)展呢?在早些時(shí)間的一些研究已經(jīng)證明,隨著參數(shù)量和訓(xùn)練數(shù)據(jù)量的增大,語(yǔ)言模型的能力會(huì)隨著參數(shù)量的指數(shù)增長(zhǎng)而線性增長(zhǎng),這種現(xiàn)象被稱為Scaling Law(下圖左例)。但是在2022年之后,隨著進(jìn)來(lái)對(duì)大模型的深入研究,人們發(fā)現(xiàn)當(dāng)模型的參數(shù)量大于一定程度的時(shí)候,模型能力會(huì)突然暴漲,模型會(huì)突然擁有一些突變能力(Emergent Ability,下圖右例),如推理能力、零樣本學(xué)習(xí)能力等(后面均會(huì)介紹)。

9a1a19e2-c801-11ed-bfe3-dac502259ad0.jpg

https://franxyao.github.io/blog.html

ChatGPT真正強(qiáng)大的地方在于他除了能夠充分理解我們?nèi)祟惖膯?wèn)題需求外,還能夠用流暢的自然語(yǔ)言進(jìn)行應(yīng)答,這是以前的語(yǔ)言模型不能實(shí)現(xiàn)的。下面,本文將ChatGPT一分為二,分別從GPT和Chat兩個(gè)維度來(lái)介紹ChatGPT的機(jī)理。值得說(shuō)明的是:當(dāng)前OpenAI并未放出ChatGPT相關(guān)的訓(xùn)練細(xì)節(jié)和論文,也沒(méi)有開源代碼,只能從其技術(shù)BLOG上獲取其大致的訓(xùn)練框架和步驟,因此本文介紹的內(nèi)容將根據(jù)后續(xù)實(shí)際發(fā)布的官方細(xì)節(jié)而更新。

GPT

GPT全稱Generative Pre-training Transformer,由Google在2018年提出的一種預(yù)訓(xùn)練語(yǔ)言模型。他的核心是一個(gè)Transformer結(jié)構(gòu),主要基于注意力機(jī)制來(lái)建模序列中不同位置之間的關(guān)聯(lián)關(guān)系,最后可用于處理序列生成的任務(wù)。通過(guò)使用大量的文本數(shù)據(jù),GPT可以生成各種各樣的文本,包括對(duì)話、新聞報(bào)道、小說(shuō)等等。上面提到了很多次語(yǔ)言模型,這里簡(jiǎn)單給出語(yǔ)言模型主要的涵義:

給定已知的token序列N_t(對(duì)中文來(lái)說(shuō)是字符,對(duì)英文來(lái)說(shuō)可能是單詞或者詞根),通過(guò)語(yǔ)言模型來(lái)預(yù)測(cè)t+1位置上的token是什么。實(shí)際上模型輸出的是所有token在t+1位置上的概率向量,然后根據(jù)概率最大的準(zhǔn)則選擇token。大家在使用ChatGPT的時(shí)候,一定有發(fā)現(xiàn)機(jī)器人在生成回復(fù)的時(shí)候是一個(gè)字一個(gè)字的順序,背后的機(jī)制就是來(lái)自于這邊。

9a2e605a-c801-11ed-bfe3-dac502259ad0.jpg

cs224n(https://web.stanford.edu/class/cs224n/slides/cs224n-2023-lecture11-prompting-rlhf.pdf)

對(duì)語(yǔ)言模型來(lái)說(shuō),可能大家之前更熟悉的是BERT,BERT是Google在2018年發(fā)布的一種雙向語(yǔ)言模型,發(fā)布后,其在不同語(yǔ)言理解類任務(wù)(如文本分類,信息抽取,文本相似度建模)中都達(dá)到了當(dāng)期時(shí)間節(jié)點(diǎn)的最好效果。BERT與上述語(yǔ)言模型的機(jī)理有所不同,其訓(xùn)練任務(wù)相當(dāng)于讓模型去做完形填空任務(wù)(官方稱為Masked Language Model任務(wù),下文簡(jiǎn)稱MLM),并不是遵循文本一個(gè)接一個(gè)預(yù)測(cè)的順序,其模型機(jī)制與人類溝通表達(dá)的習(xí)慣不太符合。圖中左半部分是BERT的示意圖,右半部是GPT的示意圖,Trm為一個(gè)Transformer模型組件,E為輸入的token序列,T為模型生成的token序列。其中,實(shí)線部分為該位置的Trm能夠看到哪些其他位置token的上下文知識(shí)。可以看到,對(duì)于BERT來(lái)說(shuō),每個(gè)位置上的Trm都能看到任意位置的上下文知識(shí),因此其在具體的自然語(yǔ)言理解任務(wù)上會(huì)有不錯(cuò)的效果。而GPT則是遵循傳統(tǒng)語(yǔ)言模型的模式,例如index=1位置的Trm是無(wú)法看到index>1的知識(shí)的,因此它在自然語(yǔ)言理解任務(wù)上的效果不如BERT,但是在生成任務(wù)上會(huì)更符合人類的直覺(jué)。業(yè)界把BERT中的MLM模式稱為自編碼形式(auto-encoding),把GPT的模式稱為自回歸形式(auto-regressive)。

9a44cb7e-c801-11ed-bfe3-dac502259ad0.jpg

https://arxiv.org/abs/2302.09419

大家從BERT和GPT的對(duì)比中可以看到,BERT在語(yǔ)言理解上似乎更具優(yōu)勢(shì),那為何現(xiàn)在ChatGPT的模型基座是GPT呢?這就涉及到最近兩年逐漸清晰的NLP任務(wù)大一統(tǒng)趨勢(shì)了。

NLP任務(wù)大一統(tǒng)

基于MLM訓(xùn)練范式得到的BERT模型雖然在很多語(yǔ)言理解類任務(wù)上有不錯(cuò)的效果下游任務(wù),之后整個(gè)業(yè)界在處理NLP任務(wù)的時(shí)候通常會(huì)遵循預(yù)訓(xùn)練模型→下游任務(wù)finetune的流程:

9a514818-c801-11ed-bfe3-dac502259ad0.jpg

這種方式與傳統(tǒng)的training from scratch相比,對(duì)下游任務(wù)數(shù)據(jù)的需求量更少,得到的效果也更優(yōu)。不過(guò),上述方式還是存在一些問(wèn)題:

處理一個(gè)新的任務(wù)就需要標(biāo)注新的語(yǔ)料,對(duì)語(yǔ)料的需求比較大,之前已經(jīng)做過(guò)的任務(wù)語(yǔ)料無(wú)法高效利用。即使是信息抽取下面的不同任務(wù)(如實(shí)體識(shí)別和關(guān)系抽取兩個(gè)任務(wù))也無(wú)法通用化。

處理一個(gè)新的任務(wù)需要針對(duì)任務(wù)特性設(shè)計(jì)整體模型方案,雖然BERT模型的底座已經(jīng)確定,但還是需要一定的設(shè)計(jì)工作量。例如文本分類的任務(wù)和信息抽取的任務(wù)的模型方案就完全不同。

對(duì)于要走向通用人工智能方向的人類來(lái)說(shuō),這種范式很難達(dá)到通用,對(duì)每個(gè)不同任務(wù)都用單獨(dú)的模型方案和數(shù)據(jù)來(lái)訓(xùn)練顯然也是低效的。因此,為了讓一個(gè)模型能夠盡量涵蓋更多的任務(wù),業(yè)界嘗試了幾種不同的路徑來(lái)實(shí)現(xiàn)這個(gè)目標(biāo)。

對(duì)BERT中的MLM進(jìn)行改造,如引入一些特殊的Mask機(jī)制,使其能夠同時(shí)支持多種不同任務(wù),典型的模型如UniLM(https://arxiv.org/abs/1905.03197)

引入額外的Decoder,將BERT優(yōu)化改造成能做生成式的模型,典型的工作有BART(https://arxiv.org/abs/1910.134611),T5(https://arxiv.org/pdf/1910.10683.pdf3.pdf333),百度的UIE(將任務(wù)設(shè)計(jì)生成text-to-structure的形式實(shí)現(xiàn)信息抽取的大一統(tǒng) )。我對(duì)T5比較熟悉,之前也寫過(guò)相關(guān)的分析,這個(gè)工作算是比較早地嘗試將不同任務(wù)通過(guò)文本生成的方式進(jìn)行大一統(tǒng)。如圖所示,T5訓(xùn)練時(shí)直接輸入了不同下游NLP任務(wù)的標(biāo)注數(shù)據(jù),通過(guò)在原始文本的前端添加任務(wù)的提示文本,來(lái)讓模型學(xué)習(xí)不同任務(wù)的特性。如翻譯任務(wù)可以是”translate English to German”,分類任務(wù)可以是跟具體分類目標(biāo)有關(guān)如”cola sentence”,也可以是一種摘要任務(wù)”summarize”。

怎么樣,是不是覺(jué)得跟ChatGPT的模式有相似的地方?

這種方式可以同時(shí)利用多種NLP任務(wù)相關(guān)的公開數(shù)據(jù)集,一下子就把預(yù)訓(xùn)練任務(wù)從語(yǔ)言模型擴(kuò)展到了更多任務(wù)類型中,增強(qiáng)了模型的通用性以及對(duì)下游任務(wù)的理解能力。

9a606e7e-c801-11ed-bfe3-dac502259ad0.jpg

T5數(shù)據(jù)構(gòu)建實(shí)例

除了上面兩種方式外,還有其他改造BERT的方法就不窮舉了,如蘇神通過(guò)Gibbs采樣來(lái)實(shí)現(xiàn)BERT模型的文本生成等。(https://kexue.fm/archives/8119)

雖然有很多大一統(tǒng)的路徑,但是OpenAI一直堅(jiān)持著GPT的方向不斷演化著,2019年他們發(fā)布了GPT2,這個(gè)模型相對(duì)于GPT來(lái)說(shuō),主要是擴(kuò)大了參數(shù)量,擴(kuò)大了訓(xùn)練語(yǔ)料,在構(gòu)建語(yǔ)料的時(shí)候隱式地包含了multitask或者multidomain的特質(zhì),最后在二階段驗(yàn)證模型的時(shí)候并不是直接做有監(jiān)督的finetune,而是繼續(xù)用下游數(shù)據(jù)做無(wú)監(jiān)督的訓(xùn)練,最后的效果居然還不錯(cuò),證明了只要模型夠大,就能學(xué)到足夠的知識(shí)用于處理一些下游任務(wù)。從它的論文名字就可以看出來(lái)與其核心思想:Language models are unsupervised multitask learners 。不過(guò)彼時(shí),BERT及其各種變種在領(lǐng)域中的應(yīng)用還是更廣的,真正讓GPT系列模型驚艷眾人的工作還是要數(shù)2020年發(fā)布的GPT-3模型。(https://arxiv.org/abs/2005.141655)

GPT-3

首先,說(shuō)幾個(gè)跟GPT-3相關(guān)的數(shù)字:

9a7661fc-c801-11ed-bfe3-dac502259ad0.jpg

OpenAI訓(xùn)練初版的GPT-3,比GPT-2整整用了15倍的語(yǔ)料,同時(shí)模型參數(shù)量擴(kuò)展了100多倍。這么多資源的投入,使得GPT-3成為了一個(gè)“龐然巨物”,其產(chǎn)生的效果也是驚人的。除了在很多NLP的任務(wù)上有著很不錯(cuò)的指標(biāo)外,其本身也產(chǎn)生了一種前所未有的能力——In-context learning。

何為In-context learning?

簡(jiǎn)單來(lái)說(shuō),就是模型在不更新自身參數(shù)的情況下,通過(guò)在模型輸入中帶入新任務(wù)的描述與少量的樣本,就能讓模型”學(xué)習(xí)”到新任務(wù)的特征,并且對(duì)新任務(wù)中的樣本產(chǎn)生不錯(cuò)的預(yù)測(cè)效果。這種能力可以當(dāng)做是一種小樣本學(xué)習(xí)能力??梢詤⒖枷聢D的例子來(lái)理解:其中,task description和examples用來(lái)幫助模型學(xué)習(xí)新任務(wù),最后的Prompt用來(lái)測(cè)試模型是否學(xué)會(huì)了。

9a84c0c6-c801-11ed-bfe3-dac502259ad0.jpg

與傳統(tǒng)的小樣本學(xué)習(xí)范式還是有所不同,之前主流的小樣本學(xué)習(xí)范式以Meta-learning為主,通過(guò)將訓(xùn)練數(shù)據(jù)拆成不同的小任務(wù)進(jìn)行元學(xué)習(xí)。在學(xué)習(xí)的過(guò)程中,模型的參數(shù)是一直在變化的,這是最大的一個(gè)不同點(diǎn)。

那不更新參數(shù)的小樣本學(xué)習(xí)有什么好處呢?

對(duì)于大模型來(lái)說(shuō),這可是極佳的特性。因?yàn)榇竽P偷奈⒄{(diào)成本通常都極為龐大,很少有公司能夠具備微調(diào)訓(xùn)練的資源。因此,如果能夠通過(guò)In-context learning的特性,讓大模型快速學(xué)習(xí)下游任務(wù),在相對(duì)較小的成本下(對(duì)大模型進(jìn)行前向計(jì)算)快速完成算法需求,可以大大提升技術(shù)部門的生產(chǎn)力。

In-context learning的效果固然驚艷,但是對(duì)于一些包含復(fù)雜上下文或者需要多步推理的任務(wù)仍然有其局限性,這也是業(yè)界一直以來(lái)致力于讓人工智能擁有的能力——推理能力。那么大模型具有推理能力嗎?對(duì)于GPT-3來(lái)說(shuō),答案是可以有,但有一定的限制。我們先來(lái)看看它有的部分。

還記得文章開頭提到的大模型的涌現(xiàn)能力吧,In-context正是屬于當(dāng)模型參數(shù)量達(dá)到一定程度后,突然出現(xiàn)的能力之一。那么除此以外,還有什么能力是涌現(xiàn)的呢?答案就是——Chain-of-thought,即思維鏈能力。

怎么理解In-context learning?

GPT-3擁有的In-context learning能力可以說(shuō)有很大程度來(lái)自于其龐大的參數(shù)量和訓(xùn)練數(shù)據(jù),但是具體能力來(lái)源仍然難以溯源。不過(guò),最近已經(jīng)有一些論文專門針對(duì)其進(jìn)行了研究,如清華大學(xué)、北京大學(xué)和微軟的研究員共同發(fā)表了一篇論文:https://arxiv.org/abs/2212.105599,探索了GPT作為一個(gè)語(yǔ)言模型,可以視作是一個(gè)元優(yōu)化器,并可將In-context learning理解為一種隱性的微調(diào)。

何為Chain-of-thought(COT)?

實(shí)際上是對(duì)輸入的Prompt采用Chain-of-thought的思想進(jìn)行改寫。傳統(tǒng)的Prompt中,對(duì)于一個(gè)復(fù)雜或者需要多步計(jì)算推導(dǎo)的問(wèn)題樣例,會(huì)直接給出答案作為In-context learning的學(xué)習(xí)范例與新任務(wù)的測(cè)試樣例輸入到大模型中。這樣做往往不能得到正確的結(jié)果,如圖所示:(https://arxiv.org/pdf/2205.11916.pdf6.pdf)

9a959e28-c801-11ed-bfe3-dac502259ad0.jpg

然而,當(dāng)我們將上述問(wèn)題范例中的答案再細(xì)化一些,對(duì)推到出答案的每一個(gè)步驟都寫出來(lái),再將測(cè)試樣例一起輸入到模型中,此時(shí)模型居然能夠正確回答了,而且也能夠參照范例中的樣例進(jìn)行一定的推理,如圖所示:

9aa9d9c4-c801-11ed-bfe3-dac502259ad0.jpg

上述的模型輸入中,還帶有可參考的問(wèn)題范例,還屬于小樣本的范疇。詭異的是,有人使用了一種匪夷所思的方法,讓其具備了零樣本的推理能力:在問(wèn)題樣例的答案中增加一句Let’s think step by step. 然后模型居然能夠回答出之前不能回答的問(wèn)題。

9ac11fee-c801-11ed-bfe3-dac502259ad0.jpg

當(dāng)然,上圖中模型并未直接給出一個(gè)簡(jiǎn)潔的答案,而是給出了推導(dǎo)答案的步驟,論文中則是將上述output與輸入模型的Prompt拼在一塊,再次輸入模型,最終得到了簡(jiǎn)潔的答案輸出:

9adc9238-c801-11ed-bfe3-dac502259ad0.jpg

既然大模型具備了COT的特性,那么就能說(shuō)明它具備了推理能力了嗎?答案是不確定的。因?yàn)樵诟嗟膹?fù)雜邏輯推理類任務(wù)或者計(jì)算任務(wù)上,大模型還是無(wú)法回答。簡(jiǎn)單來(lái)說(shuō)就是他可以做一些簡(jiǎn)單的小學(xué)應(yīng)用題,但是稍微復(fù)雜一點(diǎn)的問(wèn)題它就是在瞎猜了。具體的例子可以參考這篇論文中的分析:https://arxiv.org/abs/2208.050511

Chain-of-Thought能力來(lái)自于哪兒?

上一小節(jié)在介紹COT特性的時(shí)候,都是統(tǒng)一用GPT-3來(lái)代表。其實(shí),**原始的GPT-3版本中并沒(méi)有顯著地發(fā)現(xiàn)其具備COT特性。**對(duì)于大眾來(lái)說(shuō),像是chatGPT突然就有了這樣的能力。其實(shí),在chatGPT出來(lái)之前,openAI對(duì)GPT-3做了很多迭代優(yōu)化工作。而GPT-3的COT特性就是在這些迭代優(yōu)化中逐漸展現(xiàn)。但不可否認(rèn)的是,目前仍然沒(méi)有確定性的結(jié)論說(shuō)明COT特性來(lái)自于具體哪些迭代優(yōu)化。有些觀點(diǎn)說(shuō)是通過(guò)引入強(qiáng)化學(xué)習(xí),有些觀點(diǎn)則是說(shuō)通過(guò)引入了指令微調(diào)的訓(xùn)練方式,也有些觀點(diǎn)說(shuō)是通過(guò)引入龐大的代碼預(yù)訓(xùn)練語(yǔ)料,使得模型從代碼邏輯中學(xué)習(xí)到了相應(yīng)知識(shí)。推測(cè)的方式則是根據(jù)不同時(shí)間節(jié)點(diǎn)上的模型版本能力差進(jìn)行排除法,雖然目前我們受限于技術(shù)能力只能從這些蛛絲馬跡中去發(fā)現(xiàn)一些端倪,但仍然具有一定的借鑒意義。具體的推理過(guò)程本文不會(huì)重復(fù),感興趣的可以參考如下博客:https://franxyao.github.io/blog.html.html。

Instruction-Tuning與RLHF技術(shù)

雖然對(duì)于大模型突變能力的來(lái)源還不能輕易下結(jié)論,但是在其迭代優(yōu)化過(guò)程中,引入的一些技術(shù)確實(shí)提升了(更準(zhǔn)確得說(shuō)是激活)大模型的能力。根據(jù)OpenAI的技術(shù)博客所述,ChatGPT的訓(xùn)練方式主要參考了InstructGPT(https://arxiv.org/abs/2203.021555),而InstructGPT主要涉及了兩個(gè)核心的技術(shù)實(shí)現(xiàn):指令微調(diào)(Instruction-Tuning)以及基于人工反饋的強(qiáng)化學(xué)習(xí)(Reinforcement learning from Human Feedback),下面將對(duì)其進(jìn)行介紹。

Instruction-Tuning

Instruction-Tuning(下稱指令微調(diào))技術(shù),最早來(lái)自于谷歌Deepmind的Quoc V.Le團(tuán)隊(duì)在2021年發(fā)表的論文《Finetuned Language Models Are Zero-Shot Learners》(https://arxiv.org/abs/2109.016522)。在說(shuō)指令微調(diào)前,必須得先介紹下21年初開始業(yè)界開始關(guān)注的Prompt-learning范式。2021年4月,我在InfoQ的架構(gòu)師大會(huì)上做了一次技術(shù)演講,分享了我們?cè)赑rompt上的一些研究實(shí)踐,如下圖所示:

9ae898d0-c801-11ed-bfe3-dac502259ad0.jpg

Prompt-learning最早來(lái)自于論文《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference》(https://arxiv.org/abs/2001.076766),當(dāng)時(shí)把里面的范式簡(jiǎn)稱為PET(Pattern-exploiting Training)。其核心思想為將不同類型的自然語(yǔ)言理解任務(wù)與BERT預(yù)訓(xùn)練中的掩碼語(yǔ)言模型任務(wù)進(jìn)行轉(zhuǎn)化靠攏。例如對(duì)于圖中的實(shí)體情感分類任務(wù),本身其分類標(biāo)簽是一個(gè)三維的空間。我通過(guò)設(shè)置一個(gè)prompt提示文本模板:由此可見,英偉達(dá)的輿情是{},同時(shí)設(shè)計(jì)一個(gè)錨點(diǎn),將原始分類目標(biāo)的空間映射到語(yǔ)言模型中的子空間{正/負(fù)/中},通過(guò)預(yù)測(cè)錨點(diǎn)位置的token間接得到情感標(biāo)簽。這種方式的優(yōu)點(diǎn)在于能夠?qū)⑾掠稳蝿?wù)與語(yǔ)言模型在預(yù)訓(xùn)練任務(wù)中的訓(xùn)練范式達(dá)成一致,減少下游任務(wù)在模型學(xué)習(xí)遷移過(guò)程中的知識(shí)損失,在小樣本的場(chǎng)景下比普通的Finetune模式會(huì)有更好的效果。Prompt-learning實(shí)際上是一種語(yǔ)言模型能夠股泛化不同任務(wù)的方式,從廣義層面上來(lái)看,可以有多種實(shí)現(xiàn)方式,例如上面的PET,本文之前提到的T5模型,以及初版的GPT-3等。指令微調(diào)實(shí)際上也可以算作是廣義Prompt-learning中的一種實(shí)現(xiàn)方式(個(gè)人愚見)。它的核心思想是盡可能收集不同類型的自然語(yǔ)言處理任務(wù)(包括理解和生成),并使用自然語(yǔ)言設(shè)計(jì)對(duì)應(yīng)的任務(wù)指令,讓模型試圖理解不同任務(wù)的指令與特性,最終通過(guò)語(yǔ)言模型生成的方式完成不同任務(wù)的訓(xùn)練,指令微調(diào)實(shí)例如下圖所示:

9afee13a-c801-11ed-bfe3-dac502259ad0.jpg

那么指令微調(diào)與BERT、T5、GPT-3等Prompt方式有什么區(qū)別呢?

9b0c327c-c801-11ed-bfe3-dac502259ad0.jpg

BERT類的Prompt設(shè)計(jì)與掩碼語(yǔ)言模型任務(wù)相關(guān),Prompt模板和錨點(diǎn)要與任務(wù)對(duì)應(yīng),需要一定量的標(biāo)注樣本進(jìn)行小樣本訓(xùn)練。

T5的Prompt更像是在預(yù)訓(xùn)練時(shí)對(duì)不同語(yǔ)言任務(wù)的數(shù)據(jù)打上了不同的標(biāo)記,讓模型對(duì)語(yǔ)言任務(wù)有了初步的理解,但是不夠深入,無(wú)法應(yīng)用在零樣本的場(chǎng)景。

GPT-3的Prompt中,會(huì)基于在模型訓(xùn)練過(guò)程中見過(guò)的數(shù)據(jù),更像是讓模型將Prompt中的文本進(jìn)行續(xù)寫。這種方式可以幫助模型更好地理解用戶輸入的內(nèi)容,并產(chǎn)生更準(zhǔn)確和自然的輸出。但其在零樣本場(chǎng)景下效果仍然不佳。

指令微調(diào)技術(shù)使用Prompt來(lái)為模型提供一系列指令或者命令,這些指令或命令會(huì)告訴模型應(yīng)該如何進(jìn)行特定任務(wù)的處理。與GPT-3中的Prompt不同,指令微調(diào)中的Prompt是針對(duì)特定任務(wù)和特定的模型進(jìn)行設(shè)計(jì)的,相當(dāng)于是指導(dǎo)模型如何完成任務(wù)。指令微調(diào)技術(shù)提升了模型的零樣本學(xué)習(xí)能力。模型對(duì)于未見過(guò)的任務(wù)也能夠理解并嘗試處理。在GPT-3后續(xù)的迭代版本中,加入了指令微調(diào)后,即使在Prompt中不引入帶標(biāo)注的樣本,模型也能夠比較好的理解需求并得到不錯(cuò)的效果。

目前公開開源的模型FLAN T5就是在T5模型基礎(chǔ)上進(jìn)行了指令微調(diào)的訓(xùn)練,相較于那些動(dòng)輒幾百億、幾千億參數(shù)的大模型來(lái)說(shuō),這個(gè)模型的參數(shù)量已經(jīng)足夠親民,可以作為個(gè)人研究或者業(yè)務(wù)實(shí)現(xiàn)的strong baseline

在ChatGPT公開后,各種五花八門的Prompt層出不窮。有讓其作為一個(gè)linux終端的,有讓其作為一個(gè)二次元貓娘的,也有讓他寫武俠小說(shuō)的。感覺(jué)上ChatGPT可以做任何事情,只要你的腦洞足夠大。這種通才特質(zhì)有很大一部分要?dú)w功于指令微調(diào)。只要我們?cè)O(shè)計(jì)的Prompt指令足夠清晰完整,模型總能夠理解我們要干什么,并盡量按照我們的需求去完成任務(wù)。我認(rèn)為這是其有別于過(guò)往大模型的重要特性之一。

深度強(qiáng)化學(xué)習(xí)簡(jiǎn)述

指令微調(diào)技術(shù)固然強(qiáng)大,但是其本身也存在一定的缺點(diǎn):

一些開放性的生成性語(yǔ)言任務(wù)并不存在固定正確的答案。因此在構(gòu)建指令微調(diào)的訓(xùn)練集時(shí),就無(wú)法覆蓋這些任務(wù)了。

語(yǔ)言模型在訓(xùn)練的時(shí)候,對(duì)于所有token層面的錯(cuò)誤懲罰是同等對(duì)待的。然而在文本生成時(shí),有些token生成錯(cuò)誤是非常嚴(yán)重的,需要加權(quán)懲罰。換句話說(shuō),語(yǔ)言模型的訓(xùn)練任務(wù)目標(biāo)與人類的偏好存在gap。

綜上,我們需要模型能夠?qū)W習(xí)如何去滿足人類的偏好,朝著人類滿意的更新模型參數(shù)。因此,我們就需要引入人類對(duì)模型的獎(jiǎng)懲方法(Reward)作為模型的引導(dǎo),簡(jiǎn)稱?

9b1d1254-c801-11ed-bfe3-dac502259ad0.png

(?)∈?R(s)越高,模型的就越能滿足人類偏好。很自然的,我們就能將最大化

9b2acfde-c801-11ed-bfe3-dac502259ad0.png

即R的期望。一般來(lái)說(shuō),對(duì)于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練來(lái)說(shuō),需要設(shè)計(jì)一個(gè)可微的目標(biāo)函數(shù),這樣才能應(yīng)用梯度下降法來(lái)對(duì)模型進(jìn)行參數(shù)更新學(xué)習(xí)。然而,人類的R一般很難設(shè)計(jì)成可微的,因此不能直接用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,因此就有了強(qiáng)化學(xué)習(xí)的誕生。近年來(lái),強(qiáng)化學(xué)習(xí)領(lǐng)域也在飛速發(fā)展,有了alphaGo系列的驚艷效果,有很多研究都將強(qiáng)化學(xué)習(xí)開始與深度學(xué)習(xí)進(jìn)行了結(jié)合。比較典型的研究為Policy Gradient methods(基于策略的梯度方法)。基于上述的訓(xùn)練目標(biāo)函數(shù),我們?nèi)匀粦?yīng)用梯度計(jì)算來(lái)進(jìn)行參數(shù)更新:

9b380780-c801-11ed-bfe3-dac502259ad0.jpg

對(duì)于這個(gè)公式有兩個(gè)問(wèn)題:

如何估計(jì)R(*)的期望函數(shù)?

如果R(*)是一個(gè)不可微的函數(shù),該如何計(jì)算梯度?

Policy Gradient methods就是用來(lái)解決上述問(wèn)題的。通過(guò)一系列的公式變換(過(guò)程就不放了,大家可以參考斯坦福cs224n),可以得到以下式子:

9b497ae2-c801-11ed-bfe3-dac502259ad0.jpg

我們將梯度計(jì)算移到了計(jì)算期望的式子內(nèi)。雖然我們不能直接計(jì)算期望,但是可以采用蒙特卡洛采樣的方法,去采樣得到目標(biāo)梯度的無(wú)偏估計(jì)。

將上式重新代入梯度更新的式子中,得到:

9b56898a-c801-11ed-bfe3-dac502259ad0.jpg

此時(shí),在梯度更新時(shí)候我們會(huì)有兩種趨勢(shì):

當(dāng)R為正的時(shí)候,說(shuō)明對(duì)當(dāng)前策略選擇 Si??有獎(jiǎng)勵(lì),因此我們需要讓梯度沿著最大化???(??)

9b695a60-c801-11ed-bfe3-dac502259ad0.png的方向更新

當(dāng)R為負(fù)的時(shí)候,說(shuō)明對(duì)當(dāng)前策略選擇 Si??有懲罰,因此我們需要讓梯度沿著最小化???(??)

9b695a60-c801-11ed-bfe3-dac502259ad0.png的方向更新

通過(guò)這種方式,我們就讓模型逐漸逼近R所期望的方向?qū)W習(xí)。

ChatGPT也將強(qiáng)化學(xué)習(xí)的技術(shù)進(jìn)行了應(yīng)用集成,通過(guò)人機(jī)結(jié)合,成功讓模型學(xué)會(huì)了人類的偏好。這種技術(shù)就是Reinforcement learning from Human Feedback,以下簡(jiǎn)稱RLHF。

因?yàn)楸救藢?duì)強(qiáng)化學(xué)習(xí)領(lǐng)域不太熟悉,所以不足以完全解釋其中的原理機(jī)制。因此主要參考斯坦福cs224n課程系列中對(duì)于該部分的宏觀層面講解。

RLHF

有了上面的強(qiáng)化學(xué)習(xí)技術(shù),我們現(xiàn)在能夠?qū)σ恍┎豢晌⒌暮瘮?shù)進(jìn)行梯度學(xué)習(xí),我們就能引入一些符合人類期望的獎(jiǎng)勵(lì)函數(shù)作為模型訓(xùn)練目標(biāo)。但是,這套工作流程讓然存在一些問(wèn)題:

整個(gè)訓(xùn)練過(guò)程需要人工不斷對(duì)模型的策略選擇進(jìn)行獎(jiǎng)懲的判斷,訓(xùn)練的時(shí)間成本陡然上升。

為了降低訓(xùn)練成本,先標(biāo)注適量的數(shù)據(jù)集,讓人先給出偏好標(biāo)注。然后,我們基于這個(gè)數(shù)據(jù)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型???(?)9b8f8f46-c801-11ed-bfe3-dac502259ad0.png,用來(lái)自動(dòng)生成人類對(duì)一個(gè)數(shù)據(jù)的偏好回答。

人本身會(huì)存在主觀偏差,因此對(duì)數(shù)據(jù)的標(biāo)注或者模型策略的評(píng)價(jià)也會(huì)有偏差。

為了能夠?qū)θ祟惖闹饔^偏差有一定的魯棒性,不直接給出一個(gè)具體的好壞答復(fù),而是采用一種Pairwise Comparison的方式,當(dāng)生成一個(gè)文本輸出時(shí),人類可以對(duì)其進(jìn)行成對(duì)比較,以指出其中更好或更合適的內(nèi)容。例如,在文本摘要任務(wù)中,人類可以比較兩個(gè)不同版本的摘要,并選擇更好的那一個(gè)。這些成對(duì)比較可以幫助 InstructGPT 學(xué)習(xí)到人類的喜好和優(yōu)先級(jí),從而更好地生成高質(zhì)量的文本輸出。為了實(shí)現(xiàn) Pairwise Comparison,需要設(shè)計(jì)一些有效的算法和策略,以便生成不同版本的文本輸出,并對(duì)它們進(jìn)行比較。具體來(lái)說(shuō),可以使用類似于基于排序的學(xué)習(xí)方法的算法來(lái)訓(xùn)練模型,并優(yōu)化生成策略和模型參數(shù),以便更好地滿足人類反饋的需求:

9b9d8d62-c801-11ed-bfe3-dac502259ad0.jpg

圖中,w和l分別代表兩個(gè)不同的模型生成結(jié)果,從人類的視角看w的結(jié)果更優(yōu),因此w的分?jǐn)?shù)應(yīng)該也要大于l。

最后我們將RLHF的核心步驟串聯(lián)起來(lái):

9baa3a12-c801-11ed-bfe3-dac502259ad0.png

InstructGPT中的RLHF

下圖為目前最常見的InstructGPT訓(xùn)練流程。

9bd7eea8-c801-11ed-bfe3-dac502259ad0.jpg

9beba380-c801-11ed-bfe3-dac502259ad0.png

ChatGPT中的RLHF

根據(jù)OpenAI發(fā)布的技術(shù)博客所述,ChatGPT的訓(xùn)練方式與InstructGPT幾乎相同,僅在收集數(shù)據(jù)的時(shí)候采用了不同的方式,具體細(xì)節(jié)并沒(méi)有公布,只提到他們讓人工的標(biāo)注人員同時(shí)扮演對(duì)話過(guò)程中的用戶與機(jī)器人,并通過(guò)一系列準(zhǔn)則規(guī)范指導(dǎo)他們?nèi)绾尉幣艑?duì)話中的回復(fù),最終生成了對(duì)話場(chǎng)景的訓(xùn)練數(shù)據(jù)。最終,他們將其與InstructGPT的數(shù)據(jù)集進(jìn)行的融合,并統(tǒng)一轉(zhuǎn)化為對(duì)話的形式。另外,在訓(xùn)練Reward模型時(shí),他們通過(guò)讓人工標(biāo)注人員與對(duì)話機(jī)器人進(jìn)行對(duì)話來(lái)產(chǎn)生會(huì)話語(yǔ)料,并從中選擇一個(gè)模型生成的消息,通過(guò)采樣的方式生成多個(gè)不同的補(bǔ)全文本,并由標(biāo)注人員進(jìn)行打分排序,形成Pairwise Comparison數(shù)據(jù)。

ChatGPT訓(xùn)練的工程難度

至此,本文將ChatGPT相關(guān)的技術(shù)要點(diǎn)已經(jīng)做了一個(gè)整體的介紹,通過(guò)上文描述,我們可以看到OpenAI在研發(fā)ChatGPT的過(guò)程中投入了非常多的成本與研發(fā)精力,另外要訓(xùn)練出這樣一個(gè)體量的模型,對(duì)于工程化的要求也是非常高的,包括對(duì)數(shù)據(jù)的清洗、大規(guī)模分布式訓(xùn)練的工程化以及大模型大數(shù)量下的訓(xùn)練穩(wěn)定性技術(shù)等。就我個(gè)人而言,之前有研究并實(shí)施過(guò)BERT-LARGE模型的預(yù)訓(xùn)練,其參數(shù)量肯定不能與ChatGPT相比,但在訓(xùn)練中,也遇到過(guò)loss飄飛、訓(xùn)練中斷卡殼的情況。因此,這樣一個(gè)成果是算法與工程緊密結(jié)合的產(chǎn)物,其效果之好也就不奇怪了。

ChatGPT的能與不能

當(dāng)前,伴隨著ChatGPT的接口開放,已經(jīng)涌現(xiàn)出了很多有趣的應(yīng)用。我按照自己的觀察,總結(jié)了ChatGPT擅長(zhǎng)做的以及不擅長(zhǎng)做的事。

ChatGPT的能

ChatGPT雖然以對(duì)話機(jī)器人的產(chǎn)品形態(tài)提供服務(wù),但是其本質(zhì)上還是基于語(yǔ)言模型的能力。在應(yīng)用層面上,他有三個(gè)強(qiáng)大的特質(zhì):

對(duì)人類輸入的需求理解能力特別強(qiáng)。

善于進(jìn)行知識(shí)的檢索與整合。

生成能力很強(qiáng),在長(zhǎng)距離生成過(guò)程中不會(huì)有重復(fù)、不通順、機(jī)械等傳統(tǒng)生成模型固有的問(wèn)題。

因此,適合其大展身手的場(chǎng)景可包括:

基于搜索的問(wèn)答

目前最典型的場(chǎng)景就是繼承了ChatGPT的New Bing。ChatGPT本身存在知識(shí)信息無(wú)法自更新的缺點(diǎn),導(dǎo)致產(chǎn)生的回復(fù)無(wú)法緊跟時(shí)代。因此,將搜索引擎與ChatGPT進(jìn)行集成就顯得水到渠成了。據(jù)了解,微軟通過(guò)一種稱為“普羅米修斯”的模型機(jī)制,將搜索與ChatGPT的生成能力進(jìn)行了整合。以最近比較火的“硅谷銀行破產(chǎn)”事件為例,我們有如下提問(wèn):

9bfd231c-c801-11ed-bfe3-dac502259ad0.jpg

可以看到New Bing回答得還不錯(cuò)。從New Bing的回復(fù)方式可以去猜測(cè)其運(yùn)行機(jī)制:先通過(guò)搜索引擎召回與問(wèn)題相關(guān)的網(wǎng)絡(luò)實(shí)時(shí)信息,并提取其中的文本。然后將所有相關(guān)文本構(gòu)造成Prompt輸入到ChatGPT中,要求其生成完整的回答。另外,在回答中還會(huì)標(biāo)識(shí)出答案內(nèi)容的來(lái)源。

除了New Bing之外,基于文檔的輔助閱讀也是非常典型的場(chǎng)景。最近比較火的ChatPDF能夠上傳論文等PDF文件,并支持對(duì)文檔的QA問(wèn)答。這實(shí)際上也是一種問(wèn)答搜索。

處理各種基礎(chǔ)的NLP任務(wù)

我們可以將他包裝成一個(gè)通用的NLP工具平臺(tái),處理各種任務(wù),包括但不限于文本分類、信息抽取、文本摘要、機(jī)器翻譯等。通過(guò)上述章節(jié)的介紹可知,GPT-3系列模型支持小樣本和零樣本學(xué)習(xí)的能力,因此應(yīng)用他來(lái)做NLP任務(wù)可以降低人工標(biāo)注的成本,并得到一個(gè)強(qiáng)大的baseline。我們嘗試了對(duì)文檔進(jìn)行信息抽取的任務(wù),如研報(bào)公告中的財(cái)務(wù)經(jīng)營(yíng)指標(biāo)抽?。?/p>

9c12502a-c801-11ed-bfe3-dac502259ad0.jpg

可以看到上面我采用的是零樣本的模式,但是ChatGPT以幾乎100%的準(zhǔn)確率將所有指標(biāo)抽了出來(lái)。不過(guò),抽取出來(lái)的數(shù)據(jù)沒(méi)有單位,我們還可以讓他做個(gè)修正:

9c2c009c-c801-11ed-bfe3-dac502259ad0.jpg

與其他組件的整合

基于ChatGPT強(qiáng)大的理解能力,我們可以把它作為一個(gè)人類與其他場(chǎng)景工具進(jìn)行溝通的中間橋梁,大大提升個(gè)人的生產(chǎn)力。

例如日常辦公涉及到的OFFICE全家桶,目前已經(jīng)有了很多集成的產(chǎn)品,例如ChatBCG,通過(guò)輸入文字需求,就能自動(dòng)生成PPT大綱以及每頁(yè)的大致內(nèi)容(當(dāng)然,還不能自動(dòng)生成多樣的背景樣式);ChatExcel,通過(guò)輸入文字需求,能夠讓其實(shí)現(xiàn)表格的基本處理、函數(shù)計(jì)算、分組過(guò)濾排序等復(fù)雜操作。

2023年3月17日,微軟宣布在OFFICE全家桶中集成GPT-4。打工人的生產(chǎn)力一下子就提升數(shù)倍!

另外,還可以與其他模態(tài)的模型工具進(jìn)行整合,例如OpenAI開放的API中就包括了Whisper,一個(gè)語(yǔ)音識(shí)別的模型,人們可以通過(guò)Whisper將語(yǔ)音轉(zhuǎn)文本,最終將文本送到GPT-3的接口中。另外,ChatGPT也可以與圖像視覺(jué)的大模型進(jìn)行結(jié)合,提供文生圖的功能,例如今年大熱的stable diffusion模型。之前圖像生成非常依賴輸入的Prompt質(zhì)量。我們可以讓ChatGPT輔助生成一個(gè)高質(zhì)量的Prompt,然后輸入到stable diffusion中,就能產(chǎn)生更符合需求的圖像。

實(shí)際上,Meta在2月份就發(fā)表了一篇論文ToolFormer(https://arxiv.org/abs/2302.047611),研究了如何使用自監(jiān)督的方式,讓大模型如何決定什么時(shí)候調(diào)用外部的API來(lái)幫助其完成任務(wù)??梢灶A(yù)見,后面會(huì)有越來(lái)越多的產(chǎn)品出來(lái),我倒是希望能有一款根據(jù)文本要求自動(dòng)畫流程圖的工具,畢竟受苦與畫圖很久了 .

文字創(chuàng)作

作為一個(gè)生成式大模型,創(chuàng)作能力可以說(shuō)是他的看家本領(lǐng)。ChatGPT的創(chuàng)作場(chǎng)景格外豐富,只有你想不到,沒(méi)有他做不到:

合并撰寫工作周報(bào)與工作小結(jié)、小說(shuō)創(chuàng)作、電影劇本創(chuàng)作等。但對(duì)于專業(yè)度和準(zhǔn)確性比較高的場(chǎng)景,就不太能勝任了,例如金融場(chǎng)景中的研報(bào)生成,即使是將具體的財(cái)務(wù)數(shù)據(jù)連同要求一起輸入模型,最后生成的結(jié)果中也會(huì)有一些事實(shí)性的數(shù)據(jù)錯(cuò)誤,這種錯(cuò)誤是無(wú)法容忍的。

可以作為一個(gè)AI輔助訓(xùn)練工具。當(dāng)受限于成本無(wú)法使用ChatGPT直接提供AI能力時(shí),不妨可以將ChatGPT視作一個(gè)數(shù)據(jù)增強(qiáng)器,生成任務(wù)所需要的訓(xùn)練語(yǔ)料,再輔以少量的人工進(jìn)行核驗(yàn),就能以較低的成本獲得高質(zhì)量的語(yǔ)料。

上述提到的RLHF訓(xùn)練流程也可以通過(guò)引入ChatGPT來(lái)減少人工的投入。具體來(lái)說(shuō)就是將Human feedback替換為 ChatGPT feedback。早在2022年12月就有相關(guān)的論文介紹了這種思路:[2212.08073] Constitutional AI: Harmlessness from AI Feedback (arxiv.org)

其實(shí)ChatGPT的應(yīng)用場(chǎng)景還有很多,礙于篇幅,就不窮舉出來(lái)了,大家可以自行關(guān)注相關(guān)媒體網(wǎng)站。

ChatGPT的不能

ChatGPT目前的應(yīng)用非常廣泛,看似是一個(gè)能干的多面手,但他也有目前無(wú)法勝任的場(chǎng)景。比較典型的就是推理分析。雖然在引入了代碼以及其他迭代優(yōu)化后,chatGPT初步具備了一定的推理能力,但對(duì)于復(fù)雜的推理分析計(jì)算類任務(wù),他回答錯(cuò)誤的概率仍然非常大。這里特別推薦知乎上看到一個(gè)關(guān)于ChatGPT能力探索的博文:https://www.zhihu.com/question/582979328/answer/2899810576

79328/answer/289981057作者通過(guò)設(shè)計(jì)了一系列縝密的實(shí)驗(yàn),來(lái)不斷探索ChatGPT的能力。從結(jié)果上可以看到機(jī)器的能力在某些場(chǎng)景上還是無(wú)法模仿人類的思維能力。

另外,在ChatGPT的訓(xùn)練過(guò)程中,使用了RLHF來(lái)引導(dǎo)模型按照人類偏好進(jìn)行學(xué)習(xí)。然而,這種學(xué)習(xí)方式也可能導(dǎo)致模型過(guò)分迎合人類的偏好,而忽略正確答案。因此大家可以看到ChatGPT經(jīng)常會(huì)一本正經(jīng)的胡說(shuō)八道。在專業(yè)領(lǐng)域,我們需要他知之為知之,不知為不知,不然我們就必須要引入人工來(lái)審核他的答案。

最后,應(yīng)用大模型時(shí)繞不過(guò)的一個(gè)問(wèn)題就是數(shù)據(jù)隱私安全。無(wú)論是ChatGPT,還是國(guó)內(nèi)即將推出的大模型,由于B端客戶很少有硬件資源能夠匹配上,很難進(jìn)行私有化本地部署,通常是以LaaS的形式提供服務(wù)。而且目前大模型在專業(yè)垂直領(lǐng)域的效果還是未知的,因此通常需要使用領(lǐng)域語(yǔ)料進(jìn)行微調(diào),這就意味著數(shù)據(jù)要流出到模型服務(wù)提供方。一般大型公司對(duì)于數(shù)據(jù)的流出是非常慎重的,因此如何在安全合規(guī)的條件下,完成這一條鏈路的流轉(zhuǎn),是目前亟需解決的問(wèn)題。

額外提一個(gè)應(yīng)用:代碼生成。這個(gè)場(chǎng)景既是能也是不能。他在python語(yǔ)言的編碼能力上確實(shí)不錯(cuò),甚至能生成一段textcnn的實(shí)現(xiàn);但是在java或者其他編程語(yǔ)言上,他的生成質(zhì)量就相對(duì)較差了,而且生成的代碼質(zhì)量也不如一個(gè)經(jīng)驗(yàn)豐富的工程師,在代碼執(zhí)行性能上暫時(shí)還無(wú)法滿足需求。

關(guān)于大模型的可研究方向

關(guān)于ChatGPT的內(nèi)容到這也就基本寫完了。作為一名NLP領(lǐng)域的從業(yè)者,我也跟其他人一樣,被其強(qiáng)大的能力所震驚,同時(shí)也在思考自己未來(lái)還能在這個(gè)領(lǐng)域做哪些事情,大概想了一些方向,歡迎共同討論:

用更少的參數(shù)量,達(dá)到更好的效果。無(wú)論是之前DeepMind的 Chinchilla(70B),還是最近Meta的 LLaMA(65B), 亦或是3月14日智譜團(tuán)隊(duì)剛發(fā)布的ChatGLM(6B),他們的參數(shù)量都小于GPT-3(175B),但是其模型效果都能夠匹配上GPT-3。在LLaMA的論文中,Meta表示他們用了更多的語(yǔ)料token來(lái)訓(xùn)練,這有可能意味著目前大模型的參數(shù)對(duì)知識(shí)的利用率還有很大的上升空間。我們可以通過(guò)精簡(jiǎn)參數(shù),擴(kuò)大語(yǔ)料規(guī)模來(lái)提升大模型的能力。

上面提到大模型應(yīng)用時(shí)的數(shù)據(jù)隱私問(wèn)題,目前也有一些可行的方法來(lái)解決。比如通過(guò)隱私計(jì)算的方式,讓數(shù)據(jù)在流出時(shí)處于加密的狀態(tài)。另外,也有一些學(xué)者在研究其他方法保護(hù)數(shù)據(jù)的隱私,例如Offsite-Tuning(https://arxiv.org/pdf/2302.04870v1.pdf0v1.pdf),這種方法的核心思想是設(shè)計(jì)了一個(gè)adapter(可以理解為一個(gè)由神經(jīng)網(wǎng)絡(luò)構(gòu)成的組件)與仿真器(可以理解為大模型的一個(gè)壓縮版本)并提供給用戶,用戶在仿真器的幫助下使用領(lǐng)域數(shù)據(jù)對(duì)adapter參數(shù)進(jìn)行微調(diào),最后將微調(diào)好的adapter組件層插入到大模型上組成了一個(gè)完整的新模型用于提供服務(wù):

9c3a3798-c801-11ed-bfe3-dac502259ad0.jpg

高效設(shè)計(jì)與應(yīng)用ChatGPT的Prompt范式。例如我們可以設(shè)計(jì)一個(gè)工具平臺(tái),將不同類型的NLP任務(wù)包裝成一種配置式的產(chǎn)品。用戶針對(duì)自己的任務(wù)需求,只需要提供需求的詳細(xì)描述,以及問(wèn)題的樣例,就能快速得到一個(gè)能力實(shí)例,并應(yīng)用在自己的場(chǎng)景中;另外,我們還可以研究如何高效地設(shè)計(jì)一個(gè)Prompt來(lái)解決復(fù)雜的場(chǎng)景問(wèn)題。如Least-to-Most(https://arxiv.org/abs/2205.106255)這篇論文所述,對(duì)于一個(gè)復(fù)雜問(wèn)題,我們可以幫助LLM先自己拆解問(wèn)題,形成為了解決問(wèn)題X,需要先解決問(wèn)題Y1,Y2...的形式,然后讓模型分別去解決子問(wèn)題,最后將所有子問(wèn)題的解決過(guò)程拼在一塊送到模型中,輸出答案。這種方式可以有機(jī)結(jié)合COT的特性,可以用于處理一些比較復(fù)雜的問(wèn)題。

結(jié)束語(yǔ)

在本文的最后來(lái)一些雞湯吧:時(shí)代的車輪是不斷向前的,技術(shù)的更迭也會(huì)給這個(gè)時(shí)代帶來(lái)不可估量的影響。雖然ChatGPT的出現(xiàn)可能會(huì)對(duì)業(yè)界帶來(lái)不小的沖擊,但我們應(yīng)該將目光放到更廣闊的天地,在那兒將有更多豐富的未知世界等著我們?nèi)ヌ剿鳌?/p>

以此自勉!

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49018

    瀏覽量

    249469
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10789
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1589

    瀏覽量

    9100

原文標(biāo)題:最全ChatGPT技術(shù)匯總

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】(原創(chuàng))6.FPGA連接ChatGPT 4

    ChatGPT 4這樣的模型需要大量的計(jì)算資源和優(yōu)化技術(shù),而FPGA只是其中的一部分: // 首先,我們需要在FPGA上創(chuàng)造一個(gè)超級(jí)智能網(wǎng)絡(luò)精靈 module ChatGPT
    發(fā)表于 02-14 21:58

    在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當(dāng)下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計(jì)中,是否也可以用ChatGPT輔助設(shè)計(jì)呢?
    發(fā)表于 03-28 23:41

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來(lái)了

    和情緒的選項(xiàng) 實(shí)時(shí)視頻捕捉,在與ChatGPT 交互時(shí)無(wú)需發(fā)送照片 有能力在會(huì)議和視頻通話中提供協(xié)助 發(fā)布會(huì)為其潛在影響提供了清晰的愿景。隨著企業(yè)駕馭不斷變化的技術(shù)領(lǐng)域,擁抱ChatGPT-4o對(duì)于實(shí)現(xiàn)持續(xù)增長(zhǎng)和創(chuàng)新至關(guān)重要。
    發(fā)表于 05-27 15:43

    linux最全的資料匯總

    linux最全的資料匯總
    發(fā)表于 12-03 13:43

    無(wú)線充電技術(shù)匯總

    無(wú)線充電技術(shù)匯總
    發(fā)表于 07-22 20:18

    史上最全的模擬資料大匯總

    模擬資料大匯總~~在微盤上看到的,就下載下來(lái)與大家分享一下整理好久的模擬資料匯總.pdf (120.25 KB )
    發(fā)表于 06-05 03:33

    科技大廠競(jìng)逐AIGC,中國(guó)的ChatGPT在哪?

    產(chǎn)業(yè)版ChatGPT--ChatJD。 可見,大廠的態(tài)度十分鮮明:ChatGPT已經(jīng)是既定的未來(lái),這場(chǎng)新的科技競(jìng)技賽哨聲響起,誰(shuí)都不甘落于下風(fēng)。從科技巨頭,到行業(yè)龍頭,中國(guó)企業(yè)競(jìng)逐AI賽道,AIGC(利用人工智能技術(shù)
    發(fā)表于 03-03 14:28

    最全開關(guān)電源技術(shù)指南

    最全開關(guān)電源技術(shù)指南
    發(fā)表于 09-11 15:51 ?31次下載
    <b class='flag-5'>最全</b>開關(guān)電源<b class='flag-5'>技術(shù)</b>指南

    最全STM32外設(shè)資料匯總

    最全STM32外設(shè)資料匯總。STM32外設(shè)指的是單片機(jī)外圍模塊,常見的STM32外設(shè)有:IO、TIM、USART、ADC、SPI、EXIT、BKP、RTC、WDG、DMA、FLASH、FSMC、NorFlash等。
    發(fā)表于 12-08 14:49 ?3w次閱讀

    最全面的電源電路圖PCB+原理圖匯總資料下載

    最全面的電源電路圖PCB+原理圖匯總
    發(fā)表于 03-29 11:28 ?166次下載

    最全的MathType快捷鍵資料匯總免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是最全的MathType快捷鍵資料匯總免費(fèi)下載。細(xì)心一些的朋友會(huì)發(fā)現(xiàn), Mathtype 軟件中不必用鼠標(biāo)點(diǎn)來(lái)點(diǎn)去,大部分都對(duì)應(yīng)有鍵盤操作,既快捷又準(zhǔn)確。而且,在用光標(biāo)點(diǎn)選時(shí),狀態(tài)欄都會(huì)提示選的內(nèi)容及其快捷鍵。下面是一些常用的MathType 快
    發(fā)表于 05-24 17:07 ?0次下載
    <b class='flag-5'>最全</b>的MathType快捷鍵資料<b class='flag-5'>匯總</b>免費(fèi)下載

    ChatGPT的使用方式匯總

    匯總了國(guó)內(nèi)能使用ChatGPT的方法。   1.注冊(cè)ChatGPT賬號(hào)   保姆級(jí)教程:[奶奶看了都會(huì)]ChatGPT保姆級(jí)注冊(cè)教程   缺點(diǎn):需要梯子,且香港的梯子
    發(fā)表于 02-10 11:54 ?6次下載
    <b class='flag-5'>ChatGPT</b>的使用方式<b class='flag-5'>匯總</b>

    【創(chuàng)龍科技】最全的TI、Xilinx、NXP工業(yè)核心板匯總

    創(chuàng)龍科技(Tronlong)最新、最全工業(yè)核心板匯總來(lái)了!
    的頭像 發(fā)表于 09-07 09:31 ?1599次閱讀
    【創(chuàng)龍科技】<b class='flag-5'>最全</b>的TI、Xilinx、NXP工業(yè)核心板<b class='flag-5'>匯總</b>!

    chatgpt是什么意思 ChatGPT背后的技術(shù)原理

      今天我們?yōu)榇蠹規(guī)?lái)的文章,深入淺出地闡釋了ChatGPT背后的技術(shù)原理,沒(méi)有NLP或算法經(jīng)驗(yàn)的小伙伴,也可以輕松理解ChatGPT是如何工作的?! ?b class='flag-5'>ChatGPT是一種機(jī)器學(xué)習(xí)自然
    發(fā)表于 07-18 17:12 ?0次下載

    最全光伏電站項(xiàng)目問(wèn)題匯總

    電子發(fā)燒友網(wǎng)站提供《最全光伏電站項(xiàng)目問(wèn)題匯總.pdf》資料免費(fèi)下載
    發(fā)表于 10-19 11:31 ?4次下載
    <b class='flag-5'>最全</b>光伏電站項(xiàng)目問(wèn)題<b class='flag-5'>匯總</b>