一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用較小的語(yǔ)言模型,并用少量樣本來微調(diào)語(yǔ)言模型的權(quán)重

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:魚羊 ? 2021-01-07 14:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020年,GPT-3可謂火出了圈。

不僅講故事的本職工作做得風(fēng)生水起,還跨界玩起了網(wǎng)頁(yè)設(shè)計(jì)、運(yùn)維、下象棋……

不過,盡管表現(xiàn)驚艷,GPT-3背后到底是實(shí)實(shí)在在的1750億參數(shù),想要在實(shí)際應(yīng)用場(chǎng)景中落地,難度著實(shí)不小。

現(xiàn)在,針對(duì)這個(gè)問題,普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出,使用較小的語(yǔ)言模型,并用少量樣本來微調(diào)語(yǔ)言模型的權(quán)重。

4d534696-5036-11eb-8b86-12bb97331649.png

并且,實(shí)驗(yàn)證明,這一名為L(zhǎng)M-BFF(better few-shot fine-tuning fo language models)的方法相比于普通微調(diào)方法,性能最多可以提升30%。

詳情如何,一起往下看。

方法原理

首先,研究人員采用了基于提示的預(yù)測(cè)路線。

所謂基于提示的預(yù)測(cè),是將下游任務(wù)視為一個(gè)有遮蓋(mask)的語(yǔ)言建模問題,模型會(huì)直接為給定的提示生成文本響應(yīng)。

4d7b70ee-5036-11eb-8b86-12bb97331649.png


這里要解決的問題,是尋找正確的提示。這既需要該領(lǐng)域的專業(yè)知識(shí),也需要對(duì)語(yǔ)言模型內(nèi)部工作原理的理解。

在本文中,研究人員提出引入一個(gè)新的解碼目標(biāo)來解決這個(gè)問題,即使用谷歌提出的T5模型,在指定的小樣本訓(xùn)練數(shù)據(jù)中自動(dòng)生成提示。

4dc132be-5036-11eb-8b86-12bb97331649.png

其次,研究人員在每個(gè)輸入中,以額外上下文的形式添加了示例。

問題的關(guān)鍵在于,要有限考慮信息量大的示例,一方面,因?yàn)榭捎檬纠臄?shù)量會(huì)受到模型最大輸入長(zhǎng)度的限制;另一方面,不同類型的大量隨機(jī)示例混雜在一起,會(huì)產(chǎn)生很長(zhǎng)的上下文,不利于模型學(xué)習(xí)。

為此,研究人員開發(fā)了一種動(dòng)態(tài)的、有選擇性的精細(xì)策略:對(duì)于每個(gè)輸入,從每一類中隨機(jī)抽取一個(gè)樣本,以創(chuàng)建多樣化的最小演示集。

另外,研究人員還設(shè)計(jì)了一種新的抽樣策略,將輸入與相似的樣本配對(duì),以此為模型提供更多有價(jià)值的比較。

實(shí)驗(yàn)結(jié)果

那么,這樣的小樣本學(xué)習(xí)方法能實(shí)現(xiàn)怎樣的效果?

研究人員在8個(gè)單句、7個(gè)句子對(duì)NLP任務(wù)上,對(duì)其進(jìn)行了系統(tǒng)性評(píng)估,這些任務(wù)涵蓋分類和回歸。

4dec6b00-5036-11eb-8b86-12bb97331649.png

結(jié)果顯示:

基于提示的微調(diào)在很大程度上優(yōu)于標(biāo)準(zhǔn)微調(diào);

自動(dòng)提示搜索能匹敵、甚至優(yōu)于手動(dòng)提示;

加入示例對(duì)于微調(diào)而言很有效,并提高了少樣本學(xué)習(xí)的性能。

4ec58340-5036-11eb-8b86-12bb97331649.png

在K=16(即每一類樣本數(shù)為16)的情況下,從上表結(jié)果可以看到,該方法在所有任務(wù)中,平均能實(shí)現(xiàn)11%的性能增益,顯著優(yōu)于標(biāo)準(zhǔn)微調(diào)程序。在SNLI任務(wù)中,提升達(dá)到30%。

不過,該方法目前仍存在明顯的局限性,性能仍大大落后于采用大量樣本訓(xùn)練獲得的微調(diào)結(jié)果。

關(guān)于作者

論文有兩位共同一作。

高天宇,清華大學(xué)本科生特等獎(jiǎng)學(xué)金獲得者,本科期間即發(fā)表4篇頂會(huì)論文,師從THUNLP實(shí)驗(yàn)室的劉知遠(yuǎn)副教授。

今年夏天,他本科畢業(yè)后赴普林斯頓攻讀博士,師從本文的另一位作者陳丹琦。

此前,量子位曾經(jīng)分享過他在寫論文、做實(shí)驗(yàn)、與導(dǎo)師相處方面的經(jīng)驗(yàn)。

Adam Fisch,MIT電氣工程與計(jì)算機(jī)科學(xué)專業(yè)在讀博士,是CSAIL和NLP研究小組的成員,主要研究方向是應(yīng)用于NLP的遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。

他本科畢業(yè)于普林斯頓大學(xué),2015-2017年期間曾任Facebook AI研究院研究工程師

至于陳丹琦大神,想必大家已經(jīng)很熟悉了。她本科畢業(yè)于清華姚班,后于斯坦福大學(xué)拿下博士學(xué)位,2019年秋成為普林斯頓計(jì)算機(jī)科學(xué)系助理教授。

最后,該論文代碼即將開源,如果還想了解更多論文細(xì)節(jié),請(qǐng)戳文末論文鏈接詳讀~

傳送門

論文地址:

https://arxiv.org/abs/2012.15723v1

項(xiàng)目地址:

https://github.com/princeton-nlp/LM-BFF

責(zé)任編輯:xj

原文標(biāo)題:【前沿】陳丹琦團(tuán)隊(duì)最新論文:受GPT-3啟發(fā),用小樣本學(xué)習(xí)給語(yǔ)言模型做微調(diào),性能最高提升30%

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10798
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16098
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13656

原文標(biāo)題:【前沿】陳丹琦團(tuán)隊(duì)最新論文:受GPT-3啟發(fā),用小樣本學(xué)習(xí)給語(yǔ)言模型做微調(diào),性能最高提升30%

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?516次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    ?VLM(視覺語(yǔ)言模型)?詳細(xì)解析

    視覺語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?4132次閱讀
    ?VLM(視覺<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    語(yǔ)言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    本文系統(tǒng)性地闡述了大型語(yǔ)言模型(LargeLanguageModels,LLMs)中的解碼策略技術(shù)原理及其實(shí)踐應(yīng)用。通過深入分析各類解碼算法的工作機(jī)制、性能特征和優(yōu)化方法,為研究者和工程師提供了全面
    的頭像 發(fā)表于 02-18 12:00 ?589次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    一文詳解視覺語(yǔ)言模型

    視覺語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1766次閱讀
    一文詳解視覺<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    集對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練的過程。 大模型微調(diào)是利用預(yù)訓(xùn)練模型權(quán)重和特征,通過在新任務(wù)數(shù)據(jù)集上的訓(xùn)練,對(duì)
    發(fā)表于 01-14 16:51

    語(yǔ)言模型管理的作用

    要充分發(fā)揮語(yǔ)言模型的潛力,有效的語(yǔ)言模型管理非常重要。以下,是對(duì)語(yǔ)言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?389次閱讀

    AI大語(yǔ)言模型開發(fā)步驟

    開發(fā)一個(gè)高效、準(zhǔn)確的大語(yǔ)言模型是一個(gè)復(fù)雜且多階段的過程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計(jì)、訓(xùn)練與優(yōu)化、評(píng)估與調(diào)試等多個(gè)環(huán)節(jié)。接下來,AI部落小編為大家詳細(xì)闡述AI大語(yǔ)言
    的頭像 發(fā)表于 12-19 11:29 ?902次閱讀

    語(yǔ)言模型開發(fā)框架是什么

    語(yǔ)言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?529次閱讀

    語(yǔ)言模型開發(fā)語(yǔ)言是什么

    在人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語(yǔ)言和工具的支持。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-04 11:44 ?703次閱讀

    云端語(yǔ)言模型開發(fā)方法

    云端語(yǔ)言模型的開發(fā)是一個(gè)復(fù)雜而系統(tǒng)的過程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個(gè)環(huán)節(jié)。下面,AI部落小編為您分享云端語(yǔ)言模型的開發(fā)
    的頭像 發(fā)表于 12-02 10:48 ?692次閱讀

    使用vLLM+OpenVINO加速大語(yǔ)言模型推理

    隨著大語(yǔ)言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來推理時(shí)延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1431次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推理

    語(yǔ)言模型如何開發(fā)

    語(yǔ)言模型的開發(fā)是一個(gè)復(fù)雜且細(xì)致的過程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計(jì)、訓(xùn)練、微調(diào)和部署等多個(gè)階段。以下是對(duì)大語(yǔ)言
    的頭像 發(fā)表于 11-04 10:14 ?605次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來學(xué)習(xí)大語(yǔ)言模型在自然語(yǔ)言理解方面的原理以及問答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。 大語(yǔ)言
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開始學(xué)習(xí)《大語(yǔ)言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對(duì)于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對(duì)于我還是有許多的知識(shí)點(diǎn)、專業(yè)術(shù)語(yǔ)比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書中
    發(fā)表于 07-25 14:33

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

    上周收到《大語(yǔ)言模型應(yīng)用指南》一書,非常高興,但工作項(xiàng)目繁忙,今天才品鑒體驗(yàn),感謝作者編寫了一部?jī)?nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個(gè)讓我了解大語(yǔ)言模型
    發(fā)表于 07-21 13:35