一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌提出Flan-T5,一個(gè)模型解決所有NLP任務(wù)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:nghuyong ? 2022-11-24 11:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

d797167e-6ba6-11ed-8abf-dac502259ad0.jpg

「論文」: Scaling Instruction-Finetuned Language Models
「地址」: https://arxiv.org/abs/2210.11416
「模型」: https://huggingface.co/google/flan-t5-xxl

1. Flan-T5是什么

「Flan-T5」是Google最新的一篇工作,通過在超大規(guī)模的任務(wù)上進(jìn)行微調(diào),讓語言模型具備了極強(qiáng)的泛化性能,做到單個(gè)模型就可以在1800多個(gè)NLP任務(wù)上都能有很好的表現(xiàn)。這意味著模型一旦訓(xùn)練完畢,可以直接在幾乎全部的NLP任務(wù)上直接使用,實(shí)現(xiàn)「One model for ALL tasks」,這就非常有誘惑力!

這里的Flan指的是(Instruction finetuning),即"基于指令的微調(diào)";T5是2019年Google發(fā)布的一個(gè)語言模型了。注意這里的語言模型可以進(jìn)行任意的替換(需要有Decoder部分,所以「不包括BERT這類純Encoder語言模型」),論文的核心貢獻(xiàn)是提出一套多任務(wù)的微調(diào)方案(Flan),來極大提升語言模型的泛化性。

d7ad732e-6ba6-11ed-8abf-dac502259ad0.png

Flat

例如下面文章中的例子,模型訓(xùn)練好之后,可直接讓模型做問答:

「模型輸入」是:"Geoffrey Hinton和George Washington這兩個(gè)人有沒有交談過?在回答之前想一想原因?!?/p>

「模型返回」是:Geoffrey Hinton是一個(gè)計(jì)算機(jī)科學(xué)家,出生在1947年;而George Washington在1799年去世。所以這兩個(gè)不可能有過交談。所以答案時(shí)“沒有”。

2. 怎么做的

d7bb88b0-6ba6-11ed-8abf-dac502259ad0.png

1800+微調(diào)任務(wù)

(1) 「任務(wù)收集」:工作的第一步是收集一系列監(jiān)督的數(shù)據(jù),這里一個(gè)任務(wù)可以被定義成<數(shù)據(jù)集,任務(wù)類型的形式>,比如“基于SQuAD數(shù)據(jù)集的問題生成任務(wù)”。需要注意的是這里有9個(gè)任務(wù)是需要進(jìn)行推理的任務(wù),即Chain-of-thought (CoT)任務(wù)。

(2) 「形式改寫」:因?yàn)樾枰脝蝹€(gè)語言模型來完成超過1800+種不同的任務(wù),所以需要將任務(wù)都轉(zhuǎn)換成相同的“輸入格式”喂給模型訓(xùn)練,同時(shí)這些任務(wù)的輸出也需要是統(tǒng)一的“輸出格式”。

d7d6b630-6ba6-11ed-8abf-dac502259ad0.png

輸入輸出格式

如上圖所示,根據(jù) “是否需要進(jìn)行推理 (CoT)” 以及 “是否需要提供示例(Few-shot)” 可將輸入輸出劃分成四種類型:

  • chain-of-thought : and few-shot: (圖中左上)
    • 輸入:指令 + 問題
    • 輸出:答案
  • chain-of-thought : and few-shot: (圖中右上)
    • 輸入:指令 + CoT引導(dǎo)(by reasoning step by step) + 問題
    • 輸出:理由 + 答案
  • chain-of-thought: and few-shot: (圖中左下)
    • 輸入:指令 + 示例問題 + 示例問題回答 + 指令 + 問題
    • 輸出:答案
  • chain-of-thought: and few-shot: (圖中右下)
    • 輸入:指令 + CoT引導(dǎo) + 示例問題 + 示例問題理由 + 示例問題回答 + 指令 + CoT引導(dǎo) + 問題
    • 輸出:理由 + 答案

(3) 「訓(xùn)練過程」:采用恒定的學(xué)習(xí)率以及Adafactor優(yōu)化器進(jìn)行訓(xùn)練;同時(shí)會(huì)將多個(gè)訓(xùn)練樣本“打包”成一個(gè)訓(xùn)練樣本,這些訓(xùn)練樣本直接會(huì)通過一個(gè)特殊的“結(jié)束token”進(jìn)行分割。訓(xùn)練時(shí)候在每個(gè)指定的步數(shù)會(huì)在“保留任務(wù)”上進(jìn)行模型評(píng)估,保存最佳的checkpoint。

d7f38ada-6ba6-11ed-8abf-dac502259ad0.png

保留任務(wù)

盡管微調(diào)的任務(wù)數(shù)量很多,但是相比于語言模型本身的預(yù)訓(xùn)練過程,計(jì)算量小了非常多,只有0.2%。所以通過這個(gè)方案,大公司訓(xùn)練好的語言模型可以被再次有效的利用,我們只需要做好“微調(diào)”即可,不用重復(fù)耗費(fèi)大量計(jì)算資源再去訓(xùn)一個(gè)語言模型。

d81381dc-6ba6-11ed-8abf-dac502259ad0.png

微調(diào)過程與預(yù)訓(xùn)練本身的計(jì)算量對(duì)比

3. 一些結(jié)論

(1) 微調(diào)很重要

d923992c-6ba6-11ed-8abf-dac502259ad0.png

直接預(yù)測(cè)(紅框)微調(diào)(綠框)

與不微調(diào)相比,通過基于指令的微調(diào)(flan)可以大幅度提高語言模型的效果。

(2) 模型越大效果越好

d9499398-6ba6-11ed-8abf-dac502259ad0.png

模型大小與任務(wù)數(shù)量對(duì)效果的影響

伴隨模型體積的增加(上圖左), 尤其是指數(shù)級(jí)的增加,比如從8B->62B,再從62B->540B,不論是否微調(diào),效果都有非常顯著的提升,而且還沒有看到收斂的信號(hào),可能如果有了 “萬億”參數(shù)的模型,效果還能繼續(xù)提升。

(3) 任務(wù)越多效果越好

伴隨任務(wù)數(shù)量的增加(上圖右),模型的性能也會(huì)跟著增加,但是當(dāng)任務(wù)數(shù)量超過282個(gè)之后,提升就不是很明顯了。因?yàn)槔^續(xù)增加新的任務(wù),尤其任務(wù)形式跟之前一樣,不會(huì)給模型帶來新的知識(shí);多任務(wù)微調(diào)的本質(zhì)是模型能夠更好的把從預(yù)訓(xùn)練學(xué)到的知識(shí)進(jìn)行表達(dá),超過一定任務(wù)之后,繼續(xù)新增相似的任務(wù),知識(shí)的表達(dá)能力不會(huì)繼續(xù)有很大的收益。進(jìn)一步統(tǒng)計(jì)全部微調(diào)數(shù)據(jù)集的token數(shù),發(fā)現(xiàn)只占到了預(yù)訓(xùn)練數(shù)據(jù)token數(shù)的0.2%,這表明還是有很多的知識(shí)沒有在微調(diào)階段重新被激發(fā)。

(4) 混雜CoT相關(guān)的任務(wù)很重要

d955b5a6-6ba6-11ed-8abf-dac502259ad0.png

保留任務(wù)中 CoT相關(guān)的任務(wù) 以及 非CoT相關(guān)的任務(wù)

盡管在1800多個(gè)任務(wù)中只有9個(gè)需要推理再給出回答的任務(wù)(CoT任務(wù)),但是混雜了這9個(gè)任務(wù)之后對(duì)整個(gè)模型的提升很大。在針對(duì)CoT相關(guān)任務(wù)的預(yù)測(cè)上,如果在微調(diào)中混淆CoT任務(wù)能帶來明顯的提升(左圖中藍(lán)色和綠色線);在針對(duì)非CoT相關(guān)任務(wù)的預(yù)測(cè)上,如果在微調(diào)中混淆了CoT任務(wù)也不會(huì)對(duì)模型帶來傷害(右圖中藍(lán)色和綠色線)。

d966f668-6ba6-11ed-8abf-dac502259ad0.png

zero-shot上是否引入CoT的對(duì)比
(5) 整合起來

最終在多個(gè)不同尺寸的模型上進(jìn)行實(shí)驗(yàn),都可以獲得一致性的結(jié)論:引入Flan微調(diào)方案,可以很好提高語言模型在超大規(guī)模任務(wù)上的整體效果。

d975968c-6ba6-11ed-8abf-dac502259ad0.png

不同版本的模型

總結(jié)一下,這篇工作提出了Flan的微調(diào)框架,核心有四點(diǎn):統(tǒng)一的輸入輸出格式(4種類型),引入chain-of-thought,大幅提高任務(wù)數(shù)量,大幅提高模型體積;實(shí)現(xiàn)了用一個(gè)模型來解決超過1800種幾乎全部的NLP任務(wù),通過較低的成本,極大發(fā)掘了現(xiàn)有語言模型的泛化性能,讓大家看到了通用模型的希望,即「One Model for ALL Tasks」。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1789

    瀏覽量

    58971
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3516

    瀏覽量

    50368
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22607

原文標(biāo)題:谷歌提出Flan-T5,一個(gè)模型解決所有NLP任務(wù)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何將個(gè)FA模型開發(fā)的聲明式范式應(yīng)用切換到Stage模型

    模型切換概述 本文介紹如何將個(gè)FA模型開發(fā)的聲明式范式應(yīng)用切換到Stage模型,您需要完成如下動(dòng)作: 工程切換:新建
    發(fā)表于 06-04 06:22

    谷歌AI智能體執(zhí)行復(fù)雜任務(wù)能力大幅提升

    自然語言描述任務(wù),隨后由AI智能體代替用戶執(zhí)行并最終完成任務(wù),極大地提升工作效率和便捷性。 為了推進(jìn)這技術(shù)的實(shí)現(xiàn),谷歌正在積極開發(fā)兩個(gè)相關(guān)
    的頭像 發(fā)表于 02-17 14:39 ?628次閱讀

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI 大模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新代旗艦大模型 Gemini 2.0 P
    的頭像 發(fā)表于 02-07 15:07 ?708次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機(jī)器翻譯。Transformer 通過引入自注意力機(jī)制使得處理長距離依賴關(guān)系時(shí)變得高效。因此 Vaswani 等人的論文強(qiáng)調(diào)“注意力是所需的切”。
    的頭像 發(fā)表于 02-06 10:21 ?3996次閱讀
    如何使用MATLAB構(gòu)建Transformer<b class='flag-5'>模型</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    集對(duì)模型進(jìn)行進(jìn)步訓(xùn)練的過程。 大模型微調(diào)是利用預(yù)訓(xùn)練模型的權(quán)重和特征,通過在新任務(wù)數(shù)據(jù)集上的訓(xùn)練,對(duì)
    發(fā)表于 01-14 16:51

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢(shì)可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3 模型根據(jù)這些提示生成高質(zhì)
    的頭像 發(fā)表于 01-03 10:38 ?888次閱讀
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen<b class='flag-5'>模型</b>生成高質(zhì)量圖像

    KerasHub統(tǒng)、全面的預(yù)訓(xùn)練模型

    于文本模型的 KerasNLP 和用于計(jì)算機(jī)視覺模型的 KerasCV。 然而,隨著模型使各模態(tài)之間的界限越來越模糊?(想象下強(qiáng)大的聊天 LLM 具有圖像輸入功能或是在視覺
    的頭像 發(fā)表于 12-20 10:32 ?492次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    的 one-shot 搜索的工作。目標(biāo)檢測(cè)模型搭配在分類上高性能的主干網(wǎng)絡(luò),可能會(huì)因?yàn)椴煌?b class='flag-5'>任務(wù)間的差異而性能下降。Picodet 沒有去搜索個(gè)較佳的分類器,而是在檢測(cè)數(shù)據(jù)集上訓(xùn)練和搜
    發(fā)表于 12-19 14:33

    谷歌發(fā)布Gemini 2.0 AI模型

    谷歌近日正式推出了新代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性,旨在為用戶提供更加全面和深入的復(fù)雜主題探索與報(bào)告撰寫輔助。 Gemini 2.0通過高級(jí)推理和長上
    的頭像 發(fā)表于 12-12 10:13 ?638次閱讀

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP模型的性能是個(gè)多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、
    的頭像 發(fā)表于 12-05 15:30 ?1685次閱讀

    谷歌將推出Gemini大型語言模型

    近日,有報(bào)道稱谷歌正在秘密研發(fā)個(gè)代號(hào)為“Project Jarvis”的項(xiàng)目,該項(xiàng)目旨在通過接管用戶的瀏覽器,為消費(fèi)者提供全方位的日常生活助手服務(wù)。 據(jù)悉,“Project Jarvis”項(xiàng)目將能
    的頭像 發(fā)表于 10-29 15:11 ?654次閱讀

    谷歌計(jì)劃12月發(fā)布Gemini 2.0模型

    近日,有消息稱谷歌計(jì)劃在12月發(fā)布其下代人工智能模型——Gemini 2.0。這消息引發(fā)了業(yè)界的廣泛關(guān)注,因?yàn)?b class='flag-5'>谷歌在人工智能領(lǐng)域
    的頭像 發(fā)表于 10-29 11:02 ?1132次閱讀

    AI大模型在自然語言處理中的應(yīng)用

    AI大模型在自然語言處理(NLP)中的應(yīng)用廣泛且深入,其強(qiáng)大的語義理解和生成能力為NLP任務(wù)帶來了顯著的性能提升。以下是對(duì)AI大模型
    的頭像 發(fā)表于 10-23 14:38 ?1522次閱讀

    聯(lián)發(fā)科新代天璣旗艦芯片針對(duì)谷歌大語言模型Gemini Nano優(yōu)化

    近日,聯(lián)發(fā)科宣布了個(gè)重要的技術(shù)進(jìn)展——新代天璣旗艦芯片已經(jīng)針對(duì)谷歌的大語言模型Gemini Nano進(jìn)行了深度優(yōu)化。
    的頭像 發(fā)表于 10-09 16:44 ?813次閱讀

    谷歌獲Character.AI大模型技術(shù)授權(quán),創(chuàng)始人重歸谷歌懷抱

    8月5日最新資訊,創(chuàng)新企業(yè)Character.AI在上周五正式宣布,他們已經(jīng)與科技巨頭谷歌的母公司Alphabet達(dá)成了項(xiàng)重要合作,非獨(dú)家授權(quán)谷歌使用其先進(jìn)的大型語言
    的頭像 發(fā)表于 08-05 14:35 ?753次閱讀