一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟在ICML 2019上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法MASS

DPVg_AI_era ? 來源:lq ? 2019-05-11 09:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟亞洲研究院的研究員在 ICML 2019 上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法 MASS,在序列到序列的自然語言生成任務(wù)中全面超越 BERT 和 GPT。本文帶來論文作者的技術(shù)解讀。

從 2018 年開始,預(yù)訓(xùn)練(pre-train) 毫無疑問成為 NLP 領(lǐng)域最熱的研究方向。

借助于 BERT 和 GPT 等預(yù)訓(xùn)練模型,人類在多個(gè)自然語言理解任務(wù)中取得了重大突破。然而,在序列到序列的自然語言生成任務(wù)中,目前主流預(yù)訓(xùn)練模型并沒有取得顯著效果。

為此,微軟亞洲研究院的研究員在 ICML 2019 上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法 MASS,在序列到序列的自然語言生成任務(wù)中全面超越 BERT 和 GPT。在微軟參加的 WMT19 機(jī)器翻譯比賽中,MASS 幫助中 - 英、英 - 立陶宛兩個(gè)語言對取得了第一名的成績。

BERT 在自然語言理解(比如情感分類、自然語言推理、命名實(shí)體識(shí)別、SQuAD 閱讀理解等)任務(wù)中取得了很好的結(jié)果,受到了越來越多的關(guān)注。然而,在自然語言處理領(lǐng)域,除了自然語言理解任務(wù),還有很多序列到序列的自然語言生成任務(wù),比如機(jī)器翻譯、文本摘要生成、對話生成、問答、文本風(fēng)格轉(zhuǎn)換等。在這類任務(wù)中,目前主流的方法是編碼器 - 注意力 - 解碼器框架,如下圖所示。

編碼器 - 注意力 - 解碼器框架

編碼器(Encoder)將源序列文本 X 編碼成隱藏向量序列,然后解碼器(Decoder)通過注意力機(jī)制(Attention)抽取編碼的隱藏向量序列信息,自回歸地生成目標(biāo)序列文本 Y。

BERT 通常只訓(xùn)練一個(gè)編碼器用于自然語言理解,而 GPT 的語言模型通常是訓(xùn)練一個(gè)解碼器。如果要將 BERT 或者 GPT 用于序列到序列的自然語言生成任務(wù),通常只有分開預(yù)訓(xùn)練編碼器和解碼器,因此編碼器 - 注意力 - 解碼器結(jié)構(gòu)沒有被聯(lián)合訓(xùn)練,記憶力機(jī)制也不會(huì)被預(yù)訓(xùn)練,而解碼器對編碼器的注意力機(jī)制在這類任務(wù)中非常重要,因此 BERT 和 GPT 在這類任務(wù)中只能達(dá)到次優(yōu)效果。

新的預(yù)訓(xùn)練方法 ——MASS

專門針對序列到序列的自然語言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練(MASS: Masked Sequence to Sequence Pre-training)。MASS 對句子隨機(jī)屏蔽一個(gè)長度為 k 的連續(xù)片段,然后通過編碼器 - 注意力 - 解碼器模型預(yù)測生成該片段。

屏蔽序列到序列預(yù)訓(xùn)練 MASS 模型框架

如上圖所示,編碼器端的第 3-6 個(gè)詞被屏蔽掉,然后解碼器端只預(yù)測這幾個(gè)連續(xù)的詞,而屏蔽掉其它詞,圖中 “_” 代表被屏蔽的詞。

MASS 預(yù)訓(xùn)練有以下幾大優(yōu)勢:

(1)解碼器端其它詞(在編碼器端未被屏蔽掉的詞)都被屏蔽掉,以鼓勵(lì)解碼器從編碼器端提取信息來幫助連續(xù)片段的預(yù)測,這樣能促進(jìn)編碼器 - 注意力 - 解碼器結(jié)構(gòu)的聯(lián)合訓(xùn)練;

(2)為了給解碼器提供更有用的信息,編碼器被強(qiáng)制去抽取未被屏蔽掉詞的語義,以提升編碼器理解源序列文本的能力;

(3)讓解碼器預(yù)測連續(xù)的序列片段,以提升解碼器的語言建模能力。

統(tǒng)一的預(yù)訓(xùn)練框架

MASS 有一個(gè)重要的超參數(shù) k(屏蔽的連續(xù)片段長度),通過調(diào)整 k 的大小,MASS 能包含 BERT 中的屏蔽語言模型訓(xùn)練方法以及 GPT 中標(biāo)準(zhǔn)的語言模型預(yù)訓(xùn)練方法,使 MASS 成為一個(gè)通用的預(yù)訓(xùn)練框架。

當(dāng) k=1 時(shí),根據(jù) MASS 的設(shè)定,編碼器端屏蔽一個(gè)單詞,解碼器端預(yù)測一個(gè)單詞,如下圖所示。解碼器端沒有任何輸入信息,這時(shí) MASS 和 BERT 中的屏蔽語言模型的預(yù)訓(xùn)練方法等價(jià)。

當(dāng) k=m(m 為序列長度)時(shí),根據(jù) MASS 的設(shè)定,編碼器屏蔽所有的單詞,解碼器預(yù)測所有單詞,如下圖所示,由于編碼器端所有詞都被屏蔽掉,解碼器的注意力機(jī)制相當(dāng)于沒有獲取到信息,在這種情況下 MASS 等價(jià)于 GPT 中的標(biāo)準(zhǔn)語言模型。

MASS 在不同 K 下的概率形式如下表所示,其中 m 為序列長度,u 和 v 為屏蔽序列的開始和結(jié)束位置,x^u:v 表示從位置 u 到 v 的序列片段,x^\u:v 表示該序列從位置 u 到 v 被屏蔽掉??梢钥吹?,當(dāng)K=1 或者 m 時(shí),MASS 的概率形式分別和 BERT 中的屏蔽語言模型以及 GPT 中的標(biāo)準(zhǔn)語言模型一致。

我們通過實(shí)驗(yàn)分析了屏蔽 MASS 模型中不同的片段長度(k)進(jìn)行預(yù)訓(xùn)練的效果,如下圖所示。

當(dāng) k 取大約句子長度一半時(shí)(50% m),下游任務(wù)能達(dá)到最優(yōu)性能。屏蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預(yù)訓(xùn)練,過度偏向編碼器(k=1,即 BERT)或者過度偏向解碼器(k=m,即 LM/GPT)都不能在該任務(wù)中取得最優(yōu)的效果,由此可以看出 MASS 在序列到序列的自然語言生成任務(wù)中的優(yōu)勢。

序列到序列自然語言生成任務(wù)實(shí)驗(yàn)

預(yù)訓(xùn)練流程

MASS 只需要無監(jiān)督的單語數(shù)據(jù)(比如 WMT News Crawl Data、Wikipedia Data 等)進(jìn)行預(yù)訓(xùn)練。MASS 支持跨語言的序列到序列生成(比如機(jī)器翻譯),也支持單語言的序列到序列生成(比如文本摘要生成、對話生成)。當(dāng)預(yù)訓(xùn)練 MASS 支持跨語言任務(wù)時(shí)(比如英語 - 法語機(jī)器翻譯),我們在一個(gè)模型里同時(shí)進(jìn)行英語到英語以及法語到法語的預(yù)訓(xùn)練。需要單獨(dú)給每個(gè)語言加上相應(yīng)的語言嵌入向量,用來區(qū)分不同的語言。我們選取了無監(jiān)督機(jī)器翻譯、低資源機(jī)器翻譯、文本摘要生成以及對話生成四個(gè)任務(wù),將 MASS 預(yù)訓(xùn)練模型針對各個(gè)任務(wù)進(jìn)行精調(diào),以驗(yàn)證 MASS 的效果。

無監(jiān)督機(jī)器翻譯

在無監(jiān)督翻譯任務(wù)上,我們和當(dāng)前最強(qiáng)的 Facebook XLM 作比較(XLM 用 BERT 中的屏蔽預(yù)訓(xùn)練模型,以及標(biāo)準(zhǔn)語言模型來分別預(yù)訓(xùn)練編碼器和解碼器),對比結(jié)果如下表所示。

可以看到,MASS 的預(yù)訓(xùn)練方法在 WMT14 英語 - 法語、WMT16 英語 - 德語一共 4 個(gè)翻譯方向上的表現(xiàn)都優(yōu)于 XLM。MASS 在英語 - 法語無監(jiān)督翻譯上的效果已經(jīng)遠(yuǎn)超早期有監(jiān)督的編碼器 - 注意力 - 解碼器模型,同時(shí)極大縮小了和當(dāng)前最好的有監(jiān)督模型之間的差距。

低資源機(jī)器翻譯

低資源機(jī)器翻譯指的是監(jiān)督數(shù)據(jù)有限情況下的機(jī)器翻譯。我們在 WMT14 英語 - 法語、WMT16 英語 - 德語上的不同低資源場景上(分別只有 10K、100K、1M 的監(jiān)督數(shù)據(jù))驗(yàn)證我們方法的有效性,結(jié)果如下所示。

在不同的數(shù)據(jù)規(guī)模下,我們的預(yù)訓(xùn)練方法的表現(xiàn)均比不用預(yù)訓(xùn)練的基線模型有不同程度的提升,監(jiān)督數(shù)據(jù)越少,提升效果越顯著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任務(wù)上,我們將 MASS 同 BERT+LM(編碼器用 BERT 預(yù)訓(xùn)練,解碼器用標(biāo)準(zhǔn)語言模型 LM 預(yù)訓(xùn)練)以及 DAE(去噪自編碼器)進(jìn)行了比較。從下表可以看到,MASS 的效果明顯優(yōu)于 BERT+LM 以及 DAE。

對話生成

在對話生成(Cornell Movie Dialog Corpus)任務(wù)上,我們將 MASS 同 BERT+LM 進(jìn)行了比較,結(jié)果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然語言生成任務(wù)中,MASS 均取得了非常不錯(cuò)的效果。接下來,我們還將測試 MASS 在自然語言理解任務(wù)上的性能,并為該模型增加支持監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練的功能,以期望在更多自然語言任務(wù)中取得提升。未來,我們還希望將 MASS 的應(yīng)用領(lǐng)域擴(kuò)展到包含語音、視頻等其它序列到序列的生成任務(wù)中。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6685

    瀏覽量

    105718
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3794

    瀏覽量

    137986
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13654

原文標(biāo)題:【ICML 2019】微軟最新通用預(yù)訓(xùn)練模型MASS,超越BERT、GPT!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP4060單卡實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)
    的頭像 發(fā)表于 03-21 18:24 ?1636次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    華為公布AI模型訓(xùn)練與車輛控制專利

    顯示,該專利涉及全新的模型訓(xùn)練方法以及車輛控制方法,并配套有相關(guān)裝置,這些均可廣泛應(yīng)用于人工智能領(lǐng)域。具體而言,華為此次提出的創(chuàng)新點(diǎn)在于
    的頭像 發(fā)表于 02-20 09:14 ?475次閱讀

    用PaddleNLP4060單卡實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓(xùn)練個(gè)大語言模型需要投資多少錢》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對大模型
    的頭像 發(fā)表于 02-19 16:10 ?989次閱讀
    用PaddleNLP<b class='flag-5'>在</b>4060單卡<b class='flag-5'>上</b>實(shí)踐大模型<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    騰訊公布大語言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了項(xiàng)名為“大語言模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊大語言模型訓(xùn)練領(lǐng)域取得了新的突破。 據(jù)專利摘要顯示,
    的頭像 發(fā)表于 02-10 09:37 ?397次閱讀

    KerasHub統(tǒng)、全面的預(yù)訓(xùn)練模型庫

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這動(dòng)向的前沿。Keras 擁有專用的內(nèi)
    的頭像 發(fā)表于 12-20 10:32 ?494次閱讀

    微軟否認(rèn)使用用戶數(shù)據(jù)訓(xùn)練AI模型

    近日,微軟公司正式否認(rèn)了項(xiàng)關(guān)于其使用Microsoft 365應(yīng)用程序中客戶數(shù)據(jù)來訓(xùn)練人工智能模型的指控。這聲明旨在澄清近期社交媒體上
    的頭像 發(fā)表于 12-02 10:33 ?446次閱讀

    從零開始訓(xùn)練個(gè)大語言模型需要投資多少錢?

    ,前言 ? AI領(lǐng)域,訓(xùn)練個(gè)大型語言模型(LLM)是
    的頭像 發(fā)表于 11-08 14:15 ?779次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>大語言模型需要投資多少錢?

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    訓(xùn)練方法 LLM: 預(yù)訓(xùn)練和微調(diào): LLM通常采用預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning)的
    的頭像 發(fā)表于 11-08 09:25 ?1866次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為個(gè)
    的頭像 發(fā)表于 11-05 17:43 ?1398次閱讀

    使用PyTorch英特爾獨(dú)立顯卡訓(xùn)練模型

    《PyTorch 2.5重磅更新:性能優(yōu)化+新特性》中的個(gè)新特性就是:正式支持英特爾獨(dú)立顯卡訓(xùn)練模型!
    的頭像 發(fā)表于 11-01 14:21 ?2041次閱讀
    使用PyTorch<b class='flag-5'>在</b>英特爾獨(dú)立顯卡<b class='flag-5'>上</b><b class='flag-5'>訓(xùn)練</b>模型

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    神經(jīng)網(wǎng)絡(luò),特別是預(yù)訓(xùn)練的基礎(chǔ)模型研究得到了廣泛的應(yīng)用,但其仍然主要依賴于大量樣本的批量式訓(xùn)練。本報(bào)告將探討實(shí)現(xiàn)模型的增量式
    的頭像 發(fā)表于 10-18 08:09 ?589次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

    蘋果公司最近在篇技術(shù)論文中披露,其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型,是谷歌設(shè)計(jì)的云端芯片完成預(yù)
    的頭像 發(fā)表于 07-30 17:03 ?912次閱讀

    蘋果揭示AI新動(dòng)向:Apple Intelligence模型谷歌云端芯片預(yù)訓(xùn)練

    蘋果公司最新的技術(shù)論文中披露了項(xiàng)重要信息,其全新的人工智能系統(tǒng)Apple Intelligence所依賴的模型并非傳統(tǒng)大型科技公司首選的NVIDIA GPU,而是選擇了
    的頭像 發(fā)表于 07-30 15:00 ?839次閱讀

    馬斯克宣布開始“全球最大AI訓(xùn)練集群”訓(xùn)練

    訓(xùn)練項(xiàng)目,這壯舉被馬斯克本人譽(yù)為“全球最強(qiáng)大的AI訓(xùn)練集群”,標(biāo)志著人工智能算力競賽進(jìn)入了個(gè)全新
    的頭像 發(fā)表于 07-23 17:44 ?934次閱讀

    ai大模型訓(xùn)練方法有哪些?

    AI大模型訓(xùn)練方法個(gè)復(fù)雜且不斷發(fā)展的領(lǐng)域。以下是ai大模型訓(xùn)練方法: 數(shù)據(jù)預(yù)處理和增強(qiáng) 數(shù)據(jù)清洗:去除噪聲和不完整的數(shù)據(jù)。 數(shù)據(jù)標(biāo)準(zhǔn)化:將數(shù)據(jù)縮放到統(tǒng)
    的頭像 發(fā)表于 07-16 10:11 ?3148次閱讀