一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟新研究提出一個新的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)模型——MT-DNN

DPVg_AI_era ? 來源:lp ? 2019-03-29 11:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟新研究提出一個新的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)模型——MT-DNN。MT-DNN結(jié)合了BERT的優(yōu)點,并在10大自然語言理解任務(wù)上超越了BERT,在多個流行的基準測試中創(chuàng)造了新的最先進的結(jié)果。

語言嵌入是將自然語言符號文本(如單詞、短語和句子)映射到語義向量表示的過程。這是自然語言理解(NLU)深度學(xué)習(xí)方法的基礎(chǔ)。學(xué)習(xí)對多個NLU任務(wù)通用的語言嵌入是非常必要的。

學(xué)習(xí)語言嵌入有兩種流行方法,分別是語言模型預(yù)訓(xùn)練和多任務(wù)學(xué)習(xí)(MTL)。前者通過利用大量未標記的數(shù)據(jù)學(xué)習(xí)通用語言嵌入,但MTL可以有效地利用來自許多相關(guān)任務(wù)的有監(jiān)督數(shù)據(jù),并通過減輕對特定任務(wù)的過度擬合,從正則化效果中獲益,從而使學(xué)習(xí)的嵌入在任務(wù)之間具有通用性。

最近,微軟的研究人員發(fā)布了一個用于學(xué)習(xí)通用語言嵌入的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)模型——MT-DNN。MT-DNN結(jié)合了MTL和BERT的語言模型預(yù)訓(xùn)練方法的優(yōu)點,并在10個NLU任務(wù)上超越了BERT,在多個流行的NLU基準測試中創(chuàng)造了新的最先進的結(jié)果,包括通用語言理解評估(GLUE)、斯坦福自然語言推理(SNLI)和SciTail。

MT-DNN的架構(gòu)

MT-DNN擴展了微軟在2015年提出的多任務(wù)DNN模型(Multi-Task DNN),引入了谷歌AI開發(fā)的預(yù)訓(xùn)練雙向transformer語言模型BERT。

MT-DNN架構(gòu)

MT-DNN模型的架構(gòu)如上圖所示。低層在所有任務(wù)之間共享,而頂層是特定于任務(wù)的。輸入X可以是一個句子或一對句子,其中的每個單詞都先被表示為一個嵌入向量序列,表示為l_1。

然后,基于transformer的編碼器捕獲每個單詞的上下文信息,并在l_2中生成共享的上下文嵌入向量。

最后,對于每個任務(wù),額外的 task-speci?c 的層生成特定于任務(wù)的表示,然后是分類、相似度評分或相關(guān)性排序所需的操作。MT-DNN使用BERT來初始化它的共享層,然后通過MTL改進它們。

領(lǐng)域自適應(yīng)結(jié)果

評估語言嵌入的通用性的一種方法是測量嵌入適應(yīng)新任務(wù)的速度,或者需要多少特定于任務(wù)的標簽才能在新任務(wù)上獲得不錯的結(jié)果。越通用的嵌入,它需要的特定于任務(wù)的標簽就越少。

MT-DNN論文的作者將MT-DNN與BERT在領(lǐng)域自適應(yīng)(domain adaption)方面的表現(xiàn)進行了比較。

在域適應(yīng)方面,兩種模型都通過逐步增加域內(nèi)數(shù)據(jù)(in-domain data)的大小來適應(yīng)新的任務(wù)。

SNLI和SciTail任務(wù)的結(jié)果如下表和圖所示。可以看到,在只有0.1%的域內(nèi)數(shù)據(jù)(SNLI中為549個樣本,SciTail中為23個樣本)的條件下,MT-DNN的準確率超過80%,而BERT的準確率在50%左右,這說明MT-DNN學(xué)習(xí)的語言嵌入比BERT的更加通用。

與BERT相比,MT-DNN在SNLI和SciTail數(shù)據(jù)集上的精度更高。

在GLUE、SNLI和SciTail 3個benchmarks上的結(jié)果

在GLUE測試集的結(jié)果,MT-DNN在10個任務(wù)上的結(jié)果均超越了BERT

模型開源

微軟已經(jīng)在GitHub開源MT-DNN包,其中包含了預(yù)訓(xùn)練的模型、源代碼,并描述了如何重現(xiàn)MT-DNN論文中報告的結(jié)果,以及如何通過domain adaptation使預(yù)訓(xùn)練的MT-DNN模型適應(yīng)任何新任務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6685

    瀏覽量

    105745
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103577
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122793

原文標題:10大任務(wù)超越BERT,微軟提出多任務(wù)深度神經(jīng)網(wǎng)絡(luò)MT-DNN

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    無刷電機小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實現(xiàn)轉(zhuǎn)角預(yù)測,并采用改進遺傳算法來訓(xùn)練
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)RAS在異步電機轉(zhuǎn)速估計中的仿真研究

    ,在定程度上擴展了轉(zhuǎn)速估計范圍。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡(luò)RAS在異步電機轉(zhuǎn)速估計中的仿真研究.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者
    發(fā)表于 06-16 21:54

    BP神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的關(guān)系

    ),是種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整
    的頭像 發(fā)表于 02-12 15:15 ?851次閱讀

    如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型

    BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)種經(jīng)典的人工神經(jīng)網(wǎng)絡(luò)模型,其訓(xùn)練過程主要分為兩階段:前向傳播和反向傳播。以下是訓(xùn)練BP
    的頭像 發(fā)表于 02-12 15:10 ?904次閱讀

    深度學(xué)習(xí)入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實現(xiàn)

    深度學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)是核心模型。今天我們用 Python 和 NumPy 構(gòu)建簡單的神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 01-23 13:52 ?528次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上篇文章中,我們介紹了傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法。在本文中,我們會介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工
    的頭像 發(fā)表于 01-09 10:24 ?1184次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)工具與框架

    卷積神經(jīng)網(wǎng)絡(luò)因其在圖像和視頻處理任務(wù)中的卓越性能而廣受歡迎。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,多種實現(xiàn)工具和框架應(yīng)運而生,為研究人員和開發(fā)者提供了強大的支持。 TensorFlow 概述
    的頭像 發(fā)表于 11-15 15:20 ?668次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)
    的頭像 發(fā)表于 11-15 14:53 ?1867次閱讀

    深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學(xué)習(xí)近年來在多個領(lǐng)域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的分支,因其在圖像處理
    的頭像 發(fā)表于 11-15 14:52 ?844次閱讀

    RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別

    神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)領(lǐng)域中的種強大工具,它們能夠模擬人腦處理信息的方式。隨著技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的類型也在不斷增加,其中循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和傳統(tǒng)
    的頭像 發(fā)表于 11-15 09:42 ?1125次閱讀

    如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型

    構(gòu)建LSTM(長短期記憶)神經(jīng)網(wǎng)絡(luò)模型涉及多個步驟的過程。以下是使用Python和Ke
    的頭像 發(fā)表于 11-13 10:10 ?1571次閱讀

    【飛凌嵌入式OK3576-C開發(fā)板體驗】RKNN神經(jīng)網(wǎng)絡(luò)算法開發(fā)環(huán)境搭建

    download_model.sh 腳本,該腳本 將下載可用的 YOLOv5 ONNX 模型,并存放在當(dāng)前 model 目錄下,參考命令如下: 安裝COCO數(shù)據(jù)集,在深度
    發(fā)表于 10-10 09:28

    UNet模型屬于哪種神經(jīng)網(wǎng)絡(luò)

    U-Net模型屬于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的種特殊形式 。它最初由德國弗萊堡大學(xué)計算機科學(xué)系的研究人員在2015年
    的頭像 發(fā)表于 07-24 10:59 ?5537次閱讀

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之,在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的
    的頭像 發(fā)表于 07-24 10:42 ?1200次閱讀

    如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

    構(gòu)建多層神經(jīng)網(wǎng)絡(luò)(MLP, Multi-Layer Perceptron)模型在機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域廣泛使用的技術(shù),尤其在處理分類和
    的頭像 發(fā)表于 07-19 17:19 ?1557次閱讀