微軟新研究提出一個新的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)模型——MT-DNN。MT-DNN結(jié)合了BERT的優(yōu)點,并在10大自然語言理解任務(wù)上超越了BERT,在多個流行的基準測試中創(chuàng)造了新的最先進的結(jié)果。
語言嵌入是將自然語言符號文本(如單詞、短語和句子)映射到語義向量表示的過程。這是自然語言理解(NLU)深度學(xué)習(xí)方法的基礎(chǔ)。學(xué)習(xí)對多個NLU任務(wù)通用的語言嵌入是非常必要的。
學(xué)習(xí)語言嵌入有兩種流行方法,分別是語言模型預(yù)訓(xùn)練和多任務(wù)學(xué)習(xí)(MTL)。前者通過利用大量未標記的數(shù)據(jù)學(xué)習(xí)通用語言嵌入,但MTL可以有效地利用來自許多相關(guān)任務(wù)的有監(jiān)督數(shù)據(jù),并通過減輕對特定任務(wù)的過度擬合,從正則化效果中獲益,從而使學(xué)習(xí)的嵌入在任務(wù)之間具有通用性。
最近,微軟的研究人員發(fā)布了一個用于學(xué)習(xí)通用語言嵌入的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)模型——MT-DNN。MT-DNN結(jié)合了MTL和BERT的語言模型預(yù)訓(xùn)練方法的優(yōu)點,并在10個NLU任務(wù)上超越了BERT,在多個流行的NLU基準測試中創(chuàng)造了新的最先進的結(jié)果,包括通用語言理解評估(GLUE)、斯坦福自然語言推理(SNLI)和SciTail。
MT-DNN的架構(gòu)
MT-DNN擴展了微軟在2015年提出的多任務(wù)DNN模型(Multi-Task DNN),引入了谷歌AI開發(fā)的預(yù)訓(xùn)練雙向transformer語言模型BERT。
MT-DNN架構(gòu)
MT-DNN模型的架構(gòu)如上圖所示。低層在所有任務(wù)之間共享,而頂層是特定于任務(wù)的。輸入X可以是一個句子或一對句子,其中的每個單詞都先被表示為一個嵌入向量序列,表示為l_1。
然后,基于transformer的編碼器捕獲每個單詞的上下文信息,并在l_2中生成共享的上下文嵌入向量。
最后,對于每個任務(wù),額外的 task-speci?c 的層生成特定于任務(wù)的表示,然后是分類、相似度評分或相關(guān)性排序所需的操作。MT-DNN使用BERT來初始化它的共享層,然后通過MTL改進它們。
領(lǐng)域自適應(yīng)結(jié)果
評估語言嵌入的通用性的一種方法是測量嵌入適應(yīng)新任務(wù)的速度,或者需要多少特定于任務(wù)的標簽才能在新任務(wù)上獲得不錯的結(jié)果。越通用的嵌入,它需要的特定于任務(wù)的標簽就越少。
MT-DNN論文的作者將MT-DNN與BERT在領(lǐng)域自適應(yīng)(domain adaption)方面的表現(xiàn)進行了比較。
在域適應(yīng)方面,兩種模型都通過逐步增加域內(nèi)數(shù)據(jù)(in-domain data)的大小來適應(yīng)新的任務(wù)。
SNLI和SciTail任務(wù)的結(jié)果如下表和圖所示。可以看到,在只有0.1%的域內(nèi)數(shù)據(jù)(SNLI中為549個樣本,SciTail中為23個樣本)的條件下,MT-DNN的準確率超過80%,而BERT的準確率在50%左右,這說明MT-DNN學(xué)習(xí)的語言嵌入比BERT的更加通用。
與BERT相比,MT-DNN在SNLI和SciTail數(shù)據(jù)集上的精度更高。
在GLUE、SNLI和SciTail 3個benchmarks上的結(jié)果
在GLUE測試集的結(jié)果,MT-DNN在10個任務(wù)上的結(jié)果均超越了BERT
模型開源
微軟已經(jīng)在GitHub開源MT-DNN包,其中包含了預(yù)訓(xùn)練的模型、源代碼,并描述了如何重現(xiàn)MT-DNN論文中報告的結(jié)果,以及如何通過domain adaptation使預(yù)訓(xùn)練的MT-DNN模型適應(yīng)任何新任務(wù)。
-
微軟
+關(guān)注
關(guān)注
4文章
6685瀏覽量
105745 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103577 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122793
原文標題:10大任務(wù)超越BERT,微軟提出多任務(wù)深度神經(jīng)網(wǎng)絡(luò)MT-DNN
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
無刷電機小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究
神經(jīng)網(wǎng)絡(luò)RAS在異步電機轉(zhuǎn)速估計中的仿真研究
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型
深度學(xué)習(xí)入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實現(xiàn)
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

評論