一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一套新的自然語(yǔ)言處理(NLP)評(píng)估基準(zhǔn),名為 SuperGLUE

電子工程師 ? 來(lái)源:lq ? 2019-04-29 18:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自然語(yǔ)言處理(NLP),是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)分支,專(zhuān)門(mén)研究如何讓機(jī)器理解人類(lèi)語(yǔ)言和相關(guān)文本,也是發(fā)展通用人工智能技術(shù)亟需攻克的核心難題之一。

不久之后,紐約大學(xué)、華盛頓大學(xué)、劍橋大學(xué)和 Facebook AI 將聯(lián)合推出一套新的自然語(yǔ)言處理(NLP)評(píng)估基準(zhǔn),名為 SuperGLUE,全稱(chēng)是 Super General-Purpose Language Understanding。

該系統(tǒng)是現(xiàn)有 GLUE 基準(zhǔn)的升級(jí)版(所以前面加上了 Super)。研究人員刪除了原本 11 項(xiàng)任務(wù)中的 9 項(xiàng),更新了剩下 2 項(xiàng),同時(shí)加入了 5 項(xiàng)新的評(píng)估基準(zhǔn)。新版本將更契合未來(lái) NLP 技術(shù)的發(fā)展方向,難度也是大幅增加,更具挑戰(zhàn)性。

(來(lái)源:Nikita Nangia)

這套系統(tǒng)的數(shù)據(jù)集、工具包和具體評(píng)估標(biāo)準(zhǔn)預(yù)計(jì)將于 5 月初公布。不過(guò)從最新發(fā)布的 SuperGLUE 論文中,我們可以先睹為快。

什么是 GLUE?

實(shí)現(xiàn) NLP 的方法有很多,主流的方法大多圍繞多任務(wù)學(xué)習(xí)和語(yǔ)言模型預(yù)訓(xùn)練展開(kāi),由此孕育出很多種不同模型,比如 BERT、MT-DNN、ALICE 和 Snorkel MeTaL 等等。在某個(gè)模型的基礎(chǔ)上,研究團(tuán)隊(duì)還可以借鑒其它模型的精華或者直接結(jié)合兩者。

為了更好地訓(xùn)練模型,同時(shí)更準(zhǔn)確地評(píng)估和分析其表現(xiàn),紐約大學(xué)、華盛頓大學(xué)和 DeepMind 的 NLP 研究團(tuán)隊(duì)在 2018 年推出了通用語(yǔ)言理解評(píng)估基準(zhǔn)(GLUE),其中包含 11 項(xiàng)常見(jiàn) NLP 任務(wù),都是取自認(rèn)可度相當(dāng)高的 NLP 數(shù)據(jù)集,最大的語(yǔ)料庫(kù)規(guī)模超過(guò) 40 萬(wàn)條,而且種類(lèi)多變,涉及到自然語(yǔ)言推理、情感分析、閱讀理解和語(yǔ)義相似性等多個(gè)領(lǐng)域。

圖 | GLUE的11項(xiàng)任務(wù)

不過(guò)GLUE基準(zhǔn)才發(fā)布一年,已經(jīng)有很多 NLP 模型在特定任務(wù)中超過(guò)了人類(lèi)基準(zhǔn),尤其是在 QQP、MRPC 和 QNLI 三項(xiàng)任務(wù)中:

QQP 是“Quora 問(wèn)題配對(duì)”數(shù)據(jù)集,由 40 萬(wàn)對(duì) Quora 問(wèn)題組成,模型需要識(shí)別兩個(gè)問(wèn)題之間的含義是否相同。

MRPC 是“微軟研究釋義語(yǔ)料庫(kù)”,與 QQP 類(lèi)似,模型需要判斷兩個(gè)形式不同的句子是否具有相似的意思(即釋義句)。

QNLI 任務(wù)基于“斯坦福問(wèn)答數(shù)據(jù)集(SQuAD)”,主要考察模型的閱讀理解能力。它需要根據(jù)維基百科中的文章來(lái)回答一些問(wèn)題,答案可能存在于文章中,也可能不存在。

圖 | NLP 模型在三項(xiàng)任務(wù)中普遍超過(guò)了人類(lèi)基準(zhǔn),越靠右側(cè)的模型分?jǐn)?shù)越高

目前綜合分?jǐn)?shù)最高的是微軟提交的 MT-DNN++模型,其核心是多任務(wù)深度神經(jīng)網(wǎng)絡(luò)(MT-DNN)模型,并且在文本編碼層整合了 BERT。僅次于它的是阿里巴巴達(dá)摩院 NLP 團(tuán)隊(duì)的 ALICE Large 模型和斯坦福的 Snorkel MeTaL 模型。

從上面圖中我們也能看出,得益于 BERT 和 GPT 模型的引入,模型在很多GLUE 任務(wù)的得分都已經(jīng)接近人類(lèi)基準(zhǔn),只有 2-3 個(gè)任務(wù)與人類(lèi)有明顯差距。

因此,推出新的評(píng)估基準(zhǔn)勢(shì)在必行。

圖 | GLUE排行榜前五名

從 GLUE 到 SuperGLUE

新的 SuperGLUE 遵從了 GLUE 的基本原則:為通用語(yǔ)言理解技術(shù)的進(jìn)步提供通俗,但又具有挑戰(zhàn)性的基準(zhǔn)。

在制定這個(gè)新基準(zhǔn)時(shí),研究人員先在 NLP 社區(qū)公開(kāi)征集任務(wù)提案,獲得了大約 30 份提案,隨后按照如下標(biāo)準(zhǔn)篩選:

任務(wù)本質(zhì):測(cè)試系統(tǒng)理解英語(yǔ)的能力。

任務(wù)難度:超出當(dāng)前最先進(jìn)模型的能力,但是人類(lèi)可以解決。

可評(píng)估性:具備自動(dòng)評(píng)判機(jī)制,并且能夠準(zhǔn)確對(duì)應(yīng)人類(lèi)的判斷或表現(xiàn)。

公開(kāi)數(shù)據(jù):擁有公開(kāi)的訓(xùn)練數(shù)據(jù)。

任務(wù)格式:SuperGLUE 輸入值的復(fù)雜程度得到了提升,允許出現(xiàn)復(fù)雜句子,段落和文章等。

任務(wù)許可:所用數(shù)據(jù)必須獲得研究和重新分發(fā)的許可。

在篩選過(guò)程中,他們首先重新審核了現(xiàn)有的 GLUE 任務(wù)集,從中刪除了模型表現(xiàn)較好的 9 項(xiàng)任務(wù),保留了 2 項(xiàng)表現(xiàn)最差的任務(wù)——Winograd 模式挑戰(zhàn)賽(WSC)和文本蘊(yùn)含識(shí)別(RTE)——它們還有很大的進(jìn)步空間。

兩項(xiàng)任務(wù)分別屬于自然語(yǔ)言推理和閱讀理解范疇。人類(lèi)通常比較擅長(zhǎng)這樣的任務(wù),甚至于不需要特殊訓(xùn)練就可以精通。比如看到這樣兩句話:

“這本書(shū)裝不進(jìn)書(shū)包,因?yàn)樗罅??!?/p>

“這本書(shū)裝不進(jìn)書(shū)包,因?yàn)樗×恕!?/p>

盡管兩個(gè)句子包含兩個(gè)含義截然相反的形容詞,人類(lèi)還是可以輕松理解,因?yàn)槲覀冎馈八钡闹复锊煌5厦婺切㎞LP模型卻表現(xiàn)的很糟糕,平均水平不足人類(lèi)的 70%。而這其實(shí)就是 WSC 任務(wù)的主要內(nèi)容。

最后,研究人員挑選(設(shè)計(jì))了 5 項(xiàng)新任務(wù),分別是 CB,COPA,GAP,MultiRC 和 WiC,主要測(cè)試模型回答問(wèn)題,指代消解和常識(shí)推理的能力。

圖 | 新版SuperGLUE任務(wù)集,其中RTE和WSC來(lái)自于現(xiàn)有的GLUE任務(wù)

研究人員認(rèn)為,SuperGLUE 的新任務(wù)更加側(cè)重于測(cè)試模型在復(fù)雜文本下的推理能力。

比如 WiC 要求模型在兩段內(nèi)容中,區(qū)分同一個(gè)單詞的含義是否一致(聽(tīng)起來(lái)簡(jiǎn)單,但對(duì)于機(jī)器來(lái)說(shuō)非常困難)。CB 和 COPA 都是考察模型在給定“前提”的情況下,對(duì)“假設(shè)”或“理由”的正確性進(jìn)行判斷,只不過(guò)有的側(cè)重于分析從句,有的側(cè)重于問(wèn)答模式。

GAP 則要求模型對(duì)性別做出判斷,能夠通過(guò)“姐姐”,“哥哥”和“妻子”這樣的詞匯,分辨文本中“他”和“她”的指代對(duì)象。

MultiRC 任務(wù)更加復(fù)雜,模型需要完成閱讀理解,然后回答問(wèn)題。一個(gè)典型的例子是這樣的:

圖| 搜索關(guān)鍵詞“speedy recover”,幾乎一眼就能找到答案,但機(jī)器未必知道

選擇了新的任務(wù)之后,研究人員用主流 NLP 模型進(jìn)行了測(cè)試。

最流行的 BERT 模型的表現(xiàn)勉強(qiáng)可以接受,但其量化之后的綜合分?jǐn)?shù)比人類(lèi)低約 16.8%,說(shuō)明機(jī)器距離人類(lèi)基準(zhǔn)仍有不小的差距,而且 SuperGLUE 確實(shí)比GLUE 難了不少。

圖 | 現(xiàn)有模型在SuperGLUE上的表現(xiàn)

鑒于目前 SuperGLUE 還沒(méi)有正式推出,我們還無(wú)法查看任務(wù)數(shù)據(jù)集和模型排行榜。在 5 月份推出 SuperGLUE 后,它可能還會(huì)經(jīng)歷一些微調(diào),然后在7月份變?yōu)檎桨姹荆┭邪l(fā) NLP 模型的團(tuán)隊(duì)挑戰(zhàn)。

目前來(lái)看,SuperGLUE 和 GLUE 之間的差距是可以接受的,新任務(wù)具有一定的挑戰(zhàn)性,但并非遙不可及,足以為全球的 NLP 團(tuán)隊(duì)樹(shù)立一個(gè)新的標(biāo)桿。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10790
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14157
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22624

原文標(biāo)題:SuperGLUE!自然語(yǔ)言處理模型新標(biāo)準(zhǔn)即將公布

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何優(yōu)化自然語(yǔ)言處理模型的性能

    優(yōu)化自然語(yǔ)言處理NLP)模型的性能是個(gè)多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個(gè)環(huán)節(jié)。以下是
    的頭像 發(fā)表于 12-05 15:30 ?1704次閱讀

    如何使用自然語(yǔ)言處理分析文本數(shù)據(jù)

    使用自然語(yǔ)言處理NLP)分析文本數(shù)據(jù)是個(gè)復(fù)雜但系統(tǒng)的過(guò)程,涉及多個(gè)步驟和技術(shù)。以下是個(gè)基本的流程,幫助你理解如何使用
    的頭像 發(fā)表于 12-05 15:27 ?1582次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語(yǔ)言處理的基本概念及步驟

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的個(gè)分支,它致力于研究如何讓計(jì)算機(jī)
    的頭像 發(fā)表于 12-05 15:21 ?1987次閱讀

    語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

    在人工智能的快速發(fā)展中,語(yǔ)音識(shí)別和自然語(yǔ)言處理NLP)成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別技術(shù)使得機(jī)器能夠理解人類(lèi)的語(yǔ)音,而自然語(yǔ)言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?1505次閱讀

    什么是LLM?LLM在自然語(yǔ)言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理NLP)領(lǐng)域迎來(lái)了革命性的進(jìn)步。其中,大型語(yǔ)言模型(LLM)的出現(xiàn),標(biāo)志著我們對(duì)語(yǔ)言理解能力的
    的頭像 發(fā)表于 11-19 15:32 ?3657次閱讀

    ASR與自然語(yǔ)言處理的結(jié)合

    。以下是對(duì)ASR與自然語(yǔ)言處理結(jié)合的分析: 、ASR與NLP的基本概念 ASR(自動(dòng)語(yǔ)音識(shí)別) : 專(zhuān)注于將人類(lèi)的語(yǔ)音轉(zhuǎn)換為文字。 涉及從聲音信號(hào)中提取特征,并將這些特征映射到文本。
    的頭像 發(fā)表于 11-18 15:19 ?1026次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用

    自然語(yǔ)言處理NLP)是人工智能領(lǐng)域的個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(RN
    的頭像 發(fā)表于 11-15 09:41 ?815次閱讀

    使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語(yǔ)言處理任務(wù)

    自然語(yǔ)言處理NLP)是人工智能領(lǐng)域的個(gè)重要分支,它旨在使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(
    的頭像 發(fā)表于 11-13 09:56 ?1161次閱讀

    自然語(yǔ)言處理的未來(lái)發(fā)展趨勢(shì)

    隨著技術(shù)的進(jìn)步,自然語(yǔ)言處理NLP)已經(jīng)成為人工智能領(lǐng)域的個(gè)重要分支。NLP的目標(biāo)是使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)
    的頭像 發(fā)表于 11-11 10:37 ?1726次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能的快速發(fā)展中,自然語(yǔ)言處理NLP)和機(jī)器學(xué)習(xí)(ML)成為了兩個(gè)核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問(wèn)題,但側(cè)重點(diǎn)和應(yīng)用場(chǎng)景有所不同。 1. 自然語(yǔ)言
    的頭像 發(fā)表于 11-11 10:35 ?1548次閱讀

    自然語(yǔ)言處理的應(yīng)用實(shí)例

    在當(dāng)今數(shù)字化時(shí)代,自然語(yǔ)言處理NLP)技術(shù)已經(jīng)成為我們?nèi)粘I畹?b class='flag-5'>一部分。從智能手機(jī)的語(yǔ)音助手到在線客服機(jī)器人,NLP技術(shù)的應(yīng)用無(wú)處不在。
    的頭像 發(fā)表于 11-11 10:31 ?1610次閱讀

    使用LLM進(jìn)行自然語(yǔ)言處理的優(yōu)缺點(diǎn)

    自然語(yǔ)言處理NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言
    的頭像 發(fā)表于 11-08 09:27 ?2457次閱讀

    Llama 3 在自然語(yǔ)言處理中的優(yōu)勢(shì)

    自然語(yǔ)言處理NLP)的快速發(fā)展中,我們見(jiàn)證了從基于規(guī)則的系統(tǒng)到基于機(jī)器學(xué)習(xí)的模型的轉(zhuǎn)變。隨著深度學(xué)習(xí)技術(shù)的興起,NLP領(lǐng)域迎來(lái)了新的突破。Llama 3,作為
    的頭像 發(fā)表于 10-27 14:22 ?730次閱讀

    AI大模型在自然語(yǔ)言處理中的應(yīng)用

    AI大模型在自然語(yǔ)言處理NLP)中的應(yīng)用廣泛且深入,其強(qiáng)大的語(yǔ)義理解和生成能力為NLP任務(wù)帶來(lái)了顯著的性能提升。以下是對(duì)AI大模型在NLP
    的頭像 發(fā)表于 10-23 14:38 ?1545次閱讀

    AI智能化問(wèn)答:自然語(yǔ)言處理技術(shù)的重要應(yīng)用

    自然語(yǔ)言處理NLP)是人工智能領(lǐng)域的個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類(lèi)語(yǔ)言。問(wèn)答系統(tǒng)作為
    的頭像 發(fā)表于 10-12 10:58 ?1096次閱讀
    AI智能化問(wèn)答:<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>處理</b>技術(shù)的重要應(yīng)用