一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SuperGLUE正式上線:NLP模型們,來(lái)迎接挑戰(zhàn)吧!

DPVg_AI_era ? 來(lái)源:lq ? 2019-09-13 16:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Facebook AI Research、Google DeepMind、華盛頓大學(xué)和紐約大學(xué)合作,共同推出了SuperGLUE,這是一系列用來(lái)衡量現(xiàn)代高性能語(yǔ)言理解AI表現(xiàn)的基準(zhǔn)測(cè)試任務(wù),SuperGLUE針對(duì)的是已經(jīng)達(dá)到挑戰(zhàn)上限的會(huì)話式AI深度學(xué)習(xí)模型,為其提供更難的挑戰(zhàn),其比GLUE基準(zhǔn)任務(wù)更負(fù)責(zé),旨在構(gòu)建能處理更加復(fù)雜和掌握更細(xì)微差別的語(yǔ)言模型。

目前NLP主要著眼在多任務(wù)學(xué)習(xí)和語(yǔ)言模型預(yù)訓(xùn)練,從而孕育出各種模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。為了評(píng)估這些模型的精準(zhǔn)度,GLUE基準(zhǔn)應(yīng)運(yùn)而生。

SuperGLUE正式上線:NLP模型們,來(lái)迎接挑戰(zhàn)吧!

GLUE全稱是通用語(yǔ)言理解評(píng)估(General Language Understanding Evaluation),基于已有的9種英文語(yǔ)言理解任務(wù),涵蓋多種數(shù)據(jù)集大小、文本類型和難度。終極目標(biāo)是推動(dòng)研究,開(kāi)發(fā)通用和強(qiáng)大的自然語(yǔ)言理解系統(tǒng)。

但隨著NLP模型狂飆似的發(fā)展速度,僅推出一年時(shí)間的GLUE基準(zhǔn),已經(jīng)顯得有些力不從心。于是,F(xiàn)acebook AI研究院、谷歌DeepMind、華盛頓大學(xué)以及紐約大學(xué)4家公司和高校開(kāi)始攜手打造進(jìn)化版新基準(zhǔn):SuperGLUE!

近日,進(jìn)化后的基準(zhǔn)也正式宣布上線,可供大家使用了!

地址:

https://gluebenchmark.com

因?yàn)锽ERT在GLUE上是當(dāng)前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作為模型性能基準(zhǔn)。

什么是SuperGLUE?

如果你搜索SuperGLUE,出現(xiàn)在首頁(yè)的一定的各種膠水。這也是科技公司在給產(chǎn)品起名時(shí)特別喜歡玩兒的一個(gè)梗:利用命名的首字母縮寫成為一個(gè)十分普通、十分常見(jiàn)的英文單詞,這個(gè)單詞經(jīng)常和實(shí)際的科技產(chǎn)品毫不相關(guān)。

實(shí)際上,我們今天要介紹的SuperGLUE,全稱是超(級(jí))通用語(yǔ)言理解評(píng)估(Super General-Purpose Language Understanding Evaluation)。

據(jù)SuperGLUE團(tuán)隊(duì)介紹,為了獲得更強(qiáng)悍的任務(wù)集,他們向各個(gè)NLP社區(qū)發(fā)出了征集令,并最終獲得一個(gè)包含約30種不同NLP任務(wù)的列表。隨后按照如下標(biāo)準(zhǔn)篩選:

任務(wù)本質(zhì):即測(cè)試系統(tǒng)理解英語(yǔ)的能力

任務(wù)難度:即超出當(dāng)前最先進(jìn)模型的能力

可評(píng)估性:具備自動(dòng)評(píng)斷機(jī)制,同時(shí)還需要能夠準(zhǔn)確對(duì)應(yīng)人類的判斷或表現(xiàn)

公開(kāi)數(shù)據(jù):擁有可公開(kāi)的數(shù)據(jù)

任務(wù)格式:提升輸入值的復(fù)雜程度,允許出現(xiàn)復(fù)雜句子、段落和文章等

任務(wù)許可:所用數(shù)據(jù)必須獲得研究和重新分發(fā)的許可

最終獲得一個(gè)包含7個(gè)任務(wù)的集合。然后,以這7個(gè)任務(wù)為基礎(chǔ)構(gòu)建公開(kāi)排行榜。

此外,SuperGLUE還包含基于已有數(shù)據(jù)的抽取、單個(gè)數(shù)值的表現(xiàn)指標(biāo),以及一套分析工具包jiant。 下載地址: https://jiant.info/

相比GLUE有哪些變化?效果如何?

進(jìn)化后的新基準(zhǔn),難度有了大幅提升,應(yīng)對(duì)起當(dāng)前這些發(fā)育迅猛的NLP模型更加得心應(yīng)手,從而可以鼓勵(lì)構(gòu)建能夠掌握更復(fù)雜,或具有更細(xì)微差別的語(yǔ)言的模型。

相比上一代GLUE,首先研究人員向原有的11項(xiàng)任務(wù)開(kāi)刀,直接砍掉其中的9項(xiàng),并對(duì)剩下的2項(xiàng)任務(wù)進(jìn)行了升級(jí),這兩項(xiàng)任務(wù)分別是識(shí)別文本蘊(yùn)涵(RTE)和Winograd模式挑戰(zhàn)賽(WSC)。

之后,5項(xiàng)新的評(píng)估基準(zhǔn)也被添加進(jìn)來(lái),用于測(cè)試模型在回答問(wèn)題、指代消解和常識(shí)推理方面的能力。這5項(xiàng)新任務(wù)分別是:CB,COPA,GAP,MultiRC和WiC。

初始的SuperGLUE基準(zhǔn)版本包含了人類水平估計(jì)結(jié)果,擴(kuò)展了GLUE中的句子和句子的分類,還包含了共指消解、句子完成和問(wèn)答。

SuperGLUE任務(wù)集合比較多樣化,為了幫助研究者能夠開(kāi)發(fā)出統(tǒng)一的新方法,SuperGLUE團(tuán)隊(duì)還貼心的為研究人員提供了一套基于PyTorch和AllenNLP、用來(lái)操作NLP的預(yù)訓(xùn)練、多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)的模塊化建模工具包。

此外,因?yàn)榭紤]到公平性、信息的豐富性,管理SuperGLUE排行榜的規(guī)則也有很多地方和GLUE有所區(qū)別,以期能充分體現(xiàn)數(shù)據(jù)和任務(wù)創(chuàng)建者的貢獻(xiàn)。

研究人員用主流NLP模型對(duì)新基準(zhǔn)進(jìn)行了測(cè)試,效果如下圖:

任務(wù)示例:

值得一提的是,即使是當(dāng)前最先進(jìn)的BERT模型,量化后的綜合分?jǐn)?shù),比人類低了約16.8%。這樣的表現(xiàn),恐怕只能勉強(qiáng)算過(guò)得去而已。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10799
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25458
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22629

原文標(biāo)題:超難NLP新基準(zhǔn)SuperGLUE正式發(fā)布:橫掃SOTA模型BERT勉強(qiáng)過(guò)關(guān)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為開(kāi)發(fā)者大會(huì)2025(HDC 2025)亮點(diǎn):華為云發(fā)布盤古大模型5.5 宣布新一代昇騰AI云服務(wù)上線

    HarmonyOS、昇騰AI云服務(wù)、盤古大模型等最新科技創(chuàng)新成果。 在主題演講中,華為常務(wù)董事、華為云計(jì)算CEO張平安宣布基于CloudMatrix384 超節(jié)點(diǎn)的新一代昇騰AI云服務(wù)全面上線,為大模型應(yīng)用提供澎湃算力;宣布盤古
    的頭像 發(fā)表于 06-20 20:19 ?2237次閱讀
    華為開(kāi)發(fā)者大會(huì)2025(HDC 2025)亮點(diǎn):華為云發(fā)布盤古大<b class='flag-5'>模型</b>5.5 宣布新一代昇騰AI云服務(wù)<b class='flag-5'>上線</b>

    商湯科技日日新大模型SenseNova上線聲網(wǎng)云市場(chǎng)

    日前,商湯科技日日新大模型SenseNova即將正式上線聲網(wǎng)云市場(chǎng),開(kāi)發(fā)者和企業(yè)用戶可通過(guò)聲網(wǎng)的實(shí)時(shí)互動(dòng)云服務(wù)進(jìn)行調(diào)用,將商湯領(lǐng)先的模型能力集成到各類應(yīng)用場(chǎng)景中,快速構(gòu)建基于日日新大模型
    的頭像 發(fā)表于 04-08 17:24 ?912次閱讀

    模型原生操作系統(tǒng):機(jī)遇、挑戰(zhàn)與展望 CCCF精選

    本文立足人工智能時(shí)代用戶、應(yīng)用和系統(tǒng)的需求,分析“外掛式模型”演進(jìn)路徑下的操作系統(tǒng)發(fā)展困局,提出通過(guò)“模型-系統(tǒng)-芯片”的全棧協(xié)同設(shè)計(jì)來(lái)構(gòu)建模型原生操作系統(tǒng),并進(jìn)一步探討了面臨的機(jī)遇與
    的頭像 發(fā)表于 03-14 17:46 ?533次閱讀
    <b class='flag-5'>模型</b>原生操作系統(tǒng):機(jī)遇、<b class='flag-5'>挑戰(zhàn)</b>與展望  CCCF精選

    淺析半導(dǎo)體激光器的發(fā)展趨勢(shì)

    文章綜述了現(xiàn)有高功率半導(dǎo)體激光器(包括單發(fā)射腔、巴條、水平陣列和垂直疊陣)的封裝技術(shù),并討論了其發(fā)展趨勢(shì);分析了半導(dǎo)體激光器封裝技術(shù)存在的問(wèn)題和面臨的挑戰(zhàn),并給出解決問(wèn)題與迎接挑戰(zhàn)的方法及策略。
    的頭像 發(fā)表于 02-26 09:53 ?852次閱讀
    淺析半導(dǎo)體激光器的發(fā)展趨勢(shì)

    DeepSeek-R1全尺寸版本上線Gitee AI

    繼 DeepSeek 全套蒸餾模型以及 V3 版本上線后,經(jīng)過(guò) Gitee AI 和沐曦團(tuán)隊(duì)兩天緊鑼密鼓的適配和機(jī)器籌備,DeepSeek-R1全尺寸版本現(xiàn)在已上線 Gitee AI 供開(kāi)發(fā)者
    的頭像 發(fā)表于 02-07 15:25 ?1308次閱讀

    京東云正式上線DeepSeek系列模型

    近日,京東云正式宣布DeepSeek-R1和DeepSeek-V3模型全面上線。這兩款模型支持公有云在線部署和?;焖接谢瘜?shí)例部署兩種模式,旨在為用戶提供更加靈活、高效的AI解決方案。 用戶可以根據(jù)
    的頭像 發(fā)表于 02-06 14:25 ?534次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】對(duì)大模型更深入的認(rèn)知

    閱讀《大模型啟示錄》這本書,我得說(shuō),它徹底顛覆了我對(duì)大模型的理解。作為一個(gè)經(jīng)常用KIMI和豆包這類AI工具來(lái)完成作業(yè)、整理資料的大學(xué)生,我原以為大模型就是這些工具背后的技術(shù)。但這本書讓
    發(fā)表于 12-20 15:46

    騰訊混元大模型上線并開(kāi)源文生視頻能力

    近日,騰訊宣布其混元大模型正式上線,并開(kāi)源了一項(xiàng)令人矚目的能力——文生視頻。該大模型參數(shù)量高達(dá)130億,支持中英文雙語(yǔ)輸入,為用戶提供了更為便捷和多樣化的視頻生成體驗(yàn)。 據(jù)官方介紹,騰訊混元視頻
    的頭像 發(fā)表于 12-04 14:06 ?549次閱讀

    廣東電網(wǎng)與蔚來(lái)合作,肇慶首座蔚來(lái)換電站正式上線

    近日,廣東電網(wǎng)電動(dòng)汽車服務(wù)有限公司與蔚來(lái)汽車的合作取得重要進(jìn)展,由前者投資建設(shè)的首座蔚來(lái)換電站已在廣東省肇慶市正式上線運(yùn)營(yíng)。這一里程碑式的合作標(biāo)志著廣東電網(wǎng)正式簽約成為首批蔚來(lái)加電合伙
    的頭像 發(fā)表于 11-11 13:41 ?1278次閱讀

    騰訊混元Large模型及云TI平臺(tái)全新上線

    近日,騰訊混元團(tuán)隊(duì)最新推出的MoE模型“混元Large”已正式開(kāi)源上線。這一里程碑式的進(jìn)展標(biāo)志著騰訊在大模型技術(shù)領(lǐng)域取得了新的突破。 與此同時(shí),騰訊云TI平臺(tái)也宣布同步開(kāi)放接入,旨在為用戶和開(kāi)發(fā)者
    的頭像 發(fā)表于 11-08 11:03 ?873次閱讀

    如何評(píng)估AI大模型的效果

    評(píng)估AI大模型的效果是一個(gè)復(fù)雜且多維度的過(guò)程,涉及多個(gè)方面的考量。以下是一些關(guān)鍵的評(píng)估方法和步驟: 一、基準(zhǔn)測(cè)試(Benchmarking) 使用標(biāo)準(zhǔn)數(shù)據(jù)集和任務(wù)來(lái)評(píng)估模型的性能,如GLUE
    的頭像 發(fā)表于 10-23 15:21 ?3121次閱讀

    AI大模型在自然語(yǔ)言處理中的應(yīng)用

    AI大模型在自然語(yǔ)言處理(NLP)中的應(yīng)用廣泛且深入,其強(qiáng)大的語(yǔ)義理解和生成能力為NLP任務(wù)帶來(lái)了顯著的性能提升。以下是對(duì)AI大模型NLP
    的頭像 發(fā)表于 10-23 14:38 ?1549次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺(tái)上正式上線。該模型包括Meta首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMak
    的頭像 發(fā)表于 10-11 18:08 ?752次閱讀

    號(hào)稱全球最強(qiáng)開(kāi)源模型 ——Qwen2.5 系列震撼來(lái)襲!PerfXCloud同步上線,快來(lái)體驗(yàn)!

    。PerfXCloud(澎峰云)大模型開(kāi)發(fā)與服務(wù)平臺(tái)第一時(shí)間支持 Qwen2.5 72B 并在平臺(tái)完成上線,趕快來(lái)體驗(yàn)! Qwen2.5系列模型 更大的訓(xùn)練數(shù)據(jù)集: Qwen2.5語(yǔ)
    的頭像 發(fā)表于 09-25 16:52 ?1584次閱讀
    號(hào)稱全球最強(qiáng)開(kāi)源<b class='flag-5'>模型</b> ——Qwen2.5 系列震撼來(lái)襲!PerfXCloud同步<b class='flag-5'>上線</b>,快來(lái)體驗(yàn)!

    電商搜索革命:大模型如何重塑購(gòu)物體驗(yàn)?

    自我介紹:京東零售搜推算法部算法工程師,專注于大模型技術(shù)以及在 AI 助手搜推等領(lǐng)域的應(yīng)用探索和實(shí)踐。在 AI 助手,NLP 和搜索領(lǐng)域有十多年研發(fā)實(shí)踐經(jīng)驗(yàn),在 AI/NLP 領(lǐng)域申請(qǐng)超過(guò) 15
    的頭像 發(fā)表于 08-19 15:09 ?589次閱讀