一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀NLPCC最佳學(xué)生論文:數(shù)據(jù)和預(yù)訓(xùn)練模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:王義達(dá) ? 2020-11-03 17:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在2020年初開始的新冠病毒蔓延影響下,NLPCC 2020采取線上+線下的會(huì)議方式,線上線下共繳費(fèi)注冊(cè)496人,其中現(xiàn)場(chǎng)參會(huì)總?cè)藬?shù)達(dá)372人,線上參會(huì)人數(shù)124人,另有15個(gè)贊助單位參展。匯聚了眾多國(guó)內(nèi)外NLP領(lǐng)域的知名學(xué)者。 本次會(huì)議總投稿數(shù)是445篇,會(huì)議有效投稿404篇。其中,主會(huì)有效總投稿377篇,Workshop有效投稿27篇。 在主會(huì)377篇有效投稿中,英文論文315篇,中文論文62篇;接收Oral論文83篇,其中英文論文70篇,中文論文13篇,錄用率為22%;接收Poster 論文30篇。Workshop共計(jì)錄取14篇論文。 在本次會(huì)議上評(píng)選出最佳論文、最佳學(xué)生論文各1篇,并進(jìn)行了頒獎(jiǎng)儀式。 來自清華大學(xué)朱小燕、黃民烈團(tuán)隊(duì)的王義達(dá)作為一作發(fā)表的《A Large-Scale Chinese Short-Text Conversation Dataset》獲得了最佳學(xué)生論文,以下是王義達(dá)本人對(duì)獲獎(jiǎng)?wù)撐牡挠H自解讀。

基于Transformer的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型極大地促進(jìn)了開放領(lǐng)域?qū)υ挼难芯窟M(jìn)展。然而目前這一技術(shù)在中文對(duì)話領(lǐng)域并未被廣泛應(yīng)用,主要原因在于目前缺乏大規(guī)模高質(zhì)量的中文對(duì)話開源數(shù)據(jù)。 為了推動(dòng)中文對(duì)話領(lǐng)域的研究,彌補(bǔ)中文對(duì)話語(yǔ)料不足這一問題,我們發(fā)布了一個(gè)包含1200萬對(duì)話的大規(guī)模中文對(duì)話數(shù)據(jù)集LCCC,并開源了在LCCC上預(yù)訓(xùn)練的大規(guī)模中文對(duì)話生成模型CDial-GPT。 開源地址:https://github.com/thu-coai/CDial-GPT 1

LCCC數(shù)據(jù)集的構(gòu)建

LCCC(Large-scale Cleaned Chinese Conversation)數(shù)據(jù)集有LCCC-base與LCCC-large兩個(gè)版本,其中LCCC-base和LCCC-large中各包含6.8M和12M對(duì)話。這些數(shù)據(jù)是從79M原始對(duì)話數(shù)據(jù)中經(jīng)過嚴(yán)格清洗得到的,也是目前所開源的規(guī)模最大、清洗最嚴(yán)格的中文對(duì)話數(shù)據(jù)集。

表1. 被過濾掉的噪音數(shù)據(jù) 開放領(lǐng)域?qū)υ挃?shù)據(jù)的構(gòu)建通常有三種方式:1、抽取劇本對(duì)話;2、人工眾包構(gòu)建對(duì)話;3、爬取社交媒體上用戶的交流記錄。 使用第一種方式構(gòu)建的對(duì)話在內(nèi)容上依賴于特定劇情和場(chǎng)景,與日常對(duì)話有較大差異。使用第二種方式構(gòu)建的對(duì)話質(zhì)量最高,但是由于人力成本過高,無法使用這一方式構(gòu)建大規(guī)模數(shù)據(jù)集。使用第三種方式可以較為廉價(jià)地獲取大規(guī)模對(duì)話數(shù)據(jù),因此LCCC數(shù)據(jù)集中的原始數(shù)據(jù)主要使用第三種方式收集。 我們同時(shí)注意到,來自社交媒體的對(duì)話數(shù)據(jù)中存在各種各樣的噪音(表1),為了保證LCCC中對(duì)話數(shù)據(jù)的質(zhì)量,我們?cè)O(shè)計(jì)了如下數(shù)據(jù)獲取和清洗策略:

1. 數(shù)據(jù)獲取我們的數(shù)據(jù)獲取流程分為兩個(gè)階段。在第一個(gè)階段,我們挑選了微博上由專業(yè)媒體團(tuán)隊(duì)運(yùn)營(yíng)的新聞媒體賬號(hào),然后收集了一批在這些新聞媒體下留言互動(dòng)的活躍用戶。在第二個(gè)階段中,我們收集了這些活躍用戶微博下的留言互動(dòng),并將其作為我們的原始數(shù)據(jù)。微博下的留言回復(fù)一般以一個(gè)樹形結(jié)構(gòu)展開,我們將這一樹形回復(fù)結(jié)構(gòu)中每一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑作為一個(gè)完整對(duì)話,最終共收集到了79M對(duì)話數(shù)據(jù)。

2. 數(shù)據(jù)清洗為了保證數(shù)據(jù)質(zhì)量,我們對(duì)收集到的原始對(duì)話數(shù)據(jù)進(jìn)行了兩個(gè)階段的清洗。 第一階段的清洗主要基于手工規(guī)則。這一階段的主要目的是為了過濾掉對(duì)話數(shù)據(jù)中的明顯噪聲,如臟話、特殊符號(hào)、病句、復(fù)讀機(jī)句式、廣告、違法暴力信息等。在這一階段中,我們花費(fèi)了數(shù)周時(shí)間使用人工排查的方式優(yōu)化規(guī)則。

第二階段的清洗主要基于分類器過濾。在這一階段中,我們基于BERT訓(xùn)練了兩個(gè)文本分類器,第一個(gè)分類器主要用于甄別那些無法通過規(guī)則檢測(cè)的噪音,如:1、語(yǔ)義模糊、語(yǔ)法錯(cuò)亂或有嚴(yán)重拼寫錯(cuò)誤的語(yǔ)句;2、時(shí)效性太強(qiáng)的對(duì)話;3、與上下文語(yǔ)義不相關(guān)的回復(fù)。 第二個(gè)分類器主要用于甄別那些需要依賴額外上下文信息,如圖片或視頻等,才能理解的對(duì)話。這兩個(gè)分類器均使用人工標(biāo)注數(shù)據(jù)訓(xùn)練,我們?yōu)槠錁?biāo)注了共計(jì)11萬對(duì)話數(shù)據(jù),最終的分類器在人工標(biāo)注的測(cè)試集上分別達(dá)到了73.76%和77.60%的準(zhǔn)確率。我們通過F1-score選擇閾值來過濾得到高質(zhì)量的對(duì)話數(shù)據(jù)。

表2. 數(shù)據(jù)統(tǒng)計(jì)信息,左側(cè)為L(zhǎng)CCC-base,右側(cè)為L(zhǎng)CCC-large 最終我們基于上述原始對(duì)話數(shù)據(jù)過濾得到了6.8M高質(zhì)量的對(duì)話數(shù)據(jù)LCCC-base。此外,我們還收集了目前已公開的其他對(duì)話數(shù)據(jù),并使用同樣的清洗流程,結(jié)合LCCC-base構(gòu)造了包含12M對(duì)話的數(shù)據(jù)集LCCC-large。表2展示了這兩個(gè)數(shù)據(jù)集中單輪對(duì)話和多輪對(duì)話的詳細(xì)統(tǒng)計(jì)信息。 2

中文對(duì)話預(yù)訓(xùn)練模型CDial-GPT

為促進(jìn)中文對(duì)話預(yù)訓(xùn)練模型的發(fā)展,我們基于LCCC數(shù)據(jù)集預(yù)訓(xùn)練了大規(guī)模中文對(duì)話生成模型CDial-GPT。該模型的訓(xùn)練過程包含兩個(gè)階段,首先,我們?cè)诳傆?jì)5億字符、包含各類題材的小說數(shù)據(jù)上訓(xùn)練得到了一個(gè)中文小說GPT預(yù)訓(xùn)練模型,然后在該模型的基礎(chǔ)上,我們使用LCCC中的對(duì)話數(shù)據(jù)繼續(xù)對(duì)模型進(jìn)行訓(xùn)練,最終得到了中文對(duì)話預(yù)訓(xùn)練模型CDial-GPT。

圖1. 輸入編碼示例 該模型擁有12層Transformer結(jié)構(gòu),我們按字分詞,字典大小13088,字向量維度768,最長(zhǎng)上下文長(zhǎng)度為513。我們沿用TransferTransfo的方式對(duì)對(duì)話進(jìn)行建模,即把對(duì)話歷史拼接為長(zhǎng)文本,并使用段分割向量加以區(qū)分。具體來說:我們使用[CLS]字符標(biāo)志文本起始,在段落后使用[SEP]字符表示段落結(jié)束,在段落中對(duì)相鄰輪次對(duì)話使用[speaker1]、[speaker2]交替分割,并在segment embedding中使用[speaker1]、[speaker2]進(jìn)行編碼。圖1為輸入數(shù)據(jù)示例。 3

模型效果評(píng)測(cè)

為了評(píng)估對(duì)話預(yù)訓(xùn)練模型的質(zhì)量,我們?cè)?40萬規(guī)模的中文對(duì)話數(shù)據(jù)集STC上對(duì)其進(jìn)行了評(píng)測(cè)實(shí)驗(yàn),并對(duì)比了現(xiàn)有的中文對(duì)話預(yù)訓(xùn)練模型和一些經(jīng)典的非預(yù)訓(xùn)練對(duì)話模型。我們主要通過PPL這一指標(biāo)來反映模型的擬合能力,PPL越低表示模型的擬合能力越強(qiáng)。我們通過基于n-gram重合度的指標(biāo)BLEU和基于Embedding相似度的指標(biāo)Greedy Matching 和Embedding Average來衡量對(duì)話回復(fù)與真實(shí)回復(fù)的相關(guān)性,并通過Dist-n指標(biāo)來衡量生成回復(fù)的多樣性。實(shí)驗(yàn)結(jié)果展示在表3中??梢钥吹轿覀兊哪P驮诮^大多數(shù)指標(biāo)上達(dá)到了最好的效果。由于自動(dòng)指標(biāo)無法完全反映生成對(duì)話的質(zhì)量,于是我們對(duì)各模型生成的對(duì)話進(jìn)行了人工評(píng)測(cè)。

表3. 自動(dòng)指標(biāo)評(píng)估

表4. 人工評(píng)價(jià) 在人工評(píng)測(cè)中我們主要考慮3個(gè)方面:1、語(yǔ)法性,也就是生成語(yǔ)句的流暢性;2、相關(guān)性,即生成語(yǔ)句與對(duì)話上文的相關(guān)性;3、信息量,即生成結(jié)果自身含有的信息量。具體來說,不符合語(yǔ)法性或與對(duì)話上文不相關(guān)的生成結(jié)果我們給予0分;語(yǔ)句流暢、和對(duì)話上文相關(guān)但信息量不足的生成結(jié)果給予1分;語(yǔ)句流暢、和對(duì)話上文相關(guān)并且信息量充足的生成結(jié)果給予2分,我們將人工評(píng)測(cè)結(jié)果展示在表4中。實(shí)驗(yàn)結(jié)果顯示,我們的預(yù)訓(xùn)練模型擁有出色的生成質(zhì)量,可以在生成信息量充足的回復(fù)的同時(shí),保持較高的流暢性與相關(guān)性,優(yōu)于其他基線模型,一些生成例子展示在表5,6中。

表5. 人機(jī)交互示例 (左)和 模型互相交互示例(右)

表6.在STC微調(diào)的生成結(jié)果示例 目前CDial-GPT模型以及LCCC數(shù)據(jù)集都已公開,我們提供了訓(xùn)練以及微調(diào)代碼,可以方便地應(yīng)用于各種數(shù)據(jù)和下游任務(wù)上。

責(zé)任編輯:xj

原文標(biāo)題:一作解讀NLPCC最佳學(xué)生論文:1200萬中文對(duì)話數(shù)據(jù)和預(yù)訓(xùn)練模型CDial-GPT

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7254

    瀏覽量

    91788
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22605
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    37

    瀏覽量

    3961

原文標(biāo)題:一作解讀NLPCC最佳學(xué)生論文:1200萬中文對(duì)話數(shù)據(jù)和預(yù)訓(xùn)練模型CDial-GPT

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉(zhuǎn)換為大語(yǔ)言模型能直接使用的二進(jìn)制數(shù)據(jù),以便提升訓(xùn)練
    的頭像 發(fā)表于 03-21 18:24 ?1610次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>數(shù)據(jù)</b>集

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,
    的頭像 發(fā)表于 03-21 10:30 ?705次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,
    的頭像 發(fā)表于 03-21 10:27 ?559次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b>標(biāo)注服務(wù):奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>的<b class='flag-5'>數(shù)據(jù)</b>基石

    是否可以輸入隨機(jī)數(shù)據(jù)集來生成INT8訓(xùn)練后量化模型?

    無法確定是否可以輸入隨機(jī)數(shù)據(jù)集來生成 INT8 訓(xùn)練后量化模型
    發(fā)表于 03-06 06:45

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對(duì)大模型
    的頭像 發(fā)表于 02-19 16:10 ?982次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型
    發(fā)表于 01-14 16:51

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這一動(dòng)向的前沿。Keras 擁有專用的內(nèi)容庫(kù),如用
    的頭像 發(fā)表于 12-20 10:32 ?492次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

    FP8數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用

    本文主要介紹了 FP8 數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用、挑戰(zhàn)及最佳實(shí)踐,展示了 FP8 在提升訓(xùn)練速度和效率方面的潛力和實(shí)際效果。
    的頭像 發(fā)表于 11-19 14:54 ?1654次閱讀
    FP8<b class='flag-5'>數(shù)據(jù)</b>格式在大型<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>中的應(yīng)用

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語(yǔ)言模型(LLM)是一個(gè)復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)
    的頭像 發(fā)表于 11-08 09:30 ?1483次閱讀

    AI大模型訓(xùn)練數(shù)據(jù)來源分析

    AI大模型訓(xùn)練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對(duì)于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對(duì)AI大模型
    的頭像 發(fā)表于 10-23 15:32 ?3608次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練AI大模型之前,需要明確自己的具體需求,比如是進(jìn)行自然語(yǔ)言處理、圖像識(shí)別、推薦系統(tǒng)還是其他任務(wù)。 二、數(shù)據(jù)收集與預(yù)處理 數(shù)據(jù)收集 根據(jù)任務(wù)需求,收集并準(zhǔn)備好足夠的
    的頭像 發(fā)表于 10-23 15:07 ?4931次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目
    的頭像 發(fā)表于 10-18 08:09 ?587次閱讀
    直播預(yù)約 |<b class='flag-5'>數(shù)據(jù)</b>智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    蘋果揭示AI新動(dòng)向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓(xùn)練

    蘋果公司在最新的技術(shù)論文中披露了一項(xiàng)重要信息,其全新的人工智能系統(tǒng)Apple Intelligence所依賴的模型并非傳統(tǒng)上大型科技公司首選的NVIDIA GPU,而是選擇了在谷歌設(shè)計(jì)的云端芯片上進(jìn)行預(yù)
    的頭像 發(fā)表于 07-30 15:00 ?831次閱讀