一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

統(tǒng)一的文本到結(jié)構(gòu)生成框架——UIE

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:高能AI ? 作者:JayJay ? 2022-04-13 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言:信息抽取終于走到了這一步:邁入大一統(tǒng)時(shí)代!

今天為大家介紹一篇好基友 @陸博士 的ACL22論文《Unified Structure Generation for Universal Information Extraction》,這也是中科院和百度聯(lián)合發(fā)布的1篇信息抽取統(tǒng)一建模工作UIE。

UIE官方鏈接:https://universal-ie.github.io

本文的組織架構(gòu)為:

9a3521ca-ba87-11ec-aa7f-dac502259ad0.png

1.統(tǒng)一建模是IE發(fā)展的必然趨勢(shì)

眾所周知,信息抽?。↖E)是一個(gè)從文本到結(jié)構(gòu)的轉(zhuǎn)換過(guò)程。常見(jiàn)的實(shí)體、關(guān)系、事件分別采取Span、Triplet、Record形式的異構(gòu)結(jié)構(gòu)。

曾幾何時(shí),當(dāng)我們面對(duì)各種復(fù)雜多樣的IE任務(wù),我們總會(huì)造各式各樣IE模型的輪子,來(lái)滿足不同復(fù)雜任務(wù)的多變需求。

9a445d5c-ba87-11ec-aa7f-dac502259ad0.png

如上圖所示:由于多樣的抽取目標(biāo)、相異的復(fù)雜結(jié)構(gòu)、多變的領(lǐng)域需求時(shí),導(dǎo)致信息抽取模型一直難以實(shí)現(xiàn)統(tǒng)一建模,極大限制了IE系統(tǒng)高效架構(gòu)開(kāi)發(fā)、有效知識(shí)共享、快速跨域適配。

比如,一個(gè)真實(shí)的情況是:針對(duì)不同任務(wù)設(shè)定,需要針對(duì)特定領(lǐng)域schema建模,不同IE模型被單個(gè)訓(xùn)練、不共享,一個(gè)公司可能需要管理眾多IE模型。

9a5733a0-ba87-11ec-aa7f-dac502259ad0.png

當(dāng)我們每次造不同IE輪子的時(shí)候,都要喝下不同的肥宅快樂(lè)水,撩以解憂(這不是個(gè)玩笑)

不過(guò),在生成式統(tǒng)一建模各類NLP任務(wù)的今天,信息抽取統(tǒng)一建模也成為可能。

不久前,JayJay在《信息抽取的"第二范式"》一文中指出:生成式統(tǒng)一建模,或許是信息抽取領(lǐng)域正在發(fā)生的一場(chǎng)“深刻變革”。

因此:開(kāi)發(fā)通用的IE結(jié)構(gòu)是大有裨益的,可以統(tǒng)一建模不同的IE任務(wù),從各種資源中自適應(yīng)預(yù)測(cè)異構(gòu)結(jié)構(gòu)??傊航y(tǒng)一、通用的IE勢(shì)不可擋!

這篇ACL2022論文,@陸博士提出了一個(gè)面向信息抽取的統(tǒng)一文本到結(jié)構(gòu)生成框架UIE,它可以:

統(tǒng)一地建模不同的IE任務(wù);

自適應(yīng)地生成目標(biāo)結(jié)構(gòu);

從不同的知識(shí)來(lái)源統(tǒng)一學(xué)習(xí)通用的信息抽取能力。

9a734e1e-ba87-11ec-aa7f-dac502259ad0.png

具體來(lái)說(shuō),UIE:

通過(guò)結(jié)構(gòu)化抽取語(yǔ)言對(duì)不同的信息抽取目標(biāo)結(jié)構(gòu)進(jìn)行統(tǒng)一編碼;

通過(guò)結(jié)構(gòu)化模式提示器自適應(yīng)生成目標(biāo)結(jié)構(gòu);

通過(guò)大規(guī)模結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練捕獲常見(jiàn)的IE能力;

實(shí)驗(yàn)結(jié)果表明,本文提出的統(tǒng)一生成框架,基于T5模型進(jìn)行了IE預(yù)訓(xùn)練,在實(shí)體、關(guān)系、事件和情感等4個(gè)信息抽取任務(wù)、13個(gè)數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下均取得了SOTA性能。

接下來(lái),我們將具體介紹UIE是如何統(tǒng)一建模的,以及具體是如何預(yù)訓(xùn)練的?

2. UIE統(tǒng)一建模方式:文本到結(jié)構(gòu)生成

信息抽取任務(wù)可以表述為“文本到結(jié)構(gòu)”的問(wèn)題,不同的IE任務(wù)對(duì)應(yīng)不同的結(jié)構(gòu)。

UIE旨在通過(guò)單一框架統(tǒng)一建模不同IE任務(wù)的文本到結(jié)構(gòu)的轉(zhuǎn)換,也就是:不同的結(jié)構(gòu)轉(zhuǎn)換共享模型中相同的底層操作和不同的轉(zhuǎn)換能力。

這里主要有兩個(gè)挑戰(zhàn):

IE任務(wù)的多樣性,需要提取許多不同的目標(biāo)結(jié)構(gòu),如實(shí)體、關(guān)系、事件等;

IE任務(wù)是通常是使用不同模式定義的特定需求(不同schema),需要自適應(yīng)地控制提取過(guò)程;

因此,針對(duì)上述挑戰(zhàn),需要:

設(shè)計(jì)結(jié)構(gòu)化抽取語(yǔ)言(SEL,Structured Extraction Language)來(lái)統(tǒng)一編碼異構(gòu)提取結(jié)構(gòu),即編碼實(shí)體、關(guān)系、事件統(tǒng)一表示。

構(gòu)建結(jié)構(gòu)化模式提示器(SSI,Structural Schema Instructor),一個(gè)基于schema的prompt機(jī)制,用于控制不同的生成需求。

9a824c7a-ba87-11ec-aa7f-dac502259ad0.png

上圖展示了UIE的整體框架,整體架構(gòu)就是:SSI + Text -> SEL

一句話簡(jiǎn)單概括就是:SSI就是輸入特定抽取任務(wù)的schema,SEL就是把不同任務(wù)的抽取結(jié)果統(tǒng)一用1種語(yǔ)言表示。

1)SEL:結(jié)構(gòu)化抽取語(yǔ)言

不同的IE任務(wù)可以分解為2個(gè)原子操作:

Spotting:找出Spot Name對(duì)應(yīng)的Info Span,如某個(gè)實(shí)體或Trigger觸發(fā)詞;

Associating:找出Asso Name對(duì)應(yīng)的Info Span,鏈接Info Span片段間的關(guān)系:如兩個(gè)實(shí)體pair的關(guān)系、論元和觸發(fā)詞間的關(guān)系;

9a92ccb2-ba87-11ec-aa7f-dac502259ad0.png

如上圖(a)所示:SEL語(yǔ)言可以統(tǒng)一用(Spot Name:Info Span(Asso Name:Info Span)(Asso Name:Info Span)...)形式表示,具體地:

Spot Name:Spotting操作的Info Span的類別信息,如實(shí)體類型;

Asso Name: Associating操作的Info Span的類別信息,如關(guān)系類型、關(guān)系類型;

Info Span:Spotting或Associating操作相關(guān)的文本Span;

如上圖(b)所示:

藍(lán)色部分代表關(guān)系任務(wù):person為實(shí)體類型Spot Name,work for為關(guān)系類型Asso Name;

紅色部分代表事件任務(wù):start-position為事件類型Spot Name,employee為論元類型Asso Name;

黑色部分代表實(shí)體任務(wù):organization和time為實(shí)體類型Spot Name;

9aa69562-ba87-11ec-aa7f-dac502259ad0.png

上圖給出一個(gè)中文case:考察事件 為事件類型Spot Name,主角/時(shí)間/地點(diǎn) 為論元類型Asso Name。

2)SSI:結(jié)構(gòu)化模式提示器

SSI的本質(zhì)一個(gè)基于schema的prompt機(jī)制,用于控制不同的生成需求:在Text前拼接上相應(yīng)的Schema Prompt,輸出相應(yīng)的SEL結(jié)構(gòu)語(yǔ)言。

不同任務(wù)的的形式是:

實(shí)體抽?。篬spot] 實(shí)體類別 [text]

關(guān)系抽?。篬spot] 實(shí)體類別 [asso] 關(guān)系類別 [text]

事件抽?。篬spot] 事件類別 [asso] 論元類別 [text]

觀點(diǎn)抽?。篬spot] 評(píng)價(jià)維度 [asso] 觀點(diǎn)類別 [text]

下圖給出了不同任務(wù)數(shù)據(jù)集的SSI形式:

9ab8c76e-ba87-11ec-aa7f-dac502259ad0.png

3. UIE預(yù)訓(xùn)練和微調(diào)方式

本小節(jié),我們將介紹:

1)Pre-train:如何預(yù)訓(xùn)練一個(gè)大規(guī)模的UIE模型,來(lái)捕獲不同IE任務(wù)間的通用IE能力?

2)Finetune:如何通過(guò)快速的Finetune使UIE適應(yīng)不同設(shè)置下的不同 IE 任務(wù)。

1)Pre-train:大規(guī)模異構(gòu)監(jiān)督預(yù)訓(xùn)練

UIE預(yù)訓(xùn)練語(yǔ)料主要來(lái)自Wikipedia、Wikidata和ConceptNet,構(gòu)建了3種預(yù)訓(xùn)練數(shù)據(jù):

D_pair: 通過(guò)Wikipedia對(duì)齊Wikidata,構(gòu)建text-to-struct的平行語(yǔ)料:(SSI,Text,SEL)

D_record: 構(gòu)造只包含SEL語(yǔ)法結(jié)構(gòu)化record數(shù)據(jù):(None,None,SEL)

D_text: 構(gòu)造無(wú)結(jié)構(gòu)的原始文本數(shù)據(jù):(None,Text',Text'')

針對(duì)上述數(shù)據(jù),分別構(gòu)造3種預(yù)訓(xùn)練任務(wù),將大規(guī)模異構(gòu)數(shù)據(jù)整合到一起進(jìn)行預(yù)訓(xùn)練:

Text-to-Structure Pre-training:為了構(gòu)建基礎(chǔ)的文本到結(jié)構(gòu)的映射能力,對(duì)平行語(yǔ)料D_pair訓(xùn)練,同時(shí)構(gòu)建負(fù)樣本作為噪聲訓(xùn)練(引入negative schema)。

Structure Generation Pre-training:為了具備SEL語(yǔ)言的結(jié)構(gòu)化能力,對(duì)D_pair數(shù)據(jù)只訓(xùn)練 UIE 的 decoder 部分。

Retrofitting Semantic Representation:為了具備基礎(chǔ)的語(yǔ)義編碼能力,對(duì)D_text數(shù)據(jù)進(jìn)行 span corruption訓(xùn)練。

最終的預(yù)訓(xùn)練目標(biāo),包含以上3部分;

9ad236e0-ba87-11ec-aa7f-dac502259ad0.png

2)Finetune:拒識(shí)噪聲注入的模型微調(diào)機(jī)制

為了解決自回歸Teacher-forcing的暴露偏差,構(gòu)建了拒識(shí)噪聲注入的模型微調(diào)機(jī)制:隨機(jī)采樣SEL中不存在的SpotName類別和AssoName類別,即:(SPOTNAME, [NULL]) 和 (ASSONAME, [NULL]),學(xué)會(huì)拒絕生成錯(cuò)誤結(jié)果的能力,如下圖所示:

9ae1a72e-ba87-11ec-aa7f-dac502259ad0.png

4. UIE主要實(shí)驗(yàn)結(jié)論

1)全監(jiān)督實(shí)驗(yàn)

9af08410-ba87-11ec-aa7f-dac502259ad0.png

如上圖所示,SEL代表未經(jīng)預(yù)訓(xùn)練的UIE模型??梢钥闯觯?/p>

1、在4類信息抽取任務(wù)、13個(gè)數(shù)據(jù)集、7大領(lǐng)域的IE任務(wù)上,UIE達(dá)到了SOTA性能;

2、對(duì)比SEL和UIE結(jié)果:異構(gòu)監(jiān)督預(yù)訓(xùn)練顯著地提升了 UIE 的通用信息抽取能力,具有更好的跨任務(wù)遷移能力;

2)少樣本實(shí)驗(yàn)

9b07210c-ba87-11ec-aa7f-dac502259ad0.png

少樣本實(shí)驗(yàn)可以發(fā)現(xiàn):

1、大規(guī)模異構(gòu)監(jiān)督預(yù)訓(xùn)練可以學(xué)習(xí)通用的信息抽取能力,使模型具有更好小樣本學(xué)習(xí)能力。

2、當(dāng)去掉SSI結(jié)構(gòu)化模式提示器后,發(fā)現(xiàn)指標(biāo)下降,因此:結(jié)構(gòu)化抽取指令具有更好的定向遷移的能力。

3)消融實(shí)驗(yàn)

9b262d9a-ba87-11ec-aa7f-dac502259ad0.png

上述消融實(shí)驗(yàn)表明:基于拒識(shí)噪聲注入的模型微調(diào)機(jī)制可以有效緩解自回歸生成過(guò)程中的暴露偏差問(wèn)題。

總結(jié)與展望

本文介紹了一個(gè)統(tǒng)一的文本到結(jié)構(gòu)生成框架——UIE,可以通用建模不同的IE任務(wù),自適應(yīng)生成有針對(duì)性的結(jié)構(gòu),從不同的知識(shí)來(lái)源統(tǒng)一學(xué)習(xí)通用的信息抽取能力。

實(shí)驗(yàn)結(jié)果表明UIE實(shí)現(xiàn)了在監(jiān)督和低資源下的SOTA性能,同時(shí)驗(yàn)證了其普遍性、有效性和可轉(zhuǎn)移性。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    317

    瀏覽量

    61596
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    119

    瀏覽量

    17454

原文標(biāo)題:信息抽取大一統(tǒng):百度中科院發(fā)布通用抽取模型UIE,刷新13個(gè)IE數(shù)據(jù)集SOTA!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    種基于擴(kuò)散模型的視頻生成框架RoboTransfer

    在機(jī)器人操作領(lǐng)域,模仿學(xué)習(xí)是推動(dòng)具身智能發(fā)展的關(guān)鍵路徑,但高度依賴大規(guī)模、高質(zhì)量的真實(shí)演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬現(xiàn)實(shí)”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。
    的頭像 發(fā)表于 07-09 14:02 ?204次閱讀
    <b class='flag-5'>一</b>種基于擴(kuò)散模型的視頻<b class='flag-5'>生成</b><b class='flag-5'>框架</b>RoboTransfer

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說(shuō)明

    檢查結(jié)果為“通過(guò)”或?qū)徍藸顟B(tài)為“審核通過(guò)”。 那么對(duì)于這個(gè)問(wèn)題,我也是嘗試去解決……這里分享下我了解的情況和方法 首先,這個(gè)政策雖然說(shuō)是針對(duì)AI文本生成模塊,但實(shí)際上,針對(duì)的是所有調(diào)用了AI大模型
    發(fā)表于 06-30 18:37

    種多模態(tài)駕駛場(chǎng)景生成框架UMGen介紹

    端自動(dòng)駕駛技術(shù)的快速發(fā)展對(duì)閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場(chǎng)景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、
    的頭像 發(fā)表于 03-24 15:57 ?896次閱讀
    <b class='flag-5'>一</b>種多模態(tài)駕駛場(chǎng)景<b class='flag-5'>生成</b><b class='flag-5'>框架</b>UMGen介紹

    基于事件相機(jī)的統(tǒng)一幀插值與自適應(yīng)去模糊框架(REFID)

    )的解決方案。團(tuán)隊(duì)提出了種基于事件相機(jī)的統(tǒng)一幀插值與自適應(yīng)去模糊框架(REFID)。該框架基于雙向遞歸網(wǎng)絡(luò),結(jié)合事件流和圖像信息,自適應(yīng)地融合來(lái)自不同時(shí)間點(diǎn)的信息,從而能夠在模糊的輸
    的頭像 發(fā)表于 03-14 11:48 ?839次閱讀
    基于事件相機(jī)的<b class='flag-5'>統(tǒng)一</b>幀插值與自適應(yīng)去模糊<b class='flag-5'>框架</b>(REFID)

    汽車框架結(jié)構(gòu)焊接技術(shù)探析

    日益增長(zhǎng),傳統(tǒng)的焊接技術(shù)面臨著新的挑戰(zhàn)與機(jī)遇。本文將探討當(dāng)前汽車框架結(jié)構(gòu)焊接技術(shù)的發(fā)展現(xiàn)狀、面臨的挑戰(zhàn)以及未來(lái)趨勢(shì)。 首先,讓我們回顧下汽車框架結(jié)構(gòu)焊接技術(shù)的基本類
    的頭像 發(fā)表于 02-27 09:42 ?348次閱讀

    《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得2——客服機(jī)器人、AutoGen框架 、生成式代理

    更精準(zhǔn)地路由用戶請(qǐng)求相應(yīng)的處理模塊。在后端功能設(shè)計(jì)上,采用了模塊化的響應(yīng)生成機(jī)制,包括知識(shí)檢索引擎、對(duì)話狀態(tài)管理器和響應(yīng)生成器三個(gè)核心組件。知識(shí)檢索引擎使用向量相似度匹配算法,不僅支持精確匹配,還能
    發(fā)表于 02-25 21:59

    Quantinuum發(fā)布開(kāi)創(chuàng)性生成式量子人工智能框架

    科羅拉多州布魯姆菲爾德與倫敦,2025年2月5日——Quantinuum今日宣布了項(xiàng)重大突破,推出了開(kāi)創(chuàng)性的生成式量子人工智能框架(Gen QAI)。這
    的頭像 發(fā)表于 02-10 11:34 ?519次閱讀

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 開(kāi)發(fā)了個(gè)全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂(lè)、人聲和聲音組合的作品。
    的頭像 發(fā)表于 11-27 11:29 ?821次閱讀

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 AIGC的優(yōu)勢(shì)和挑戰(zhàn)

    、AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 數(shù)據(jù)類型與處理 : AIGC主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成,如自然語(yǔ)言文本、圖像、音頻、視頻等。這類數(shù)據(jù)規(guī)模更大,內(nèi)在結(jié)
    的頭像 發(fā)表于 11-22 16:04 ?1432次閱讀

    ov華米聯(lián)手打造OneLink統(tǒng)一鏈接平臺(tái)

    。 OneLink平臺(tái)通過(guò)統(tǒng)一的URL封裝能力,使得開(kāi)發(fā)者能夠輕松創(chuàng)建適用于多種平臺(tái)的應(yīng)用分發(fā)和下載鏈接。這功能不僅簡(jiǎn)化了應(yīng)用推廣的步驟,還提高了跨平臺(tái)推廣的效率。開(kāi)發(fā)者只需在OneLink官網(wǎng)或各合作廠商的開(kāi)放平臺(tái)上生成
    的頭像 發(fā)表于 11-18 15:01 ?1193次閱讀

    RNN在圖片描述生成中的應(yīng)用

    隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,圖像描述生成(Image Captioning)作為計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的交叉領(lǐng)域,受到了越來(lái)越多的關(guān)注。圖像描述生成任務(wù)旨在自動(dòng)生成準(zhǔn)確、自然和詳細(xì)的文本
    的頭像 發(fā)表于 11-15 09:58 ?955次閱讀

    生成式AI工具作用

    生成式AI工具是指那些能夠自動(dòng)生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此,petacloud.ai小編為您整理生成式AI工具作用。
    的頭像 發(fā)表于 10-28 11:19 ?753次閱讀

    如何使用 Llama 3 進(jìn)行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進(jìn)行文本生成,可以通過(guò)以下幾種方式實(shí)現(xiàn),取決于你是否愿意在本地運(yùn)行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?1088次閱讀

    AIGC生成內(nèi)容的優(yōu)勢(shì)與挑戰(zhàn)

    人工智能生成內(nèi)容(AIGC,Artificial Intelligence Generated Content)是指利用人工智能技術(shù)自動(dòng)生成文本、圖像、音頻和視頻等內(nèi)容的過(guò)程。隨著深度學(xué)習(xí)、自然語(yǔ)言
    的頭像 發(fā)表于 10-25 15:36 ?1794次閱讀

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別

    AIGC : 主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成,如自然語(yǔ)言文本、圖像、音頻、視頻等。 這類數(shù)據(jù)規(guī)模更大,內(nèi)在結(jié)構(gòu)更復(fù)雜,對(duì)處理技術(shù)提出了更高要求。 傳統(tǒng)內(nèi)容
    的頭像 發(fā)表于 10-25 15:13 ?1261次閱讀