一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用BERT模型進行抽取式摘要

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 作者:NLP工作站 ? 2022-03-12 16:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫?在前面

最近在梳理文本摘要相關(guān)內(nèi)容,翻到一篇19年關(guān)于基于BERT模型進行抽取式摘要的老文「BertSum」,在這里分享給大家。該論文一開始掛在arXiv時,為《Fine-tune BERT for Extractive Summarization》,主要介紹了如何使用BERT模型進行抽取式(Extractive)摘要。
paper:https://arxiv.org/pdf/1903.10318.pdf
github:https://github.com/nlpyang/BertSum

后面,又發(fā)表于EMNLP2019,為《Text Summarization with Pretrained Encoders》,增加了生成式(抽象式,Abstractive)摘要部分,并對第一版論文進行了部分內(nèi)容的補充與刪減。

paper:https://aclanthology.org/D19-1387.pdf
github:https://github.com/nlpyang/PreSumm

介紹

文本摘要任務(wù)主要分為抽象式摘要(abstractive summarization)和抽取式摘要(extractive summarization)。在抽象式摘要中,目標摘要所包含的詞或短語會不在原文中,通常需要進行文本重寫等操作進行生成;而抽取式摘要,就是通過復(fù)制和重組文檔中最重要的內(nèi)容(一般為句子)來形成摘要。那么如何獲取并選擇文檔中重要句子,就是抽取式摘要的關(guān)鍵。

傳統(tǒng)抽取式摘要方法包括Lead-3和TextRank,傳統(tǒng)深度學(xué)習(xí)方法一般采用LSTM或GRU模型進行重要句子的判斷與選擇,而本文采用預(yù)訓(xùn)練語言模型BERT進行抽取式摘要。

模型結(jié)構(gòu)BertSum模型

結(jié)構(gòu)如下圖所示

主要由句子編碼層和摘要判斷層組成,其中,「句子編碼層」通過BERT模型獲取文檔中每個句子的句向量編碼,「摘要判斷層」通過三種不同的結(jié)構(gòu)進行選擇判斷,為每個句子進行打分,最終選取最優(yōu)的top-n個句子作為文檔摘要。

句子編碼層

由于BERT模型MLM預(yù)訓(xùn)練機制,使得其輸出向量為每個token的向量;即使分隔符可以區(qū)分輸入的不同句子,但是僅有兩個標簽(句子A或句子B),與抽取式摘要需要分隔多個句子大不相同;因此對BERT模型的輸入進行了修改,如下:

將文檔中的每個句子前后均插入[CLS]和[SEP]標記,并將每個句子前的[CLS]標記進入模型后的輸出向量,作為該句子的句向量表征。例如:文檔為”我愛南京。我喜歡NLP。我學(xué)習(xí)摘要?!?,輸入序列為”[CLS]我愛南京。[SEP][CLS]我喜歡NLP。[SEP][CLS]我學(xué)習(xí)摘要。[SEP]“

采用Segment Embeddings區(qū)分文檔中的多個句子,將奇數(shù)句子和偶數(shù)句子的Segment Embeddings分別設(shè)置為和,例如:文檔為,那么Segment Embeddings為。

摘要判斷層

從句子編碼層獲取文檔中每個句子的句向量后,構(gòu)建了3種摘要判斷層,以通過獲取每個句子在文檔級特征下的重要性。對于每個句子,計算出最終的預(yù)測分數(shù),模型的損失是相對于金標簽的二元交叉熵。

Simple Classifier,僅在BERT輸出上添加一個線性全連接層,并使用一個sigmoid函數(shù)獲得預(yù)測分數(shù),如下:

Transformer,在BERT輸出后增加額外的Transformer層,進一步提取專注于摘要任務(wù)的文檔級特征,如下:

其中,為句子的句向量,,PosEmb函數(shù)為在句向量中增加位置信息函數(shù),MHAtt函數(shù)為多頭注意力函數(shù),為Transformer的層數(shù)。最后仍然接一個sigmoid函數(shù)的全連接層,

最終選擇為2。

LSTM,在BERT輸出增加額外的LSTM層,進一步提取專注于摘要任務(wù)的文檔級特征,如下:

其中,分別為遺忘門、輸入門和輸出門;分別為隱藏向量、記憶向量和輸出向量;分別為不同的layer normalization操作。最后仍然接一個sigmoid函數(shù)的全連接層,

實驗細節(jié)訓(xùn)練集構(gòu)建

由于目前文本摘要的數(shù)據(jù)大多為抽象式文本摘要數(shù)據(jù)集,不適合訓(xùn)練抽取摘要模型。論文利用貪心算法構(gòu)建每個文檔抽取式摘要對應(yīng)的句子集合,即通過算法貪婪地選擇能使ROUGE分數(shù)最大化的句子集合。將選中的句子集合中的句子的標簽設(shè)為1,其余的句子為0。

模型預(yù)測

在模型預(yù)測階段,將文檔按照句子進行切分,采用BertSum模型獲取每個句子的得分,然后根據(jù)分數(shù)從高到低對這些句子進行排序,并選擇前3個句子作為摘要。

在句子選擇階段,采用Trigram Blocking機制來減少摘要的冗余,即對應(yīng)當(dāng)前已組成摘要S和侯選句子c,如果S和c直接存在tri-gram相同片段,則跳過句子c,也就是句子c不會增加在已組成摘要S中。

數(shù)據(jù)超出BERT限制

BERT模型由于最大長度為512,而現(xiàn)實中文檔長度常常會超出。在《Text Summarization with Pretrained Encoders》文中提到,在BERT模型中添加更多的位置嵌入來克服這個限制,并且位置嵌入是隨機初始化的,并在訓(xùn)練時與其他參數(shù)同時進行微調(diào)。

實驗結(jié)果主要對比了LEAD、REFRESH、NEUSUM、PGN以及DCA方法,較當(dāng)時方法,該論文效果確實不錯,如下表所示,

在三種摘要判斷層中,Transformer的效果最優(yōu)。并且進行了進一步的消融實驗,發(fā)現(xiàn)采用不同的Segment Embeddings會給結(jié)果帶來一些提升,但是Trigram Blocking機制更為關(guān)鍵,具體如下表所示。

總結(jié)個人認為該論文是一篇較為經(jīng)典的BERT模型應(yīng)用論文,當(dāng)時2019年看的時候就進行了嘗試,并且也將其用到了一些項目中。

放假ing,但是也要學(xué)習(xí)。

原文標題:BertSum-基于BERT模型的抽取式文本摘要

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 結(jié)構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    119

    瀏覽量

    21971
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4379

    瀏覽量

    64736
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3516

    瀏覽量

    50343

原文標題:BertSum-基于BERT模型的抽取式文本摘要

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自動識別事件類別的中文事件抽取技術(shù)研究

    【作者】:許紅磊;陳錦秀;周昌樂;林如琦;楊肖方;【來源】:《心智與計算》2010年01期【摘要】:本文提出一種新的中文事件抽取中自動識別事件類別的模型,即:基于事件實例句子的分類模型
    發(fā)表于 04-24 09:55

    基于XML的WEB信息抽取模型設(shè)計

    對現(xiàn)有的信息抽取技術(shù)和XML 技術(shù)加以研究,在此基礎(chǔ)上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數(shù)據(jù)抽取出來整合到指定模式的XML 文檔中去,最大限度地實現(xiàn)
    發(fā)表于 12-22 13:56 ?17次下載

    Google最強模型BERT出爐

    在不少人看來,BERT 對自然語言處理的研究具有里程碑的意義。
    的頭像 發(fā)表于 10-27 10:37 ?5201次閱讀

    BERT模型的PyTorch實現(xiàn)

    BertModel是一個基本的BERT Transformer模型,包含一個summed token、位置和序列嵌入層,然后是一系列相同的self-attention blocks(BERT-base是12個blocks,
    的頭像 發(fā)表于 11-13 09:12 ?1.4w次閱讀

    簡述基于神經(jīng)網(wǎng)絡(luò)的抽取摘要方法

    將文本摘要建模為序列標注任務(wù)的關(guān)鍵在于獲得句子的表示,即將句子編碼為一個向量,根據(jù)該向量進行二分類任務(wù),例如 AAAI17 中,Nallapati 等人[10]的工作,使用雙向 GRU 分別建模詞語
    的頭像 發(fā)表于 04-01 10:23 ?8035次閱讀
    簡述基于神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>抽取</b><b class='flag-5'>式</b><b class='flag-5'>摘要</b>方法

    XLNet和Bert比,有什么不同?要進行改進嗎?

    本文首先講講我對XLNet和Bert比,有什么異同?有什么模型方面的改進?的理解
    的頭像 發(fā)表于 07-26 14:39 ?5390次閱讀
    XLNet和<b class='flag-5'>Bert</b>比,有什么不同?要<b class='flag-5'>進行</b>改進嗎?

    圖解BERT預(yù)訓(xùn)練模型

    BERT的發(fā)布是這個領(lǐng)域發(fā)展的最新的里程碑之一,這個事件標志著NLP 新時代的開始。BERT模型打破了基于語言處理的任務(wù)的幾個記錄。在 BERT 的論文發(fā)布后不久,這個團隊還公開了
    的頭像 發(fā)表于 11-24 10:08 ?4049次閱讀

    模型NLP事件抽取方法總結(jié)

    (Survey) 模型(Models) 數(shù)據(jù)集(Datasets) 挑戰(zhàn)與展望(Future Research Challenges) 事件抽取 2020 1、 Reading the Manual
    的頭像 發(fā)表于 12-31 10:19 ?1w次閱讀
    <b class='flag-5'>模型</b>NLP事件<b class='flag-5'>抽取</b>方法總結(jié)

    NLP:關(guān)系抽取到底在乎什么

    關(guān)系抽取到底在乎什么?這是來自EMNLP20上清華大學(xué)劉知遠團隊的“靈魂發(fā)問”~ 關(guān)系抽取是每一位NLPer都很熟知的任務(wù),特別是基于BERT的神經(jīng)關(guān)系抽取
    的頭像 發(fā)表于 01-07 14:46 ?5997次閱讀

    融合BERT詞向量與TextRank的關(guān)鍵詞抽取方法

    結(jié)合文檔本身的結(jié)構(gòu)信息與外部詞語的語義信息,提出一種融合BERT詞向量與 Textrank的關(guān)鍵詞抽取方法。在基于網(wǎng)絡(luò)圖的 Textrank方法基礎(chǔ)上,引入語義差異性并利用BERT詞向量加權(quán)方式優(yōu)化
    發(fā)表于 03-21 09:55 ?18次下載
    融合<b class='flag-5'>BERT</b>詞向量與TextRank的關(guān)鍵詞<b class='flag-5'>抽取</b>方法

    抽取摘要方法中如何合理設(shè)置抽取單元?

    的核心問題。抽取摘要則是文本摘要技術(shù)中效果穩(wěn)定,實現(xiàn)簡單的一類方法,本文結(jié)合COLING 2020中抽取
    的頭像 發(fā)表于 05-03 18:23 ?1879次閱讀
    <b class='flag-5'>抽取</b><b class='flag-5'>式</b><b class='flag-5'>摘要</b>方法中如何合理設(shè)置<b class='flag-5'>抽取</b>單元?

    基于BERT+Bo-LSTM+Attention的病歷短文分類模型

    中醫(yī)逐漸成為熱點,中醫(yī)病歷文本中包含著巨大而寶貴的醫(yī)療信息。而在中醫(yī)病歷文本挖掘和利用方面,一直面臨中醫(yī)病歷文本利用率低、抽取有效信息并對信息文本進行分類的難度大的問題。針對這一問題,研究一種對中醫(yī)
    發(fā)表于 04-26 14:30 ?13次下載
    基于<b class='flag-5'>BERT</b>+Bo-LSTM+Attention的病歷短文分類<b class='flag-5'>模型</b>

    基于BERT的中文科技NLP預(yù)訓(xùn)練模型

    深度學(xué)習(xí)模型應(yīng)用于自然語言處理任務(wù)時依賴大型、高質(zhì)量的人工標注數(shù)據(jù)集。為降低深度學(xué)習(xí)模型對大型數(shù)據(jù)集的依賴,提出一種基于BERT的中文科技自然語言處理預(yù)訓(xùn)練模型 ALICE。通過對遮罩
    發(fā)表于 05-07 10:08 ?14次下載

    基于Zero-Shot的多語言抽取文本摘要模型

    抽取文本摘要目前在英文上已經(jīng)取得了很好的性能,這主要得益于大規(guī)模預(yù)訓(xùn)練語言模型和豐富的標注語料。但是對于其他小語種語言,目前很難得到大規(guī)模的標注數(shù)據(jù)。
    的頭像 發(fā)表于 07-08 10:49 ?1857次閱讀

    Instruct-UIE:信息抽取統(tǒng)一大模型

    Instruct-UIE 統(tǒng)一了信息抽取任務(wù)訓(xùn)練方法,可以融合不同類型任務(wù)以及不同的標注規(guī)范,統(tǒng)一進行訓(xùn)練。針對新的任務(wù)需求,僅需要少量的數(shù)據(jù)進行增量學(xué)習(xí),即可完成
    的頭像 發(fā)表于 04-25 10:46 ?2182次閱讀
    Instruct-UIE:信息<b class='flag-5'>抽取</b>統(tǒng)一大<b class='flag-5'>模型</b>