日韩HD在线观看,一区二区在线播放中文,在线中文字日产幕

寫在前面

在一文詳解生成式文本摘要經(jīng)典論文Pointer-Generator中我們介紹了生成式摘要的經(jīng)典模型，今天我們來分享一篇帶風格的標題生成的經(jīng)典工作。

以往的標題模型產(chǎn)生的都是平實性標題，即簡單語言描述的事實性標題。但是，實際上我們可能更需要有記憶點的爆款標題來增加點擊量/曝光率。因此，衍生出了一個新任務(wù)——帶有風格的標題生成，即Stylistic Headline Generation，簡稱SHG。

本篇文章將介紹TitleStylist模型，該模型是針對SHG任務(wù)提出的，它可以生成相關(guān)、通順且具有風格的標題，其中風格主要包括三種：幽默、浪漫、標題黨。

論文名稱：《Hooks in the Headline: Learning to Generate Headlines with Controlled Styles》

論文鏈接：https://arxiv.org/abs/2004.01980v1

代碼地址：https://github.com/jind11/TitleStylist

1. 問題定義

首先假設(shè)我們有兩類數(shù)據(jù)和：是由文章-標題對組成的數(shù)據(jù)；是由具有某種特定風格的句子組成的數(shù)據(jù)。

我們用來表示數(shù)據(jù)，其中表示文章，表示標題。此外，我們用來表示數(shù)據(jù)。需要注意的是，中的句子可以是書本中的句子，不一定是標題。

假設(shè)我們有、、。那么，SHG任務(wù)目的是從中學習，也就是從分布、中學習出條件分布。

2. 核心思想

TitleStylist模型整體上是一個Transformer結(jié)構(gòu)，分為Encoder（編碼器）和Decoder（解碼器）。TitleStylist利用多任務(wù)學習，同時進行兩個任務(wù)：

標題生成：有監(jiān)督任務(wù)；在數(shù)據(jù)S上，根據(jù)文章原文生成相應(yīng)標題。

帶有風格的文本重構(gòu)：無監(jiān)督或自監(jiān)督；在數(shù)據(jù)上，輸入為擾亂后的句子，生成原句。

標題生成與帶有風格的文本重構(gòu)兩個任務(wù)的數(shù)據(jù)集和模型都是獨立的。為了生成帶有風格的標題，TitleStylist通過參數(shù)共享將二者融合。

3. 模型細節(jié)

3.1 序列到序列模型架構(gòu)(Seq2Seq Model Architecture)

如上圖，TitleStylist采用了Transformer架構(gòu)的seq2seq模型，它包含編碼器和解碼器。為了提高生成的標題的質(zhì)量，TitleStylist使用MASS模型來初始化模型參數(shù)。

3.2 多任務(wù)學習

為了分離文本的風格和內(nèi)容，模型引入多任務(wù)學習框架。在這里主要包含兩個任務(wù)：標題生成及DAE（Denoising Autoencoder）。根據(jù)論文描述，我們在這里將DAE稱為帶風格的文本重構(gòu)。

有監(jiān)督的標題生成

在標題生成任務(wù)中，首先我們輸入文章原文，然后經(jīng)過編碼器獲得向量表征；接著，再利用解碼器生成標題。

換句話說，在標題生成任務(wù)中，我們是利用編碼器和解碼器學習條件分布。我們設(shè)是編碼器的待優(yōu)化參數(shù)，是解碼器的待優(yōu)化參數(shù)，那么標題生成任務(wù)的損失函數(shù)如下：

其中是單向語言模型，即：

這里代表句子的長度。

無監(jiān)督/自監(jiān)督的風格文本重構(gòu)

在文本重構(gòu)任務(wù)中，對于句子，我們通過隨機刪除或者遮蓋某些詞，或者改變文本中詞的順序可以獲得破壞版本的句子。將作為模型輸入，經(jīng)過編碼器獲得中間表征，再經(jīng)過解碼器進行還原獲得。這個任務(wù)的目的是在還原句子時使模型學到風格化句子的能力。

同樣我們設(shè)是編碼器的待優(yōu)化參數(shù)，是解碼器的待優(yōu)化參數(shù)，那么文本重構(gòu)任務(wù)的損失函數(shù)如下：

聯(lián)合學習

最終，多任務(wù)學習會最小化將兩部分的損失函數(shù)之和：

3.3 如何生存帶有特定風格的相關(guān)標題

到目前為止，大家可能會有所疑問：兩個任務(wù)除了損失函數(shù)是一同優(yōu)化外再沒有看到其他任何關(guān)聯(lián)，那么TitleStylist怎么可能學到問題部分定義的終極目標，畢竟我們只有來自分布、的數(shù)據(jù)，并沒有來自分布的數(shù)據(jù)。

實際上，TitleStylist通過設(shè)計參數(shù)共享策略，讓兩個任務(wù)的編碼器及解碼器存在某種關(guān)聯(lián)，最終以此來建模。那么如何進行參數(shù)共享呢？

最簡單的，可以直接共享所有參數(shù)（與共享，與共享）。這樣模型等于同時學了標題生成與帶風格的文本重構(gòu)兩個任務(wù)。其中標題生成的任務(wù)讓模型學到了如何生成與文章內(nèi)容相關(guān)的標題；帶風格的文本重構(gòu)則讓模型學到了如何在還原文本時保留文本具有的風格。在兩個任務(wù)的相互加持下，模型就可以生成和文章相關(guān)的又具有特定風格的標題。

好了，我們就想到這里。接下來看看TitleStylist究竟是怎么做的。

3.4 參數(shù)共享

剛才我們所說的直接共享所有參數(shù)的方式存在一個問題，就是模型并沒有真正地顯式地區(qū)分開文本內(nèi)容與文本風格，那么模型就是又學了中的事實性風格，又學了中的特定風格（比如幽默、浪漫或標題黨）。

TitleStylist為了更好地區(qū)分開文本內(nèi)容與文本風格，顯式地學習數(shù)據(jù)中所包含的風格，選擇讓編碼器共享所有參數(shù)，解碼器共享部分參數(shù)。個人認為編碼器端之所以完全共享參數(shù)，是想在編碼時盡可能保留原文信息。

如上圖所示，解碼器端的參數(shù)主要被分成兩部分：黃色部分表示不依賴風格的參數(shù)，是共享的；剩余依賴風格的參數(shù)，不共享。

具體地，存在于Layer Normalization及Decoder Attention，即層歸一化及解碼器注意力兩部分：

(1) 帶風格的層歸一化（Style Layer Normalization)

帶風格的層歸一化這個部分是借鑒圖像風格遷移的思想。其中分別是的的均值和標準方差，是模型需要學習的與風格相關(guān)的參數(shù)。

(2) 帶風格的解碼器注意力（Style-Guided Encoder Attention）

TitleStylist認為兩個任務(wù)的解碼器端在逐個生成下一個詞時的注意力機制應(yīng)該有所不同。在這里，TitleStylist主要是設(shè)置了不同的，以此生成不同的從而形成不同的注意力模式。

這里代表風格，對標題生成而言其實可以算作事實性風格；對文本重構(gòu)而言，可能是幽默、浪漫或標題黨風格。

TitleStylist結(jié)合完全共享參數(shù)的編碼器與部分參數(shù)共享的解碼器來實現(xiàn)其目標模型，最終可以生成帶有特定風格的又與原文內(nèi)容相關(guān)的標題。

總結(jié)

好了，帶風格的標題生成論文《Hooks in the Headline: Learning to Generate Headlines with Controlled Styles》的內(nèi)容就到這里了。在本篇文章中，我們就論文思想與論文所提出的模型的結(jié)構(gòu)設(shè)計進行了介紹。論文實驗部分小喵沒有細看，大家感興趣的話可以下載原文并結(jié)合源碼進行學習。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴