引言
隨著越來(lái)越多的機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景的出現(xiàn),而現(xiàn)有表現(xiàn)比較好的監(jiān)督學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù),標(biāo)注數(shù)據(jù)是一項(xiàng)枯燥無(wú)味且花費(fèi)巨大的任務(wù),所以遷移學(xué)習(xí)受到越來(lái)越多的關(guān)注。本次論文分享介紹了三篇基于遷移學(xué)習(xí)的論元關(guān)系提取。
數(shù)據(jù)概覽
基于遷移學(xué)習(xí)和主動(dòng)學(xué)習(xí)的論元關(guān)系提取(Efficient Argument Structure Extraction with Transfer Learning and Active Learning)
論文地址:https://arxiv.org/pdf/2204.00707
該篇文章針對(duì)提取論元關(guān)系提出了基于Transformer的上下文感知論元關(guān)系預(yù)測(cè)模型,該模型在五個(gè)不同的領(lǐng)域中顯著優(yōu)于依賴特征或僅編碼有限上下文的模型。為了解決數(shù)據(jù)標(biāo)注的困難,作者通過(guò)遷移學(xué)習(xí)利用現(xiàn)有的注釋好的數(shù)據(jù)來(lái)提高新目標(biāo)域中的模型性能,以及通過(guò)主動(dòng)學(xué)習(xí)來(lái)識(shí)別少量樣本進(jìn)行注釋。
一個(gè)用于集成論辯挖掘任務(wù)的大規(guī)模數(shù)據(jù)集(IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks)
論文地址:https://arxiv.org/pdf/2203.12257
該篇文章為了使論辯中繁瑣的過(guò)程自動(dòng)化,提出了一個(gè)大規(guī)模數(shù)據(jù)集IAM,該數(shù)據(jù)集可用于一系列論辯挖掘任務(wù),包括主張?zhí)崛 ⒘?chǎng)分類、證據(jù)提取等。之后進(jìn)一步提出了與論辯準(zhǔn)備過(guò)程相關(guān)的兩個(gè)新的論辯挖掘任務(wù):(1)基于立場(chǎng)分類的主張?zhí)崛。?2)主張-證據(jù)對(duì)提取。對(duì)每個(gè)集成任務(wù)分別采用流水線方法和端到端方法進(jìn)行試驗(yàn)。
社會(huì)討論中的無(wú)監(jiān)督知識(shí)遷移有助于論辯挖掘嗎?(Can Unsupervised Knowledge Transfer from Social Discussions Help Argument Mining?)
論文地址:https://arxiv.org/pdf/2203.12881
雖然基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型可以在許多NLP任務(wù)中取得最好的結(jié)果,但是標(biāo)注數(shù)據(jù)的缺乏和論證高度依賴領(lǐng)域的本質(zhì)限制了此類模型的性能。文章提出了一種遷移學(xué)習(xí)的策略來(lái)解決,利用CMV做為數(shù)據(jù)集,微調(diào)選擇性掩碼語(yǔ)言模型,并且提出了基于prompt的策略來(lái)預(yù)測(cè)論元間的關(guān)系。
論文細(xì)節(jié)
論文動(dòng)機(jī)
識(shí)別論元結(jié)構(gòu)在論辯挖掘領(lǐng)域里是一項(xiàng)非常重要的任務(wù)。從正式文本,例如法律文件、科學(xué)文獻(xiàn)到線上帖子,識(shí)別論元結(jié)構(gòu)在識(shí)別各個(gè)領(lǐng)域的中心論點(diǎn)和推理過(guò)程方面發(fā)揮著重要作用。對(duì)于給定一個(gè)命題,該文章需要在給定文本窗口中從其他命題中預(yù)測(cè)與該命題之間的關(guān)系(支持或者反對(duì))。但是一個(gè)巨大的挑戰(zhàn)是需要捕捉命題之間的長(zhǎng)期依賴關(guān)系。下圖展示了識(shí)別論元關(guān)系的一個(gè)例子,該例子為同行評(píng)審和在線評(píng)論中的論點(diǎn)摘錄。右邊表示論元結(jié)構(gòu)被標(biāo)記為命題之間的支持關(guān)系。盡管文本之間的主題或詞匯存在差異,但我們看到兩篇文本都具有相似結(jié)構(gòu)的長(zhǎng)期依賴關(guān)系,表明識(shí)別論元之間的關(guān)系可能會(huì)跨度很大,因此需要理解更長(zhǎng)的上下文。
由于現(xiàn)有的方法需要高質(zhì)量的標(biāo)注數(shù)據(jù)、為了解決長(zhǎng)期依賴從而人工設(shè)計(jì)的自定義特征以及模型訓(xùn)練,導(dǎo)致時(shí)間復(fù)雜度非常高。因此文章的主要目標(biāo)是設(shè)計(jì)一個(gè)方便研究者在新領(lǐng)域的文本中更快更精確地提取出論元關(guān)系模型。文章首先提出了一種上下文感知的論元關(guān)系預(yù)測(cè)模型,該模型可以通過(guò)微調(diào)Transformer獲得。對(duì)于給定的命題,模型對(duì)該命題的更多相鄰的命題進(jìn)行編碼,不僅僅是編碼緊挨的命題。此外,由于標(biāo)注論元結(jié)構(gòu)即使是對(duì)于有經(jīng)驗(yàn)的標(biāo)注人員來(lái)說(shuō)依然很困難,所以文章第二個(gè)目標(biāo)是通過(guò)少量的數(shù)據(jù)來(lái)有效的訓(xùn)練模型。文章提出了兩種互補(bǔ)的方法:(1)遷移學(xué)習(xí)可以調(diào)整在不同域中現(xiàn)有注釋數(shù)據(jù)上訓(xùn)練的模型,或利用未標(biāo)記的域內(nèi)數(shù)據(jù)來(lái)進(jìn)行更好的表示學(xué)習(xí)。(2)主動(dòng)學(xué)習(xí)基于樣本獲取策略選擇新域中的樣本,以優(yōu)化訓(xùn)練性能。
論元關(guān)系預(yù)測(cè)模型
任務(wù)定義
將一篇文本切分為多個(gè)命題來(lái)預(yù)測(cè)命題到命題是否存在支持或反對(duì)關(guān)系,其中目標(biāo)命題稱為“頭部”,命題稱為“尾部”,為了方便起見(jiàn),文章給出了“頭部”的先驗(yàn)知識(shí)。
上下文感知模型
下圖表示了該模型,模型是建立在RoBERTa之上,RoBERTa包含多層,每一層都使用雙向多頭自注意力機(jī)制。對(duì)于每一個(gè)”頭部“命題,文章編碼了在它之前的個(gè)命題(紫色表示)以及它之后的個(gè)命題(綠色表示),命題之間通過(guò)[CLS]分開。表示的最后一層狀態(tài),每一個(gè)和分別與拼接后傳給配對(duì)輸出層,從而預(yù)測(cè)命題到命題的概率。
預(yù)測(cè)概率公式為:
其中表示三類:支持、反對(duì)和無(wú)關(guān)。和表示訓(xùn)練參數(shù)。
主動(dòng)學(xué)習(xí)策略
文章考慮了一個(gè)基于池主動(dòng)學(xué)習(xí)策略,訓(xùn)練集的標(biāo)簽最初是不可用的,并且進(jìn)行次學(xué)習(xí)過(guò)程。在第次迭代中,利用給定的數(shù)據(jù)獲取策略選擇個(gè)樣本,將這些數(shù)據(jù)標(biāo)注之后添加到數(shù)據(jù)池構(gòu)成,模型在上訓(xùn)練。
與模型無(wú)關(guān)的數(shù)據(jù)獲取策略
通過(guò)模型獲取的數(shù)據(jù)可能不適用于接下來(lái)的模型,這是主動(dòng)學(xué)習(xí)的一個(gè)弊端。因此作者設(shè)計(jì)了與模型無(wú)關(guān)的數(shù)據(jù)獲取策略。
NOVEL-VOCAB促使命題使用更多未觀察到的單詞,假設(shè)單詞在數(shù)據(jù)池中出現(xiàn)的頻率為,則對(duì)于未標(biāo)注的樣本的得分為:
其中是樣本中單詞的頻率。有著最高得分的樣本會(huì)被選中來(lái)標(biāo)注。
DISC-MARKER旨在通過(guò)匹配以下18個(gè)論述標(biāo)記來(lái)選擇更多的關(guān)系鏈接。
數(shù)據(jù)集及相關(guān)領(lǐng)域
Domain 1: Peer Reviews
AMPERE包含了400篇ICLR 2018年的文章評(píng)審,每一個(gè)命題被標(biāo)注為evaluation、request、fact、reference和quote。文章在AMPERE的基礎(chǔ)之上將命題之間的關(guān)系標(biāo)注為支持或者反對(duì),新的數(shù)據(jù)集命名為**AMPERE++**。最終結(jié)果為400篇評(píng)審包含3636對(duì)關(guān)系,其中300篇做為訓(xùn)練集,20篇做為驗(yàn)證集,80篇做為測(cè)試集。并且文章另外收集了42K篇評(píng)審用在自監(jiān)督學(xué)習(xí)中來(lái)提高表示學(xué)習(xí)。
Domain 2: Essays
命題被標(biāo)注為premise、claim和major claim,支持與反對(duì)關(guān)系只能存在于premise到premise或者claim,并且命題之間不能跨段落。其中282篇文章做為訓(xùn)練集,20篇文章做為驗(yàn)證集,80篇文章做為測(cè)試集,同樣作者另外收集了26K篇文章用來(lái)自監(jiān)督表示學(xué)習(xí)。
Domain 3: Biomedical Paper Abstracts
AbstRCT語(yǔ)料庫(kù)包含700篇論文摘要,主要主題是疾病的隨機(jī)對(duì)照試驗(yàn)。其中350篇摘要做為訓(xùn)練集,50篇做為驗(yàn)證集,300篇做為測(cè)試集。作者另外收集了133K篇未標(biāo)注的摘要用做自監(jiān)督學(xué)習(xí)。
Domain 4: Legal Documents
ECHR包含了42篇關(guān)于歐洲人權(quán)法院的法律文件,其中27篇做為訓(xùn)練集,7篇做為驗(yàn)證集,8篇做為測(cè)試集。
Domain 5: Online User Comments
Cornell eRulemaking Corpus來(lái)自于線上論壇,其中501篇做為訓(xùn)練集,80篇做為驗(yàn)證集,150篇做為測(cè)試集。
實(shí)驗(yàn)結(jié)果
監(jiān)督學(xué)習(xí)結(jié)果
下表表明了除了Essays和AbstRCT,上下文感知模型均優(yōu)于基線模型,在這兩個(gè)數(shù)據(jù)集上特征豐富的SVM性能要優(yōu)于上下文感知模型。AbstRCT有著更高的正樣本率,表明上下文感知模型在對(duì)抗不平衡的訓(xùn)練數(shù)據(jù)上面要更加魯棒。
遷移學(xué)習(xí)結(jié)果
上一節(jié)中的結(jié)果顯示了不同域之間的巨大性能差異。帶有少量標(biāo)記樣本的域,例如AbstRCT和CDCP,會(huì)導(dǎo)致更差的性能。此外,注釋某些領(lǐng)域的論元結(jié)構(gòu)更加復(fù)雜。我們假設(shè)理解論元關(guān)系的基本推理能力可以跨域共享,因此作者研究了遷移學(xué)習(xí),它利用具有相似任務(wù)標(biāo)簽(transductive)或相同目標(biāo)域的未標(biāo)記數(shù)據(jù)(inductive)做為現(xiàn)有數(shù)據(jù)。具體來(lái)說(shuō),作者在所有傳輸對(duì)上進(jìn)行了全面的遷移學(xué)習(xí)實(shí)驗(yàn),其中模型首先在源域上訓(xùn)練并在目標(biāo)域上進(jìn)行微調(diào)。
Transductive TL下表的上半部分顯示,從 AMPERE++ 遷移而來(lái)的模型中有四分之三的模型實(shí)現(xiàn)了更好的性能。但是,當(dāng)從其他四個(gè)數(shù)據(jù)集進(jìn)行傳輸時(shí),性能偶爾會(huì)下降。這可能是由于不同的語(yǔ)言風(fēng)格和論元結(jié)構(gòu)、源域大小或由于過(guò)度依賴論述標(biāo)記而導(dǎo)致模型無(wú)法學(xué)習(xí)良好的表示。總體而言,AMPERE++ 始終有利于論元結(jié)構(gòu)理解不同領(lǐng)域,展示了其在未來(lái)研究中的潛力。
Inductive TL作者考慮了歸納式的遷移學(xué)習(xí)并且設(shè)置了兩個(gè)任務(wù):
(1)掩碼模型預(yù)測(cè)(MLM):隨機(jī)選擇15%的輸入數(shù)據(jù)做為預(yù)測(cè);
(2)上下文感知的句子擾動(dòng)(Context-Pert):它將每個(gè)文檔打包成一個(gè)由[CLS]分割的句子序列,其中20%被來(lái)自其他文檔的隨機(jī)句子替換,另外20%在同一個(gè)文檔中打亂, 其余不變。
預(yù)訓(xùn)練目標(biāo)是預(yù)測(cè)每個(gè)句子的擾動(dòng)類型。結(jié)果在上表的中間部分,其中MLM對(duì)所有三個(gè)領(lǐng)域都有好處。Context-Pert進(jìn)一步提高了AMPERE++的性能,但降低了其他兩個(gè)域的性能。
Combining Inductive and Transductive TL此外,作者證明了添加自監(jiān)督學(xué)習(xí)做為Transductive遷移學(xué)習(xí)的額外預(yù)訓(xùn)練步驟可以進(jìn)一步提高性能。從上表的下半部分來(lái)看,預(yù)訓(xùn)練模型比標(biāo)準(zhǔn)的Transductive遷移學(xué)習(xí)得到了一致的改進(jìn)。值得注意的是,使用目標(biāo)域進(jìn)行預(yù)訓(xùn)練會(huì)比使用源域數(shù)據(jù)產(chǎn)生更好的結(jié)果。這意味著更好的目標(biāo)域語(yǔ)言表示學(xué)習(xí)比更強(qiáng)大的源域模型更有效。
Effectiveness of TL in Low-Resource Setting為了定量地證明遷移學(xué)習(xí)如何使低資源目標(biāo)域有效,我們控制訓(xùn)練數(shù)據(jù)的大小并對(duì)每個(gè)域進(jìn)行Transductive遷移學(xué)習(xí)。下圖描繪了訓(xùn)練數(shù)據(jù)從0到5,000變化的趨勢(shì),增量為500。在所有數(shù)據(jù)集中,AMPERE++作為源域產(chǎn)生了最好的遷移學(xué)習(xí)結(jié)果:使用不到一半的目標(biāo)訓(xùn)練集。一般來(lái)說(shuō),當(dāng)使用較少的訓(xùn)練數(shù)據(jù)時(shí),遷移學(xué)習(xí)會(huì)帶來(lái)更多的改進(jìn)。
主動(dòng)學(xué)習(xí)結(jié)果
下圖展示了所有策略的F1得分,從圖中可以看出,標(biāo)注數(shù)據(jù)越多,性能越好。MAX-ENTROPY,BALD和CORESET三種基于模型的方法獲得更好的性能,不依賴模型的方法也產(chǎn)生了相對(duì)較好的結(jié)果。對(duì)于AMPERE++和AbstRCT,DISC-MARKER被證實(shí)是一個(gè)很好的啟發(fā)式選擇。在論文領(lǐng)域中,由于論述標(biāo)記大量使用,所以它的得分相對(duì)較低,不使用論述標(biāo)記會(huì)導(dǎo)致性能下降。值得注意的是,在不依賴任何訓(xùn)練模型的情況下,特定于任務(wù)的數(shù)據(jù)獲取策略可以有效地標(biāo)記論元關(guān)系。
論文動(dòng)機(jī)
傳統(tǒng)的論辯通常需要人工準(zhǔn)備過(guò)程,包括閱讀大量文章,選擇主張,確定主張的立場(chǎng),為主張尋找證據(jù)等。論辯挖掘做為論辯系統(tǒng)中的核心,近年來(lái)受到了廣泛關(guān)注。一些論辯挖掘任務(wù)和數(shù)據(jù)集被用來(lái)自動(dòng)化實(shí)現(xiàn)AI論辯,文章的目標(biāo)是實(shí)現(xiàn)論辯論準(zhǔn)備過(guò)程的自動(dòng)化,如圖所示。具體來(lái)說(shuō),提供論辯主題和幾篇相關(guān)的文章,從這些主張中提取它們的立場(chǎng),以及支持這些主張的證據(jù)。
然而現(xiàn)有的工作沒(méi)有能夠完成這一系列的任務(wù)(主張?zhí)崛 ⒘?chǎng)分類、證據(jù)提?。?,因此文章提出了IAM數(shù)據(jù)集來(lái)解決這個(gè)難題。為了更好地協(xié)調(diào)這些任務(wù),文章提出了兩個(gè)新的集成任務(wù):基于立場(chǎng)分類的主張?zhí)崛。–ESC)和主張-證據(jù)對(duì)提?。–EPE)。這兩個(gè)任務(wù)不對(duì)現(xiàn)有的任務(wù)進(jìn)行處理,而是將相關(guān)的主要任務(wù)整合在一起,這樣在準(zhǔn)備辯論的過(guò)程中更實(shí)際、更有效。CESC任務(wù)可以分為兩個(gè)子任務(wù):主張檢測(cè)任務(wù)和立場(chǎng)分類任務(wù)。直觀上,我們?cè)贑ESC任務(wù)上進(jìn)行實(shí)驗(yàn),采用流水線方法將兩個(gè)子任務(wù)結(jié)合起來(lái)。由于這兩個(gè)子任務(wù)是相輔相成的,所以我們也采用了端到端的多標(biāo)簽分類模型(支持、反對(duì)、無(wú)關(guān)系)。CEPE任務(wù)由主張檢測(cè)任務(wù)和證據(jù)檢測(cè)任務(wù)組成。與注釋過(guò)程類似,利用多任務(wù)模型同時(shí)提取主張和證據(jù)及其配對(duì)關(guān)系。
IAM數(shù)據(jù)集
數(shù)據(jù)收集
作者從線上論壇廣泛的收集了123個(gè)論辯主題,對(duì)于每個(gè)主題,收集了大約10篇來(lái)自英文維基百科的文章,總共收集了1010篇文章,共69,666個(gè)句子。
數(shù)據(jù)標(biāo)注
標(biāo)注過(guò)程分為兩個(gè)階段:
對(duì)給定話題檢測(cè)主張;
對(duì)給定主張檢測(cè)證據(jù)。
下表表示了一個(gè)例子,主題是”人工智能會(huì)取代人類嗎?“以及標(biāo)注好的主張。主張被標(biāo)記為“C_index”,證據(jù)被標(biāo)記為“E_index”。對(duì)于立場(chǎng),“+1”代表支持該主題的當(dāng)前主張,而“-1”代表反對(duì)該主題的主張。一個(gè)證據(jù)可以支持多個(gè)主張,同樣一主張也可以由多個(gè)證據(jù)來(lái)支持。
數(shù)據(jù)集分析
該數(shù)據(jù)集包含123個(gè)話題,可以應(yīng)用于各個(gè)子任務(wù)。下表展示了數(shù)據(jù)集的統(tǒng)計(jì)信息,句子的長(zhǎng)度平均21個(gè)單詞,數(shù)據(jù)集還計(jì)算了每個(gè)”主張-證據(jù)“句子對(duì)之間共享的詞匯的平均百分比為20.14%;而語(yǔ)料庫(kù)中任意兩個(gè)句子之間的比例僅為8.73%。這說(shuō)明提取“主張-證據(jù)”對(duì)是一項(xiàng)合理的任務(wù),因?yàn)椤爸鲝?證據(jù)”的詞匯共享比例高于其他句子對(duì)。
任務(wù)
現(xiàn)存的子任務(wù)
主張?zhí)崛。航o定一個(gè)特定的論辯主題和相關(guān)文章,自動(dòng)從文章中提取主張。因?yàn)橹鲝埵顷P(guān)鍵的論元,所以主張?zhí)崛∪蝿?wù)是基礎(chǔ)性任務(wù)。
立場(chǎng)分類:給定一個(gè)主題和為其提取的一組主張,確定每個(gè)主張是支持該主題還是反對(duì)該主題。
證據(jù)提取:給定一個(gè)具體的主題、相關(guān)的主張和可能相關(guān)的文章,需要該模型自動(dòng)確定這些文檔中的證據(jù)。
集成的任務(wù)
主張?zhí)崛?立場(chǎng)分類(CESC):由于主張有著明確的立場(chǎng),因此立場(chǎng)明確的句子很有可能成為主張。立場(chǎng)識(shí)別可能有利于主張?zhí)崛?,因此將任?wù)一與任務(wù)二合并,即給定一個(gè)特定的主題和相關(guān)的文章,從文章中提取主張,也確定主張對(duì)該主題的立場(chǎng)。
主張-證據(jù)對(duì)提?。–EPE):文章假設(shè)主張?zhí)崛『妥C據(jù)提取之間相輔相成,所以結(jié)合任務(wù)一和任務(wù)三,即給定一個(gè)特定的主題和相關(guān)的文章,從文章中提取主張-證據(jù)對(duì)。
方法
句子配對(duì)分類
將句子對(duì)連接起來(lái),并輸入到預(yù)訓(xùn)練模型中,以獲得“[CLS]”標(biāo)記的隱藏狀態(tài)。之后,一個(gè)線性分類器將預(yù)測(cè)兩個(gè)句子之間的關(guān)系。任務(wù)一到任務(wù)三都可以表示為一個(gè)二分類任務(wù),交叉熵做為損失函數(shù)。
由于任務(wù)一和任務(wù)三的數(shù)據(jù)標(biāo)簽是不平衡的,主張和證據(jù)的總數(shù)要遠(yuǎn)小于句子總數(shù),因此可以利用負(fù)采樣來(lái)解決。在這兩個(gè)任務(wù)訓(xùn)練過(guò)程中,對(duì)于每一個(gè)主張或者證據(jù),隨機(jī)選取一定數(shù)量的非主張或非證據(jù)句子做為負(fù)樣本,這些負(fù)樣本連同所有的主張和證據(jù)共同構(gòu)成了每個(gè)任務(wù)的新的訓(xùn)練數(shù)據(jù)集。
多標(biāo)簽?zāi)P陀糜贑ESC
文章將主題和句子配對(duì)輸入到預(yù)訓(xùn)練模型中,輸出標(biāo)簽為支持、反對(duì)和無(wú)關(guān)。由于無(wú)關(guān)的數(shù)量要遠(yuǎn)大于支持和反對(duì)的數(shù)量,因此采用負(fù)采樣來(lái)保證更加平衡的訓(xùn)練過(guò)程。
多任務(wù)模型用于CEPE
首先將主題和文章中各個(gè)句子連接起來(lái)做為主張候選集,文章中的句子序列做為證據(jù)候選集。將主張?zhí)崛『妥C據(jù)提取定義為序列標(biāo)注問(wèn)題,主張候選集和證據(jù)候選集輸入到預(yù)訓(xùn)練模型中得到嵌入表示。為了預(yù)測(cè)兩句話是否構(gòu)成主張-證據(jù)對(duì),文章采用填表的方法,將主張候選集的每個(gè)句子與證據(jù)候選集的每個(gè)句子配對(duì),形成一個(gè)表,所有三個(gè)特征(即主張候選集、證據(jù)候選集、表格)都通過(guò)注意力引導(dǎo)的多交叉編碼層相互更新。最后,兩個(gè)序列特征用于預(yù)測(cè)其序列標(biāo)簽,表格特征用于每個(gè)主張和證據(jù)之間的配對(duì)預(yù)測(cè)。與流水線方法相比,該多任務(wù)模型具有更強(qiáng)的子任務(wù)協(xié)調(diào)能力,因?yàn)閮蓚€(gè)子任務(wù)之間的共享信息是通過(guò)多交叉編碼器顯式學(xué)習(xí)的。
實(shí)驗(yàn)結(jié)果
現(xiàn)有任務(wù)的主要結(jié)果
1.主張?zhí)崛。合卤碚故玖巳蝿?wù)一的性能,RoBERTa-base性能略優(yōu)于BERT-base-cased。
2.立場(chǎng)分類:下表說(shuō)明兩種類型的主張F(tuán)1得分相近,并且RoBERTa-base性能優(yōu)于BERT-base-cased。
3.證據(jù)提?。合卤盹@示了任務(wù)3上的性能。同樣,RoBERTa模型比BERT模型性能更好。對(duì)于這個(gè)任務(wù),作者實(shí)驗(yàn)了兩種設(shè)置:(1)給定主題和主張(T+C),(2)僅給定主張(C),從候選句子中識(shí)別證據(jù)。對(duì)于(T+C)設(shè)置,只需將主題和主張連接為一個(gè)句子,并與證據(jù)候選集配對(duì),以預(yù)測(cè)它是否是特定主題下給定主張的證據(jù)。對(duì)比這兩種設(shè)置的結(jié)果,添加主題的句子作為輸入并沒(méi)有進(jìn)一步顯著提高性能,這說(shuō)明主張與證據(jù)的關(guān)系更密切,而主題并不是證據(jù)提取的決定性因素。
集成任務(wù)的主要結(jié)果
CESC任務(wù):下表顯示了CESC任務(wù)的兩種方法的結(jié)果。對(duì)于兩種方法,在訓(xùn)練過(guò)程中為每個(gè)正樣本(主張)隨機(jī)選取5個(gè)負(fù)樣本。流水線模型獨(dú)立訓(xùn)練兩個(gè)子任務(wù),然后將它們連接到一起,以預(yù)測(cè)一個(gè)句子是否為主張以及句子的立場(chǎng)。雖然它在每個(gè)子任務(wù)上都取得了最好的性能,但總體性能不如多標(biāo)簽?zāi)P汀=Y(jié)果表明,識(shí)別主張的立場(chǎng)有利于主張?zhí)崛∪蝿?wù),這種多標(biāo)簽?zāi)P陀欣诩蒀ESC任務(wù)。
CEPE任務(wù):下表顯示了不同方法之間的總體性能比較。除了前面提到的流水線和多任務(wù)模型,文章還添加了另一個(gè)基線模型,命名為“遍歷”。在該模型中,所有可能的“主題+主張候選句”和“證據(jù)候選句”被連接起來(lái),并輸入到句子對(duì)分類模型中。遍歷模型和多任務(wù)模型在F1總分上都優(yōu)于流水線模型,這意味著同時(shí)處理這兩個(gè)子任務(wù)的重要性。多任務(wù)模型的性能優(yōu)于遍歷模型,說(shuō)明多任務(wù)體系結(jié)構(gòu)具有較強(qiáng)的子任務(wù)協(xié)調(diào)能力。
論文動(dòng)機(jī)
線上論辯文本:用戶在網(wǎng)上來(lái)回發(fā)布的帖子引發(fā)的討論,反映了大規(guī)模的意見(jiàn)互動(dòng)。下圖表示了兩個(gè)用戶連續(xù)發(fā)帖中的論元標(biāo)注,紅色代表主張,藍(lán)色代表前提。
標(biāo)注數(shù)據(jù)的缺乏:之前的研究試圖以半監(jiān)督的方式利用大量的未標(biāo)記數(shù)據(jù),然而這種方法要求論元被定義在句子級(jí)別,因此在預(yù)測(cè)過(guò)程中會(huì)添加額外的跨度。BERT雖然可以解決特定任務(wù)上的數(shù)據(jù)稀缺問(wèn)題,但是BERT學(xué)習(xí)到的語(yǔ)言表示依然限制了此類模型的表達(dá)能力。
因此,作者提出了基于Transformer的遷移學(xué)習(xí)方法。作者從CMV社區(qū)中使用大量未標(biāo)記數(shù)據(jù)做為論辯知識(shí)來(lái)源,基于Transformer的預(yù)訓(xùn)練模型使用掩碼語(yǔ)言模型(MLM)在數(shù)據(jù)集上微調(diào),不像之前隨機(jī)掩碼單詞來(lái)預(yù)測(cè),作者掩碼幾個(gè)帖子中特定的標(biāo)記來(lái)進(jìn)行預(yù)測(cè),將這種方法命名為選擇性掩碼語(yǔ)言模型(sMLM)。為了充分利用基于sMLM語(yǔ)言模型訓(xùn)練,作者提出了基于prompt的方法來(lái)預(yù)測(cè)論元之間的關(guān)系。
選擇性語(yǔ)言模型(sMLM)
CMV的結(jié)構(gòu)
討論論壇方便用戶可以發(fā)帖子以及在下面進(jìn)行評(píng)論,其他用戶可以回復(fù)原帖或者評(píng)論。最終可以形成類似于以原帖為根節(jié)點(diǎn)的樹形結(jié)構(gòu),從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑可以被視為兩個(gè)或多個(gè)用戶獨(dú)立的對(duì)話路徑,將該路徑稱為“線程”。
sMLM微調(diào)
作者選擇特定的詞來(lái)掩碼,而不是隨機(jī)選擇。作者選擇多個(gè)標(biāo)記,表明意見(jiàn)、因果關(guān)系、反駁、事實(shí)陳述、假設(shè)、總結(jié)和一些額外的詞,這些詞根據(jù)上下文的不同有多種用途。下圖表示sMLM需要預(yù)訓(xùn)練語(yǔ)言模型來(lái)根據(jù)上下文預(yù)測(cè)紅色單詞。
由于CMV線程將對(duì)話分為評(píng)論/帖子級(jí)別以及線程級(jí)別。作者試圖探索在不同的論辯挖掘任務(wù)中文本大小的影響。為此作者使用提出的sMLM對(duì)BERT進(jìn)行微調(diào),并在線程機(jī)制中訓(xùn)練Longformer模型,Longformer使用稀疏的全局的注意力機(jī)制,即少量單詞關(guān)注全部單詞來(lái)獲得長(zhǎng)期依賴。
論元識(shí)別
在選擇性微調(diào)之后,作者要在線程中識(shí)別論元類型。由于在單詞級(jí)別上進(jìn)行的檢測(cè),所以使用標(biāo)準(zhǔn)的BIO標(biāo)注模式,即.
論元關(guān)系識(shí)別
作者提出基于prompt的方法來(lái)預(yù)測(cè)論元之間的關(guān)系。如下圖所示,試圖對(duì)USER-1和USER-2提出的主張之間的關(guān)系進(jìn)行分類,分別用紅色和綠色突出顯示;通過(guò)追加提示模板,線程被轉(zhuǎn)換為提示輸入。語(yǔ)言模型將提示標(biāo)記序列轉(zhuǎn)換為固定維度的向量,掩碼標(biāo)記位置對(duì)應(yīng)的向量用于關(guān)系分類。
實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集
作者使用CMV做為數(shù)據(jù)集,其中99%的數(shù)據(jù)做為訓(xùn)練集,1%的數(shù)據(jù)用來(lái)檢驗(yàn)sMLM模型的準(zhǔn)確率。數(shù)據(jù)集包括3051條原帖以及293,297條評(píng)論,共有34,911個(gè)用戶,120,031個(gè)線程。
論元識(shí)別
下表展示了論元識(shí)別的結(jié)果。首先,從現(xiàn)有性能最好的基于LSTM的方法(精度為0.54)轉(zhuǎn)移到BERT時(shí)(精度為0.62),可以看到字符級(jí)標(biāo)記精度得分的巨大差異。這種差異是意料之中的,因?yàn)橄馚ERT這樣的預(yù)訓(xùn)練語(yǔ)言模型在CMV這樣的小型數(shù)據(jù)集中提供了先機(jī)。盡管字符級(jí)標(biāo)記的精度提高了,但是精確論元匹配的微平均F1得分在使用RoBERTa之前并沒(méi)有增加太多。使用sMLM微調(diào)進(jìn)行訓(xùn)練的Longformer在論元識(shí)別的F1總得分方面明顯優(yōu)于其他模型。然而,與評(píng)論級(jí)上下文(RoBERTa)相比,選擇性語(yǔ)言模型的影響在線程級(jí)上下文(即Longformer)的情況下更為突出。
論元關(guān)系識(shí)別
下表給出了CMV數(shù)據(jù)集上論元關(guān)系識(shí)別的結(jié)果??紤]傳統(tǒng)的平均池化方法,在這種方法中,我們觀察到sMLM預(yù)先訓(xùn)練的Longformer在訓(xùn)練集為80%和測(cè)試集為20%的情況下提高了3個(gè)點(diǎn),而在訓(xùn)練集和測(cè)試集各為50%的情況下保持相似的性能。此外,無(wú)論使用Longformer還是sMLM,基于prompt的方法始終優(yōu)于平均池化方法。
審核編輯 :李倩
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8502瀏覽量
134590 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25445 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5732
原文標(biāo)題:ACL2022 | 基于遷移學(xué)習(xí)的論元關(guān)系提取
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
如何精準(zhǔn)提取MOSFET溝道遷移率

干貨分享 I 論濾波元件與電路設(shè)計(jì)的關(guān)系

評(píng)論