引言
論辯研究和推理是一個涉及到邏輯、語言、計算機等多學科領(lǐng)域的過程,在人工智能興起的時代,計算論辯試圖將人類對于論辯領(lǐng)域的知識和人工智能結(jié)合起來,用計算機深度模型來挖掘論辯語義、論辯結(jié)構(gòu)等方面,達到自動推理的效果。論辯挖掘是計算論辯中的一個重要任務(wù),它的主要任務(wù)有單篇式論辯挖掘,包括提論點分類、論點評估等;交互式論辯挖掘,包括論點對抽取等。此次的三篇論文將闡述論辯挖掘在司法領(lǐng)域、論辯領(lǐng)域、同行評議領(lǐng)域等的證據(jù)鏈支持、反駁證據(jù)評估、論點對抽取等方面應用。
文章概覽
1.Argumentation-Driven Evidence Association in Criminal Cases
刑事案件中的證據(jù)關(guān)聯(lián)是將一組司法證據(jù)劃分為若干不重疊的子集,提高定罪的可解釋性和合法性??梢杂^察到,分成同一子集的證據(jù)通常支持同一主張。在證據(jù)關(guān)聯(lián)步驟中,此篇文章提出了一種基于論證驅(qū)動(argumentation-driven)的監(jiān)督學習方法來計算證據(jù)對之間的聯(lián)系。在實際數(shù)據(jù)集上的實驗結(jié)果證明了該方法的有效性。
2. Knowledge-Enhanced Evidence Retrieval for Counterargument Generation
找到對陳述的反證是許多任務(wù)的關(guān)鍵。此篇文章建立了一個系統(tǒng),給出一個陳述,從Web上不同的來源檢索反證據(jù)。該系統(tǒng)的核心是一個自然語言推理(natural language inference, NLI)模型,它可以判斷一個候選句子是否為有效反證。作者提出了一個知識增強的NLI模型,旨在通過整合知識圖來處理基于因果關(guān)系和實例的推理。在實際數(shù)據(jù)集上的實驗結(jié)果證明了該方法的有效性。
3. Argument Pair Extraction with Mutual Guidance and Inter-sentence Relation Graph
此篇文章通過一個相互引導的框架來處理論點對抽?。ˋPE)任務(wù),利用一個段落中一個論點的信息來指導識別另一個段落中可以與之配對的論點。此外,此篇文章還提出了一個句間關(guān)系圖來有效地模擬兩個句子之間的相互關(guān)系,從而有利于論點對的提取。實驗結(jié)果表明,我們的方法明顯優(yōu)于目前SOTA的模型。
論文細節(jié)
1
動機
司法證據(jù)的作用是用來支持有利于定罪的訴訟請求,證據(jù)描述是刑事判決書的重要組成部分。然而,在不同的法律文件中,證據(jù)的組織是不同的。證據(jù)關(guān)聯(lián)的形式主要有收集式(collection)和論證驅(qū)動式(argumentation-driven)。
在目前大多數(shù)的刑事裁判文書中,證據(jù)只是以集合的形式羅列出來,沒有明確的主張,這被認為是集合的形式。但僅在5%左右的刑事判決文書中,依據(jù)相關(guān)主張將證據(jù)收集分為幾個子集,被認為是論證驅(qū)動的形式。
由此,此篇文章提出了一項刑事案件中的證據(jù)關(guān)聯(lián)任務(wù),通過有監(jiān)督的方法學習距離度量,無需額外的人工標注即可進行后續(xù)證據(jù)的聚類。
任務(wù)定義
給定證據(jù)集合,此篇文章將證據(jù)分為不重疊的個子集。
模型
(1)聚合方法
每一種情況下的聚類數(shù)量是不同的,所以不能像K-Means方法那樣設(shè)置一個特定的聚類數(shù)量。作者通過層次聚類來聚類證據(jù)(Day and Edelsbrunner, 1984),它可以學習停止閾值,該閾值決定何時停止合并兩個聚類。
(2)距離度量
本文提出了三種距離度量的概念,分別是Latent Distance、Explicit Distance和Ensemble Distance。
Latent Distance是證據(jù)之間的距離。在不給出明確主張的情況下,只能利用證據(jù)對的信息來計算它們之間的距離。支持同一主張的證據(jù)對之間的距離被標記為0,支持不同主張的證據(jù)對之間的距離被標記為1。
Explicit Distance是證據(jù)與主張之間的距離。證據(jù)和相應的主張之間有很強的相關(guān)性,例如,交通事故責任證明可以支持交通事故的責任劃分。證據(jù)與相應主張的相關(guān)性分值為1,證據(jù)與其他主張的相關(guān)性分值為0。
Latent Distance僅利用證據(jù)之間的語義信息來計算相似度。Explicit Distance僅利用證據(jù)與主張之間的推理關(guān)系來計算證據(jù)之間的距離。Ensemble Distance將這兩種方法融合在一起,同時利用證據(jù)之間的語義信息和證據(jù)與主張之間的推理信息,定義為這兩個距離的加權(quán)和。
數(shù)據(jù)集及實驗
作者以China Judgements Online中已發(fā)表的法律文件構(gòu)建了一個數(shù)據(jù)集,選擇如下圖所示證據(jù)描述為論證驅(qū)動形式的法律文件進行實驗。
作者主要采用ESIM和BERT進行有監(jiān)督學習的距離預測,結(jié)果如下表所示。
表中的結(jié)果顯示,有監(jiān)督方法的性能較好。同時,BERT模型優(yōu)于ESIM模型??赡艿脑蚴牵С滞挥^點的證據(jù)對有共現(xiàn)趨勢,這可以在BERT模型的下一個句子預測(next sentence prediction)任務(wù)中學習到。
Latent distance算法利用了證據(jù)對之間的語義信息,其性能優(yōu)于explicit distance?;趀nsemble distance的聚類結(jié)果由于整合了證據(jù)對之間和證據(jù)主張之間的關(guān)系,比單一距離的聚類結(jié)果有很大的提高。
如上圖所示,claim1和claim2分別代表受害人的出生日期和死亡日期。受害者的戶籍證明和死亡證明都能部分支持受害者的身份信息,但由于在使用Latent distance時只考慮證據(jù)對之間的關(guān)系,誤將它們聚在一起。Claim4和claim5是相似的,它們都是對交通事故現(xiàn)場的描述,但由于在使用explicit distance時幾乎沒有考慮證據(jù)對之間的語義關(guān)系,將被告人王某的供述和證人董某的證言誤聚在一起。從而將證據(jù)對之間的語義關(guān)系與證據(jù)主張之間的信息相結(jié)合,通過ensemble distance得到的聚類結(jié)果是正確的。
2
動機
先前的研究大多集中于對長論點的主要結(jié)論提出反駁。雖然這樣的反駁是有用的,但辯論式的對話通常是互動的,例如,在Change-MyView (CMV)中,挑戰(zhàn)者經(jīng)常引用特定的陳述來進行反駁。因此,本文的目標是為論點中的特定陳述找到反證,而不是為一個完整的論點生成一個反證。
任務(wù)定義
自然語言推理(natural language inference, NLI)模型是本文的核心,給定一個要反駁的陳述,系統(tǒng)對相關(guān)文檔進行檢索和排序,然后得到一組反證候選句。對于每個候選句,NLI模型決定它和陳述的關(guān)系是否包含、矛盾,或兩者都不是。
模型
在本篇文章中,作者提出了知識增強NLI模型(KENLI),如下圖所示。
KENLI(圖左)是基于RoBERTa-base ,以一對前提P和假設(shè)H為輸入,計算其關(guān)系是蘊含、矛盾還是中性的概率。為了連接P和H之間的實體,知識增強(Knowledge Enhancement, KE)網(wǎng)被插入到某兩層之間,將RoBERTa分為Encoder1和Encoder2。最后的預測是基于【CLS】進行的。
KE Net(圖中)利用了知識圖譜(knowledge graph, KG),其中節(jié)點是實體,邊是實體之間的有向關(guān)系。KG目標是讓信息通過KG在P和H的實體之間流動。KE Net是由一堆KE單元組成,每個KE單元使用兩個transformer TR1和TR2處理KG上的單跳推理。TR1根據(jù)相鄰實體更新每個實體embedding,TR2根據(jù)實體embedding更新詞項embedding。本篇文章中使用了兩個知識圖譜CauseNet和Wikidata。
數(shù)據(jù)集及實驗
此篇文章的數(shù)據(jù)主要來自公開的NLI數(shù)據(jù)集:MNLI (Williams et al., 2018)、ANLI (Nie et al., 2020b)、SNLI (Bowman et al., 2015)和FEVER-NLI (Nie et al., 2019)。實驗的結(jié)果如下表所示,顯示了每個模型5次實驗的平均F1得分。
表中可以看出KENLI(6-9行)基本上優(yōu)于Baseline模型(1-5行)。這表明KENLI有效地整合了知識,有利于預測陳述之間的關(guān)系。
最后作者建立了反證檢索系統(tǒng),是在DeSePtion (Hidey et al., 2020)的基礎(chǔ)上建立的。如下圖所示。
給定一個要驗證的陳述語句,檢索相關(guān)文檔并對其進行排序,對候選證據(jù)句進行排序,并預測該語句是被支持、被反駁還是都不支持。作者通過提出的知識增強NLI模型來強化了最后一個階段。
3
動機
論點對抽?。ˋrgument pair extraction, APE)的目的是從討論的兩段中抽取出交互式的論證對。
以往的研究將該任務(wù)應用在同行評議中,但是缺乏論點對之間的論點級別交互的顯式建模。此篇文章通過一個相互引導的框架來處理APE任務(wù),利用一個段落中一個論點的信息來指導識別另一個段落中可以與之配對的論點。此外,此篇文章還提出了一個句間關(guān)系圖來有效地模擬兩個句子之間的相互關(guān)系,從而有利于論點對的提取。實驗結(jié)果表明,我們的方法明顯優(yōu)于目前SOTA的模型。
模型
此篇文章提出了一個具有句間關(guān)系圖的APE相互引導框架MGF,如下圖所示。
(1)Inter-sentence Relation Graph
該圖將review和rebuttal中的每一個句子作為節(jié)點,從兩個角度進行構(gòu)建。
In-passage Edge:根據(jù)句子(同一個段落中)在review/rebuttal段落中的相對位置,構(gòu)建句子之間的邊。兩個in-passage句子之間邊的權(quán)重的定義為:
Cross-passage Edge:基于兩句之間的共現(xiàn)詞,構(gòu)建跨段落的句子邊緣。兩個in-passage句子之間邊的權(quán)重的定義為:
(2)Mutual Guidance Framework
相互引導框架(mutual Guided Framework, MGF)首先使用BERT對句子進行編碼,然后通過圖卷積得到面向關(guān)系的句子表示法后,使用兩個相互引導的標記器提取論點對。
數(shù)據(jù)集及實驗
此篇文章使用Cheng等人(2020)提出的Review-Rebuttal (RR)數(shù)據(jù)集進行實驗,該數(shù)據(jù)集包含從openreview.net收集的4,764篇ICLR的review/rebuttal文本對。Baseline是Cheng等人(2020)提出的PL-H-LSTM-CRF和MT-H-LSTM-CRF 。實驗的結(jié)果如下表。
從表中可以看出,作者提出的模型MGF在數(shù)據(jù)集上取得了最好的性能。在不使用BERT微調(diào)的情況下,Non-FT-MGF的性能仍然優(yōu)于MT-H-LSTM-CRF,這表明MDF實現(xiàn)的性能增益不僅僅是由于BERT微調(diào)。通過對MGF和Non-FT-MGF的比較,可以發(fā)現(xiàn)BERT微調(diào)可以進一步改善模型結(jié)果。
參考文獻
[1] Yefei Teng and WenHan Chao. 2021.Argumentation-Driven Evidence Association in Criminal Cases. InFindings of the Association for Computational Linguistics: EMNLP 2021, pages 2997–3001, Punta Cana, Dominican Republic. Association for Computational Linguistics.
[2] Yohan Jo, Haneul Yoo, JinYeong Bak, Alice Oh, Chris Reed, and Eduard Hovy. 2021.Knowledge-Enhanced Evidence Retrieval for Counterargument Generation. InFindings of the Association for Computational Linguistics: EMNLP 2021, pages 3074–3094, Punta Cana, Dominican Republic. Association for Computational Linguistics.
[3] Jianzhu Bao, Bin Liang, Jingyi Sun, Yice Zhang, Min Yang, and Ruifeng Xu. 2021.Argument Pair Extraction with Mutual Guidance and Inter-sentence Relation Graph. InProceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 3923–3934, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.
審核編輯 :李倩
-
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249583 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50433 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25449
原文標題:EMNLP 2021 | 論辯挖掘在不同領(lǐng)域下的應用
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
熱重分析儀在能源領(lǐng)域中的應用

三一挖掘機一鍵啟動開關(guān)易壞的原因及更換注意事項
電源盒在不同領(lǐng)域方面的應用
通信領(lǐng)域適配:SMA 接頭在不同頻段的應用與頻率范圍

AI主導下科技領(lǐng)域的蓬勃發(fā)展與變革
多線示波器的原理和應用領(lǐng)域
risc-v芯片在電機領(lǐng)域的應用展望
碳化硅SiC在高溫環(huán)境下的表現(xiàn)
精準定位隧道挖掘通訊難題:虹科PCAN卡如何滿足專業(yè)通訊需求?

評論