01
摘要
通過為神經(jīng)機器翻譯(Neural Machine Translation,NMT)模型配備額外的符號化知識庫(symbolic datastore),k近鄰機器翻譯(k-nearest-neighbor machine translation, kNN-MT)[1] 框架展示了一種全新的領(lǐng)域自適應(yīng)范式。但是,在構(gòu)建知識庫時通常需要將平行語料中所有的目標(biāo)語言詞語都存儲進知識庫,這樣不僅會導(dǎo)致知識庫規(guī)模過于龐大,也會導(dǎo)致知識庫中存在大量冗余條目(entry)。為了克服以上問題,本文從“NMT模型需要什么樣的額外知識”這一本質(zhì)問題出發(fā),對知識庫構(gòu)建過程的可解釋性展開了深入的研究。最終,我們提出局部準(zhǔn)確性(local correctness)這一新概念作為解釋角度,它描述了NMT模型在一個條目及其鄰域空間內(nèi)的翻譯準(zhǔn)確性。從局部準(zhǔn)確性出發(fā),我們建立了NMT模型與知識庫之間的聯(lián)系,確定了NMT模型容易犯錯并依賴額外知識的情況?;诰植繙?zhǔn)確性,我們也提出了一種簡單有效的知識庫剪枝方案。在兩個語言對,六個目標(biāo)領(lǐng)域上的實驗結(jié)果表明,根據(jù)局部準(zhǔn)確性進行知識庫剪枝能夠為kNN-MT系統(tǒng)構(gòu)建一個更加輕量、可解釋的知識庫。
該工作發(fā)表在ACL Findings,由南京大學(xué)自然語言處理組獨立完成。
本文的預(yù)印本發(fā)布在arXiv:https://arxiv.org/pdf/2211.04052.pdf
相關(guān)代碼發(fā)布在Github:https://github.com/NJUNLP/knn-box
02
NMT模型能力分析
鑒于NMT模型可以不依賴于知識庫完成目標(biāo)領(lǐng)域的部分翻譯內(nèi)容,我們推測NMT模型是掌握目標(biāo)領(lǐng)域的部分雙語知識的。但是,目前的知識庫構(gòu)建過程卻忽略了這一點,導(dǎo)致知識庫中存儲了冗余知識。直覺上,知識庫中只需要存儲能夠修復(fù)NMT模型缺陷的知識。
為了找到NMT模型的潛在缺陷,構(gòu)建更加可解釋的知識庫,我們提出以局部準(zhǔn)確性這一新概念作為分析角度。其中,局部準(zhǔn)確性又包含兩個子概念:條目準(zhǔn)確性(entry correctness)和鄰域準(zhǔn)確性(neighborhood correctness)?;谶@些分析工具,我們成功找到了NMT模型的潛在缺陷。以下是對這些概念和分析過程的具體介紹:
條目準(zhǔn)確性:NMT模型在目標(biāo)領(lǐng)域的翻譯能力很難直接描述,但是檢查NMT模型在每一個知識庫條目上的翻譯準(zhǔn)確性是相對容易可行的。因此我們首先根據(jù)條目準(zhǔn)確性,判斷NMT模型的翻譯能力。條目準(zhǔn)確性的判定過程是:針對知識庫中的每一個條目,我們檢查NMT模型能否根據(jù)隱層表示預(yù)測出目標(biāo)語言詞語。若可以,則判定該條目為NMT模型掌握的知識(known entry);若不可以,則判定該條目為NMT模型沒有掌握的知識(unknown entry)。
鄰域準(zhǔn)確性:但是,我們注意到僅靠條目準(zhǔn)確性并不能完全反映NMT模型的全部缺陷。因為即使對于known條目,NMT模型仍然會在面對相似上下文時出現(xiàn)翻譯錯誤。因此,為了更加全面地衡量NMT模型的能力,我們基于條目準(zhǔn)確性提出鄰域準(zhǔn)確性的概念,它描述了NMT模型在一個鄰域空間內(nèi)的翻譯準(zhǔn)確性。為了量化評估鄰域準(zhǔn)確性這一概念,我們進一步提出知識邊界(knowledge margin,km)指標(biāo)。它的具體定義如下:給定條目(h, y),它的鄰域空間由該位置的k近鄰條目所描述,該位置的知識邊界值km(h)的計算方式為:
值得注意的是,知識邊界的計算方式可以推廣到表示空間中的任意一點,因此可以被用來考察NMT模型在表示空間中任意一點的能力。
分析實驗:下面我們將基于以上概念,以O(shè)PUS數(shù)據(jù)集為例,分析NMT模型與知識庫之間的關(guān)系,揭露NMT模型的潛在缺陷。首先,我們統(tǒng)計了在不同領(lǐng)域知識庫中,known條目和unknown條目的占比情況。統(tǒng)計結(jié)果顯示:知識庫中56%-73%的條目都是NMT模型所掌握的(表格1),這也意味著知識庫確實存在極大的冗余。
表格 1 條目準(zhǔn)確性統(tǒng)計結(jié)果
接著,我們衡量了NMT模型在各知識庫條目上的鄰域準(zhǔn)確性,并繪制了知識邊界值分布圖(圖1)。在四個OPUS領(lǐng)域上,知識邊界值的分布情況相似:大多數(shù)unknown條目的知識邊界值很低,而known條目的知識邊界值則數(shù)值分布差異較大。這說明鄰域準(zhǔn)確性與條目準(zhǔn)確性總體上是一致的,但是鄰域準(zhǔn)確性可以更好地展示known條目之間的差異。
圖 1 知識邊界值分布情況
為了進一步展示知識邊界值與NMT模型翻譯能力之間的聯(lián)系,我們在各個領(lǐng)域的驗證集上進行了實驗,展示NMT模型在每一個翻譯步上的翻譯準(zhǔn)確率和知識邊界值之間的關(guān)系。從圖2中可以看出,對于知識邊界值較大的翻譯步,NMT模型的翻譯準(zhǔn)確率高達95%,但是對于知識邊界值較小的翻譯步,NMT模型的翻譯準(zhǔn)確率只有50%左右。這說明NMT模型在知識邊界值小時是非常容易出現(xiàn)翻譯錯誤的,這些位置也是NMT模型的缺陷所在。
圖 2 翻譯準(zhǔn)確率與知識邊界值之間的關(guān)系
03
基于局部準(zhǔn)確性構(gòu)建可解釋知識庫
鑒于局部準(zhǔn)確性可以準(zhǔn)確地反映NMT模型的能力強弱,我們也使用其來衡量知識庫條目對于NMT模型的價值?;谶@種價值判斷,我們提出了一種新穎的知識庫剪枝算法PLAC(Pruning with LocAl Correctness)。該算法的核心思路是去除知識庫中知識邊界值大的條目,因為在這些位置NMT模型本身的能力很強,這些位置的知識庫條目對于NMT模型的價值較小。PLAC方法的具體算法流程如圖3。該剪枝算法實現(xiàn)簡單,不需要訓(xùn)練任何額外神經(jīng)網(wǎng)絡(luò),剪枝后的知識庫也可以在不同kNN-MT系統(tǒng)中使用。
圖 3 PLAC剪枝算法偽代碼
04
實驗設(shè)定
數(shù)據(jù)集:我們在眾多機器翻譯領(lǐng)域自適應(yīng)數(shù)據(jù)集上進行了知識庫剪枝實驗,包括四個德語-英語OPUS數(shù)據(jù)集 [2] 和兩個中文-英語UM數(shù)據(jù)集 [3]。各數(shù)據(jù)集的具體規(guī)模如表格2所示。
表格 2 數(shù)據(jù)集統(tǒng)計信息
NMT模型:在德語-英語實驗中,我們使用WMT19德語-英語新聞翻譯任務(wù)的冠軍模型[4]作為預(yù)訓(xùn)練NMT模型。在中文-英語實驗上,我們使用自己在CWMT17中文-英語數(shù)據(jù)上訓(xùn)練的NMT模型作為預(yù)訓(xùn)練NMT模型。
05
實驗結(jié)果
使用PLAC進行知識庫剪枝是安全可靠的:從OPUS數(shù)據(jù)集上的剪枝實驗結(jié)果可以看出(表格3),PLAC可以在保持翻譯性能不變的情況下,去除25%-45%的知識庫條目。尤其是在OPUS-Medical和OPUS-Law這兩個所需知識庫最龐大的領(lǐng)域上,我們的方法成功去除了45%的知識庫條目。出色的剪枝效果說明使用局部準(zhǔn)確性確實可以衡量NMT模型的能力以及判斷知識庫條目的價值。
在基線剪枝方法中,Cluster[5]和Merge[6]都造成了巨大的翻譯性能損失,這說明即使一部分條目對應(yīng)相同的目標(biāo)語言詞語,這些條目對于NMT模型的價值也是不同的。另外,從Known和All Known兩種方法的結(jié)果來看,僅根據(jù)條目準(zhǔn)確性進行剪枝也會造成性能損失。這說明在判斷條目價值時,綜合考慮條目準(zhǔn)確性和鄰域準(zhǔn)確性是非常必要的。
表格 3 剪枝實驗結(jié)果(OPUS數(shù)據(jù)集)
我們也在表格4中報告了UM數(shù)據(jù)集上的實驗結(jié)果。在不損害翻譯性能的情況下,在UM-Law數(shù)據(jù)集上知識庫規(guī)??梢员粶p少30%,在UM-Thesis數(shù)據(jù)集上知識庫規(guī)??梢员粶p少15%。其余的實驗結(jié)論與OPUS數(shù)據(jù)集上得出的實驗結(jié)論相似。
表格 4 剪枝實驗結(jié)果(UM數(shù)據(jù)集)
知識邊界閾值對剪枝效果的影響:在我們提出的方法中,知識邊界閾值在剪枝過程中起著重要作用。在圖4中,我們進一步展示了該閾值對剪枝效果的影響。我們發(fā)現(xiàn)在不同領(lǐng)域上,各剪枝方案的剪枝效果有著相同的變化趨勢:PLAC方法總是比其他剪枝方法有著更好的剪枝效果,并且在高剪枝率時也可以保持更加穩(wěn)定的性能。從圖中還可以看出,知識邊界閾值的設(shè)定對BLEU分數(shù)和最大剪枝比例有著直接影響:知識邊界閾值越大,最大剪枝比例越小,翻譯性能損失也越??;知識邊界閾值越小,最大剪枝比例越大,但是可能造成的翻譯性能損失也會增大。
圖 4 不同剪枝方案的剪枝效果對比
低知識邊界值知識條目十分重要:為了驗證低知識邊界值的條目對NMT模型的價值,我們采用反向剪枝策略:對低知識邊界值進行剪枝。表格5中展示了實驗結(jié)果??梢钥闯觯词乖谳^小的剪枝比例下,反向剪枝策略都會對翻譯性能造成巨大的負面影響,這說明這部分知識庫條目確實對于NMT模型成功進行領(lǐng)域自適應(yīng)非常重要。
表格 5 正反向剪枝策略的剪枝效果對比
剪枝后的知識庫占據(jù)的存儲空間明顯減少:在實際運行kNN-MT系統(tǒng)進行翻譯時,知識庫需要被載入到CPU和GPU上。因此,知識庫的規(guī)模將直接影響翻譯效率。表格6中展示了原始的完整知識庫和剪枝過的輕量知識庫之間的大小對比,可以看出我們提出的剪枝方法可以極大地減小知識庫所占用的存儲空間。
表格 6 完整知識庫與輕量知識庫的存儲占用對比
06
總結(jié)
在本文中,我們對神經(jīng)機器翻譯模型和符號化知識庫之間的關(guān)系展開研究,提出根據(jù)局部準(zhǔn)確性和知識邊界指標(biāo)判斷NMT模型的潛在缺陷,并發(fā)現(xiàn)NMT模型在知識邊界值小的情況下常常出現(xiàn)翻譯錯誤?;谝陨戏治?,我們進一步提出了一種安全可靠的知識庫剪枝算法PLAC。實驗結(jié)果表明,我們的剪枝算法可以在不損害翻譯性能的情況下,去除最多45%的知識庫條目。出色的剪枝效果也說明局部準(zhǔn)確性能夠準(zhǔn)確NMT模型的潛在缺陷和知識庫條目的價值。
-
cpu
+關(guān)注
關(guān)注
68文章
11076瀏覽量
217010 -
模型
+關(guān)注
關(guān)注
1文章
3518瀏覽量
50405 -
機器翻譯
+關(guān)注
關(guān)注
0文章
140瀏覽量
15191
原文標(biāo)題:ACL2023 | 為k近鄰機器翻譯領(lǐng)域自適應(yīng)構(gòu)建可解釋知識庫
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
面向?qū)ο蟮钠囍苿酉祵<蚁到y(tǒng)及其知識庫的構(gòu)建
機器翻譯三大核心技術(shù)原理 | AI知識科普
機器翻譯三大核心技術(shù)原理 | AI知識科普 2
神經(jīng)機器翻譯的方法有哪些?
基于知識庫的智能策略翻譯技術(shù)
一種基于解釋的知識庫綜合
領(lǐng)域知識庫的研究與設(shè)計
本體知識庫的模塊與保守擴充
本體知識庫的構(gòu)建

阿里巴巴機器翻譯在跨境電商場景下的應(yīng)用和實踐

從冷戰(zhàn)到深度學(xué)習(xí),機器翻譯歷史不簡單!
機器翻譯中細粒度領(lǐng)域自適應(yīng)的數(shù)據(jù)集和基準(zhǔn)實驗
機器翻譯研究進展

評論