一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為k近鄰機器翻譯領(lǐng)域自適應(yīng)構(gòu)建可解釋知識庫

深度學(xué)習(xí)自然語言處理 ? 來源:南大NLP ? 2023-06-13 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

摘要

通過為神經(jīng)機器翻譯(Neural Machine Translation,NMT)模型配備額外的符號化知識庫(symbolic datastore),k近鄰機器翻譯(k-nearest-neighbor machine translation, kNN-MT)[1] 框架展示了一種全新的領(lǐng)域自適應(yīng)范式。但是,在構(gòu)建知識庫時通常需要將平行語料中所有的目標(biāo)語言詞語都存儲進知識庫,這樣不僅會導(dǎo)致知識庫規(guī)模過于龐大,也會導(dǎo)致知識庫中存在大量冗余條目(entry)。為了克服以上問題,本文從“NMT模型需要什么樣的額外知識”這一本質(zhì)問題出發(fā),對知識庫構(gòu)建過程的可解釋性展開了深入的研究。最終,我們提出局部準(zhǔn)確性(local correctness)這一新概念作為解釋角度,它描述了NMT模型在一個條目及其鄰域空間內(nèi)的翻譯準(zhǔn)確性。從局部準(zhǔn)確性出發(fā),我們建立了NMT模型與知識庫之間的聯(lián)系,確定了NMT模型容易犯錯并依賴額外知識的情況?;诰植繙?zhǔn)確性,我們也提出了一種簡單有效的知識庫剪枝方案。在兩個語言對,六個目標(biāo)領(lǐng)域上的實驗結(jié)果表明,根據(jù)局部準(zhǔn)確性進行知識庫剪枝能夠為kNN-MT系統(tǒng)構(gòu)建一個更加輕量、可解釋的知識庫。

該工作發(fā)表在ACL Findings,由南京大學(xué)自然語言處理組獨立完成。

本文的預(yù)印本發(fā)布在arXiv:https://arxiv.org/pdf/2211.04052.pdf

相關(guān)代碼發(fā)布在Github:https://github.com/NJUNLP/knn-box

02

NMT模型能力分析

鑒于NMT模型可以不依賴于知識庫完成目標(biāo)領(lǐng)域的部分翻譯內(nèi)容,我們推測NMT模型是掌握目標(biāo)領(lǐng)域的部分雙語知識的。但是,目前的知識庫構(gòu)建過程卻忽略了這一點,導(dǎo)致知識庫中存儲了冗余知識。直覺上,知識庫中只需要存儲能夠修復(fù)NMT模型缺陷的知識。

為了找到NMT模型的潛在缺陷,構(gòu)建更加可解釋的知識庫,我們提出以局部準(zhǔn)確性這一新概念作為分析角度。其中,局部準(zhǔn)確性又包含兩個子概念:條目準(zhǔn)確性(entry correctness)和鄰域準(zhǔn)確性(neighborhood correctness)?;谶@些分析工具,我們成功找到了NMT模型的潛在缺陷。以下是對這些概念和分析過程的具體介紹:

條目準(zhǔn)確性:NMT模型在目標(biāo)領(lǐng)域的翻譯能力很難直接描述,但是檢查NMT模型在每一個知識庫條目上的翻譯準(zhǔn)確性是相對容易可行的。因此我們首先根據(jù)條目準(zhǔn)確性,判斷NMT模型的翻譯能力。條目準(zhǔn)確性的判定過程是:針對知識庫中的每一個條目,我們檢查NMT模型能否根據(jù)隱層表示預(yù)測出目標(biāo)語言詞語。若可以,則判定該條目為NMT模型掌握的知識(known entry);若不可以,則判定該條目為NMT模型沒有掌握的知識(unknown entry)。

848c9ef6-09b5-11ee-962d-dac502259ad0.png

鄰域準(zhǔn)確性:但是,我們注意到僅靠條目準(zhǔn)確性并不能完全反映NMT模型的全部缺陷。因為即使對于known條目,NMT模型仍然會在面對相似上下文時出現(xiàn)翻譯錯誤。因此,為了更加全面地衡量NMT模型的能力,我們基于條目準(zhǔn)確性提出鄰域準(zhǔn)確性的概念,它描述了NMT模型在一個鄰域空間內(nèi)的翻譯準(zhǔn)確性。為了量化評估鄰域準(zhǔn)確性這一概念,我們進一步提出知識邊界(knowledge margin,km)指標(biāo)。它的具體定義如下:給定條目(h, y),它的鄰域空間由該位置的k近鄰條目所描述,該位置的知識邊界值km(h)的計算方式為:

8492e3ce-09b5-11ee-962d-dac502259ad0.png

值得注意的是,知識邊界的計算方式可以推廣到表示空間中的任意一點,因此可以被用來考察NMT模型在表示空間中任意一點的能力。

分析實驗:下面我們將基于以上概念,以O(shè)PUS數(shù)據(jù)集為例,分析NMT模型與知識庫之間的關(guān)系,揭露NMT模型的潛在缺陷。首先,我們統(tǒng)計了在不同領(lǐng)域知識庫中,known條目和unknown條目的占比情況。統(tǒng)計結(jié)果顯示:知識庫中56%-73%的條目都是NMT模型所掌握的(表格1),這也意味著知識庫確實存在極大的冗余。

表格 1 條目準(zhǔn)確性統(tǒng)計結(jié)果

849de1a2-09b5-11ee-962d-dac502259ad0.png

接著,我們衡量了NMT模型在各知識庫條目上的鄰域準(zhǔn)確性,并繪制了知識邊界值分布圖(圖1)。在四個OPUS領(lǐng)域上,知識邊界值的分布情況相似:大多數(shù)unknown條目的知識邊界值很低,而known條目的知識邊界值則數(shù)值分布差異較大。這說明鄰域準(zhǔn)確性與條目準(zhǔn)確性總體上是一致的,但是鄰域準(zhǔn)確性可以更好地展示known條目之間的差異。

84bdd8f4-09b5-11ee-962d-dac502259ad0.png

圖 1 知識邊界值分布情況

為了進一步展示知識邊界值與NMT模型翻譯能力之間的聯(lián)系,我們在各個領(lǐng)域的驗證集上進行了實驗,展示NMT模型在每一個翻譯步上的翻譯準(zhǔn)確率和知識邊界值之間的關(guān)系。從圖2中可以看出,對于知識邊界值較大的翻譯步,NMT模型的翻譯準(zhǔn)確率高達95%,但是對于知識邊界值較小的翻譯步,NMT模型的翻譯準(zhǔn)確率只有50%左右。這說明NMT模型在知識邊界值小時是非常容易出現(xiàn)翻譯錯誤的,這些位置也是NMT模型的缺陷所在。

84d3a99a-09b5-11ee-962d-dac502259ad0.png

圖 2 翻譯準(zhǔn)確率與知識邊界值之間的關(guān)系

03

基于局部準(zhǔn)確性構(gòu)建可解釋知識庫

鑒于局部準(zhǔn)確性可以準(zhǔn)確地反映NMT模型的能力強弱,我們也使用其來衡量知識庫條目對于NMT模型的價值?;谶@種價值判斷,我們提出了一種新穎的知識庫剪枝算法PLAC(Pruning with LocAl Correctness)。該算法的核心思路是去除知識庫中知識邊界值大的條目,因為在這些位置NMT模型本身的能力很強,這些位置的知識庫條目對于NMT模型的價值較小。PLAC方法的具體算法流程如圖3。該剪枝算法實現(xiàn)簡單,不需要訓(xùn)練任何額外神經(jīng)網(wǎng)絡(luò),剪枝后的知識庫也可以在不同kNN-MT系統(tǒng)中使用。

84deb330-09b5-11ee-962d-dac502259ad0.png

圖 3 PLAC剪枝算法偽代碼

04

實驗設(shè)定

數(shù)據(jù)集:我們在眾多機器翻譯領(lǐng)域自適應(yīng)數(shù)據(jù)集上進行了知識庫剪枝實驗,包括四個德語-英語OPUS數(shù)據(jù)集 [2] 和兩個中文-英語UM數(shù)據(jù)集 [3]。各數(shù)據(jù)集的具體規(guī)模如表格2所示。

表格 2 數(shù)據(jù)集統(tǒng)計信息

84ed0d22-09b5-11ee-962d-dac502259ad0.png

NMT模型:在德語-英語實驗中,我們使用WMT19德語-英語新聞翻譯任務(wù)的冠軍模型[4]作為預(yù)訓(xùn)練NMT模型。在中文-英語實驗上,我們使用自己在CWMT17中文-英語數(shù)據(jù)上訓(xùn)練的NMT模型作為預(yù)訓(xùn)練NMT模型。

05

實驗結(jié)果

使用PLAC進行知識庫剪枝是安全可靠的:從OPUS數(shù)據(jù)集上的剪枝實驗結(jié)果可以看出(表格3),PLAC可以在保持翻譯性能不變的情況下,去除25%-45%的知識庫條目。尤其是在OPUS-Medical和OPUS-Law這兩個所需知識庫最龐大的領(lǐng)域上,我們的方法成功去除了45%的知識庫條目。出色的剪枝效果說明使用局部準(zhǔn)確性確實可以衡量NMT模型的能力以及判斷知識庫條目的價值。

在基線剪枝方法中,Cluster[5]和Merge[6]都造成了巨大的翻譯性能損失,這說明即使一部分條目對應(yīng)相同的目標(biāo)語言詞語,這些條目對于NMT模型的價值也是不同的。另外,從Known和All Known兩種方法的結(jié)果來看,僅根據(jù)條目準(zhǔn)確性進行剪枝也會造成性能損失。這說明在判斷條目價值時,綜合考慮條目準(zhǔn)確性和鄰域準(zhǔn)確性是非常必要的。

表格 3 剪枝實驗結(jié)果(OPUS數(shù)據(jù)集)

850688f6-09b5-11ee-962d-dac502259ad0.png

我們也在表格4中報告了UM數(shù)據(jù)集上的實驗結(jié)果。在不損害翻譯性能的情況下,在UM-Law數(shù)據(jù)集上知識庫規(guī)??梢员粶p少30%,在UM-Thesis數(shù)據(jù)集上知識庫規(guī)??梢员粶p少15%。其余的實驗結(jié)論與OPUS數(shù)據(jù)集上得出的實驗結(jié)論相似。

表格 4 剪枝實驗結(jié)果(UM數(shù)據(jù)集)

85103a0e-09b5-11ee-962d-dac502259ad0.png

知識邊界閾值對剪枝效果的影響:在我們提出的方法中,知識邊界閾值在剪枝過程中起著重要作用。在圖4中,我們進一步展示了該閾值對剪枝效果的影響。我們發(fā)現(xiàn)在不同領(lǐng)域上,各剪枝方案的剪枝效果有著相同的變化趨勢:PLAC方法總是比其他剪枝方法有著更好的剪枝效果,并且在高剪枝率時也可以保持更加穩(wěn)定的性能。從圖中還可以看出,知識邊界閾值的設(shè)定對BLEU分數(shù)和最大剪枝比例有著直接影響:知識邊界閾值越大,最大剪枝比例越小,翻譯性能損失也越??;知識邊界閾值越小,最大剪枝比例越大,但是可能造成的翻譯性能損失也會增大。

85282790-09b5-11ee-962d-dac502259ad0.png

圖 4 不同剪枝方案的剪枝效果對比

低知識邊界值知識條目十分重要:為了驗證低知識邊界值的條目對NMT模型的價值,我們采用反向剪枝策略:對低知識邊界值進行剪枝。表格5中展示了實驗結(jié)果??梢钥闯觯词乖谳^小的剪枝比例下,反向剪枝策略都會對翻譯性能造成巨大的負面影響,這說明這部分知識庫條目確實對于NMT模型成功進行領(lǐng)域自適應(yīng)非常重要。

表格 5 正反向剪枝策略的剪枝效果對比

8540a004-09b5-11ee-962d-dac502259ad0.png

剪枝后的知識庫占據(jù)的存儲空間明顯減少:在實際運行kNN-MT系統(tǒng)進行翻譯時,知識庫需要被載入到CPUGPU上。因此,知識庫的規(guī)模將直接影響翻譯效率。表格6中展示了原始的完整知識庫和剪枝過的輕量知識庫之間的大小對比,可以看出我們提出的剪枝方法可以極大地減小知識庫所占用的存儲空間。

表格 6 完整知識庫與輕量知識庫的存儲占用對比

85519eb8-09b5-11ee-962d-dac502259ad0.png

06

總結(jié)

在本文中,我們對神經(jīng)機器翻譯模型和符號化知識庫之間的關(guān)系展開研究,提出根據(jù)局部準(zhǔn)確性和知識邊界指標(biāo)判斷NMT模型的潛在缺陷,并發(fā)現(xiàn)NMT模型在知識邊界值小的情況下常常出現(xiàn)翻譯錯誤?;谝陨戏治?,我們進一步提出了一種安全可靠的知識庫剪枝算法PLAC。實驗結(jié)果表明,我們的剪枝算法可以在不損害翻譯性能的情況下,去除最多45%的知識庫條目。出色的剪枝效果也說明局部準(zhǔn)確性能夠準(zhǔn)確NMT模型的潛在缺陷和知識庫條目的價值。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11076

    瀏覽量

    217010
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3518

    瀏覽量

    50405
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15191

原文標(biāo)題:ACL2023 | 為k近鄰機器翻譯領(lǐng)域自適應(yīng)構(gòu)建可解釋知識庫

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    面向?qū)ο蟮钠囍苿酉祵<蚁到y(tǒng)及其知識庫構(gòu)建

    面向?qū)ο蟮钠囍苿酉祵<蚁到y(tǒng)及其知識庫構(gòu)建本文以面向?qū)ο蟮钠囍苿訉<蚁到y(tǒng)及其知識庫研究對象,具體的研究內(nèi)容如下:1. 介紹了汽車制動系并分析了汽車制動系性能計算過程,闡述了評價汽
    發(fā)表于 12-02 12:42

    機器翻譯三大核心技術(shù)原理 | AI知識科普

    :1993年,IBM的Brown等提出基于詞對齊的統(tǒng)計翻譯模型,基于語料的方法開始盛行;2003年,愛丁堡大學(xué)的Koehn提出短語翻譯模型,使機器翻譯效果顯著提升,推動了工業(yè)應(yīng)用;2
    發(fā)表于 07-06 10:30

    機器翻譯三大核心技術(shù)原理 | AI知識科普 2

    ,就可以得到目標(biāo)語言的譯文。04 機器翻譯的基本應(yīng)用機器翻譯的基本應(yīng)用可分為三大場景:信息獲取目的場景、信息發(fā)布目的的場景、信息交流
    發(fā)表于 07-06 10:46

    神經(jīng)機器翻譯的方法有哪些?

    目前,神經(jīng)機器翻譯(NMT)已經(jīng)成為在學(xué)術(shù)界和工業(yè)界最先進的機器翻譯方法。最初的這種基于編碼器-解碼器架構(gòu)的機器翻譯系統(tǒng)都針對單個語言對進行翻譯。近期的工作開始探索去擴展這種辦法以支持
    發(fā)表于 11-23 12:14

    基于知識庫的智能策略翻譯技術(shù)

    提出基于知識庫的策略翻譯方法,設(shè)計策略翻譯組成結(jié)構(gòu),分析策略知識及其表示形式,建立動態(tài)可擴展的策略知識庫,開發(fā)可擴展的策略編譯器和策略組裝器
    發(fā)表于 04-22 09:42 ?11次下載

    一種基于解釋知識庫綜合

    知識庫解釋出發(fā),對概念和概念間關(guān)系的解釋進行了分析,定義了知識庫系統(tǒng)的最小概念集合,設(shè)計了生成最小概念集合的方法,提出了基于解釋
    發(fā)表于 05-07 20:44 ?16次下載

    領(lǐng)域知識庫的研究與設(shè)計

    領(lǐng)域知識庫構(gòu)建有利于知識的檢索和共享。分析了領(lǐng)域知識庫應(yīng)具備的條件,指出
    發(fā)表于 08-29 14:39 ?0次下載

    一種面向微生物領(lǐng)域知識庫構(gòu)建方法

    一種面向微生物領(lǐng)域知識庫構(gòu)建方法_陳航
    發(fā)表于 01-07 20:49 ?0次下載

    本體知識庫的模塊與保守擴充

    模塊化是軟件工程的一種方法,近年來被引入到本體領(lǐng)域,用以支持本體的重用和本體的整合。已有的工作沒有討論同時含有TBox和ABox的本體知識庫的模塊化的相關(guān)問題。在定義本體知識庫的模塊和知識庫
    發(fā)表于 11-24 09:58 ?0次下載

    本體知識庫構(gòu)建

    的概念和關(guān)系,并采用語義網(wǎng)規(guī)則語言SWRI.定義其中的約束條件和分配經(jīng)驗。將基于OWI。的結(jié)構(gòu)化知識轉(zhuǎn)換成事實、基于SWRL的約束化知識轉(zhuǎn)換成規(guī)則,并在推理引擎的基礎(chǔ)上構(gòu)建裝配公差綜合領(lǐng)域
    發(fā)表于 11-28 16:22 ?0次下載
    本體<b class='flag-5'>知識庫</b>的<b class='flag-5'>構(gòu)建</b>

    阿里巴巴機器翻譯在跨境電商場景下的應(yīng)用和實踐

    摘要: ?本文將與大家分享機器翻譯相關(guān)背景知識,再深入介紹機器翻譯在阿里生態(tài)中的具體應(yīng)用實踐,介紹基于機器翻譯技術(shù)搭建的一套完善的電商多語言解決方案,最后將會從技術(shù)角度介紹阿里
    發(fā)表于 07-31 17:22 ?633次閱讀
    阿里巴巴<b class='flag-5'>機器翻譯</b>在跨境電商場景下的應(yīng)用和實踐

    從冷戰(zhàn)到深度學(xué)習(xí),機器翻譯歷史不簡單!

    很多場景的基本應(yīng)用需求了。近日,Ilya Pestov用俄語寫的機器翻譯介紹文章經(jīng)Vasily Zubarev翻譯后發(fā)表到了Vas3k.com上。機器之心又經(jīng)授權(quán)將其轉(zhuǎn)譯成了漢語。希望
    發(fā)表于 09-17 09:23 ?546次閱讀

    機器翻譯中細粒度領(lǐng)域自適應(yīng)的數(shù)據(jù)集和基準(zhǔn)實驗

    細粒度領(lǐng)域自適應(yīng)問題是一個重要的實際應(yīng)用問題。當(dāng)研發(fā)人員需要為某個特定主題提供翻譯服務(wù)(比如某個主題的會議提供翻譯)時,往往需要在特定的細
    的頭像 發(fā)表于 04-26 10:08 ?1572次閱讀

    可解釋機器學(xué)習(xí)

    可解釋機器學(xué)習(xí)
    發(fā)表于 06-17 14:41 ?1次下載

    機器翻譯研究進展

    機器翻譯使用計算機將一種語言翻譯成另一種語言,具有低成本、高效率和高翻譯質(zhì)量等優(yōu)勢,在語音翻譯、同聲傳譯自動化等許多領(lǐng)域得到廣泛應(yīng)用。 隨著
    的頭像 發(fā)表于 07-06 11:19 ?1266次閱讀
    <b class='flag-5'>機器翻譯</b>研究進展