作者:阿里云云棲號(hào)
鏈接:https://my.oschina.net/yunqi/blog/10319964
近日,阿里云人工智能平臺(tái) PAI 與華南理工大學(xué)朱金輝教授團(tuán)隊(duì)、達(dá)摩院自然語(yǔ)言處理團(tuán)隊(duì)合作在自然語(yǔ)言處理頂級(jí)會(huì)議 EMNLP2023 上發(fā)表基于機(jī)器翻譯增加的跨語(yǔ)言機(jī)器閱讀理解算法 X-STA。通過(guò)利用一個(gè)注意力機(jī)制的教師來(lái)將源語(yǔ)言的答案轉(zhuǎn)移到目標(biāo)語(yǔ)言的答案輸出空間,從而進(jìn)行深度級(jí)別的輔助以增強(qiáng)跨語(yǔ)言傳輸能力。同時(shí),提出了一種改進(jìn)的交叉注意力塊,稱為梯度解纏知識(shí)共享技術(shù)。此外,通過(guò)多個(gè)層次學(xué)習(xí)語(yǔ)義對(duì)齊,并利用教師指導(dǎo)來(lái)校準(zhǔn)模型輸出,增強(qiáng)跨語(yǔ)言傳輸性能。實(shí)驗(yàn)結(jié)果顯示,我們的方法在三個(gè)多語(yǔ)言 MRC 數(shù)據(jù)集上表現(xiàn)出色,優(yōu)于現(xiàn)有的最先進(jìn)方法。
背景
大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的廣泛應(yīng)用,促進(jìn)了 NLP 各個(gè)下游任務(wù)準(zhǔn)確度大幅提升,然而,傳統(tǒng)的自然語(yǔ)言理解任務(wù)通常需要大量的標(biāo)注數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練語(yǔ)言模型。但低資源語(yǔ)言缺乏標(biāo)注數(shù)據(jù)集,難以獲取。大部分現(xiàn)有的 MRC 數(shù)據(jù)集都是英文的,這對(duì)于其他語(yǔ)言來(lái)說(shuō)是一個(gè)困難。其次,不同語(yǔ)言之間存在語(yǔ)言和文化的差異,表現(xiàn)為不同的句子結(jié)構(gòu)、詞序和形態(tài)特征。例如,日語(yǔ)、中文、印地語(yǔ)和阿拉伯語(yǔ)等語(yǔ)言具有不同的文字系統(tǒng)和更復(fù)雜的語(yǔ)法系統(tǒng),這使得 MRC 模型難以理解這些語(yǔ)言的文本。
為了解決這些挑戰(zhàn),現(xiàn)有文獻(xiàn)中通常采用基于機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法,將源語(yǔ)言的數(shù)據(jù)集翻譯成目標(biāo)語(yǔ)言進(jìn)行模型訓(xùn)練。然而,在 MRC 任務(wù)中,由于翻譯導(dǎo)致的答案跨度偏移,無(wú)法直接使用源語(yǔ)言的輸出分布來(lái)教導(dǎo)目標(biāo)語(yǔ)言。
因此,本文提出了一種名為 X-STA 的跨語(yǔ)言 MRC 方法,遵循三個(gè)原則:共享、教導(dǎo)和對(duì)齊。共享方面,提出了梯度分解的知識(shí)共享技術(shù),通過(guò)使用平行語(yǔ)言對(duì)作為模型輸入,從源語(yǔ)言中提取知識(shí),增強(qiáng)對(duì)目標(biāo)語(yǔ)言的理解,同時(shí)避免源語(yǔ)言表示的退化。教導(dǎo)方面,本方法利用注意機(jī)制,在目標(biāo)語(yǔ)言的上下文中尋找與源語(yǔ)言輸出答案語(yǔ)義相似的答案跨度,用于校準(zhǔn)輸出答案。對(duì)齊方面,多層次的對(duì)齊被利用來(lái)進(jìn)一步增強(qiáng) MRC 模型的跨語(yǔ)言傳遞能力。通過(guò)知識(shí)共享、教導(dǎo)和多層次對(duì)齊,本方法可以增強(qiáng)模型對(duì)不同語(yǔ)言的語(yǔ)言理解能力。
算法概述
X-STA 模型框架圖如下所示:
具體流程如下:
先將源語(yǔ)言的目標(biāo)數(shù)據(jù)翻譯到各個(gè)目標(biāo)語(yǔ)言,目標(biāo)語(yǔ)言的測(cè)試數(shù)據(jù)也翻譯回源語(yǔ)言。
每項(xiàng)數(shù)據(jù)包含問(wèn)題 Q 和上下文段落 C。
構(gòu)建并行語(yǔ)言對(duì) ={源語(yǔ)言訓(xùn)練數(shù)據(jù),目標(biāo)語(yǔ)言訓(xùn)練數(shù)據(jù)} 送入模型并使用反向傳播進(jìn)行模型訓(xùn)練。
將并行語(yǔ)言對(duì) ={源語(yǔ)言測(cè)試數(shù)據(jù),目標(biāo)語(yǔ)言測(cè)試數(shù)據(jù)} 送入模型獲取答案的預(yù)測(cè)。
算法精度評(píng)測(cè)
為了驗(yàn)證 X-STA 算法的有效性,我們?cè)谌齻€(gè)跨語(yǔ)言 MRC 數(shù)據(jù)集上進(jìn)行了測(cè)試,效果證明 X-STA 對(duì)精度提升明顯:
我們也對(duì)算法的模塊進(jìn)行了詳細(xì)有效性分析,我們可以發(fā)現(xiàn)各模塊均對(duì)模型有一定貢獻(xiàn)。
為了更好地服務(wù)開(kāi)源社區(qū),這一算法的源代碼即將貢獻(xiàn)在自然語(yǔ)言處理算法框架 EasyNLP 中,歡迎 NLP 從業(yè)人員和研究者使用。
-
算法
+關(guān)注
關(guān)注
23文章
4710瀏覽量
95405 -
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249596 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25453 -
阿里云
+關(guān)注
關(guān)注
3文章
1014瀏覽量
44193 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
628瀏覽量
14164
原文標(biāo)題:基于知識(shí)遷移的跨語(yǔ)言機(jī)器閱讀理解算法
文章出處:【微信號(hào):OSC開(kāi)源社區(qū),微信公眾號(hào):OSC開(kāi)源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
機(jī)器翻譯三大核心技術(shù)原理 | AI知識(shí)科普
機(jī)器翻譯三大核心技術(shù)原理 | AI知識(shí)科普 2
神經(jīng)機(jī)器翻譯的方法有哪些?
阿里巴巴機(jī)器翻譯在跨境電商場(chǎng)景下的應(yīng)用和實(shí)踐

換個(gè)角度來(lái)聊機(jī)器翻譯

科大訊飛機(jī)器翻譯首次達(dá)到專業(yè)譯員水平 機(jī)器閱讀超越人類平均水平
機(jī)器翻譯走紅的背后是什么
MIT和谷歌開(kāi)發(fā)失傳語(yǔ)言的機(jī)器翻譯系統(tǒng)
未來(lái)機(jī)器翻譯會(huì)取代人工翻譯嗎
多語(yǔ)言翻譯新范式的工作:機(jī)器翻譯界的BERT

基于短語(yǔ)的漢語(yǔ)維吾爾語(yǔ)機(jī)器翻譯系統(tǒng)
基于DNN與規(guī)則學(xué)習(xí)的機(jī)器翻譯算法綜述
借助機(jī)器翻譯來(lái)生成偽視覺(jué)-目標(biāo)語(yǔ)言對(duì)進(jìn)行跨語(yǔ)言遷移
大語(yǔ)言模型的多語(yǔ)言機(jī)器翻譯能力分析

機(jī)器翻譯研究進(jìn)展

評(píng)論