一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Multilingual多語言預(yù)訓(xùn)練語言模型的套路

深度學(xué)習(xí)自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-05-05 15:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Multilingual是NLP中的研究熱點之一,其中的一個研究方向是如何構(gòu)建多語言預(yù)訓(xùn)練語言模型,實現(xiàn)不同語言的在隱空間的對齊,一個模型支持多語種的NLP任務(wù),同時利用數(shù)據(jù)豐富的語言提升數(shù)據(jù)較少的語言效果。這篇文章就為大家整理了Multilingual多語言預(yù)訓(xùn)練語言模型的套路,包括XLM、XLM-R、ERNIE-M、Unicoder、ALM等5個經(jīng)典模型,以及這些模型之間的演進關(guān)系。

1XLM:多語言預(yù)訓(xùn)練的起點

隨著BERT、GPT預(yù)訓(xùn)練語言模型的興起,這些方法也被自然而然的用在了多語言預(yù)訓(xùn)練任務(wù)上。通過在BERT、GPT等成熟的NLP模型結(jié)構(gòu)上同時學(xué)習(xí)多個語言的語料,并設(shè)計多語言對齊任務(wù),實現(xiàn)了Multilingual預(yù)訓(xùn)練語言模型,應(yīng)用到下游各種語言的任務(wù)中。

Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練多語言模型,整體思路基于BERT,并提出了針對多語言預(yù)訓(xùn)練的3個優(yōu)化任務(wù)。后續(xù)很多多語言預(yù)訓(xùn)練工作都建立在XLM的基礎(chǔ)上,我們來詳細看看XLM的整體訓(xùn)練過程。

首先,需要構(gòu)造一個多語言的vocabulary list。XLM讓所有語言共用同一個詞表,利用Byte Pair Encoding (BPE)的方法從所有語言中采樣文本構(gòu)造詞典。為了提升low-resource語言采樣比例,緩解預(yù)訓(xùn)練模型偏向high-resource語言,在采樣過程中會對各個語言采樣比例做一定的矯正。通過多種語言共用一個BPE詞表的方法,便于不同語言的token embedding在隱空間對齊,也能提取到不同語言共用的token。

模型預(yù)訓(xùn)練主要包括兩個任務(wù),分別是MLM和TLM。其中MLM和BERT中采用的方式類似,mask部分token進行預(yù)測。TLM是Translation Language Model,這個任務(wù)為了引入多語言的對齊關(guān)系,將兩種語言的文本拼接到一起采用mask token的方式預(yù)測。這樣在預(yù)測過程中,既可以根據(jù)本語言的信息預(yù)測,也可以根據(jù)另一種語言的信息預(yù)測。此外,XLM引入了language embedding,用來標明每個位置上的token屬于哪個語言。XLM的兩個預(yù)訓(xùn)練任務(wù)如下圖所示。

04e82eea-cbbd-11ec-bce3-dac502259ad0.png

2XLM-R:更細致的XLM

Unsupervised cross-lingual representation learning at scale(ACL 2019)在XLM的基礎(chǔ)上進一步分析了影響多語言預(yù)訓(xùn)練模型效果的因素,提出在100多種語言上預(yù)訓(xùn)練得到的XLM-R模型。下面列舉了本文中的核心實驗結(jié)論,揭示了不同的多語言訓(xùn)練方式對效果的影響。

圖2顯示了隨著預(yù)訓(xùn)練過程引入語言種類的變化,low resource語言的效果先上升后下降。這是因為在模型capacity一定的情況下,引入多種語言一方面會讓low resource語言獲得可遷移的知識,另一方面過多的語言也稀釋了模型的capacity,每種語言能夠使用的capacity減少,導(dǎo)致效果下降。而high resource語言的效果隨著引入語言數(shù)量的增加是持續(xù)下降的。圖4顯示,增加模型尺寸可以緩解多語言稀釋capacity的問題(7種語言和30種語言效果對比),但是引入100種語言后即使增加模型尺寸效果仍然不佳。

圖5展示了不同語言采樣權(quán)重變化的效果影響,low resource和high resource語言之間存在一定的矛盾性,因此隨著采樣偏向于high resource語言,low resource語言的效果越來越差。圖6則展示了詞典尺寸大小對效果的影響,詞典尺寸增大,對應(yīng)embedding層尺寸增加,可以比較明顯的提升多語言預(yù)訓(xùn)練模型效果。

051388ba-cbbd-11ec-bce3-dac502259ad0.png

基于以上這些實驗的分析,作者提出了基于RoBerta的XLM-R,在100余種語言、2.5T的數(shù)據(jù)上預(yù)訓(xùn)練,取得了在XNLI數(shù)據(jù)集上相比基礎(chǔ)版XLM模型15%的效果提升。相比于XLM,XLM-R最大的區(qū)別之一是沒有使用TLM這個預(yù)訓(xùn)練任務(wù),所有預(yù)訓(xùn)練數(shù)據(jù)都是單語言的,不包括兩個語言對齊的數(shù)據(jù)。

3ERINE-M:回譯的引入

ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora(EMNLP 2019)基于XLM-R提出了ERNIE-M模型,主要是在MMLM、TLM兩個任務(wù)以外,新引入了CAMLM(Cross-attention Masked Language Modeling)和BTMLM(Back-translation Masked Language Modeling)兩個額外的任務(wù)。其中CAMLM任務(wù)和TLM任務(wù)類似,都是用翻譯文本對作為輸入,預(yù)測被mask的token,區(qū)別在于TLM在預(yù)測一個mask token時可以同時參考兩種語言的所有信息,而CAMLM在預(yù)測source句子中被mask的token時,只能使用target句子的信息;在預(yù)測target句子中被mask的token時,只能使用source句子的信息。實現(xiàn)上做了一個mask的操作,強制讓模型只能用另一種語言的context預(yù)測本語言的mask token,提升模型的多語言對齊能力。CAMLM和MMLM、TLM等任務(wù)的區(qū)別如下圖所示。

0537bff0-cbbd-11ec-bce3-dac502259ad0.png

0551fa5a-cbbd-11ec-bce3-dac502259ad0.png

不論是TLM還是CAMLM,都需要使用parallel的句子,如果可用的parallel數(shù)據(jù)較少,就會影響對齊效果。因此,文中提出了第二個任務(wù)BTMLM,利用CAMLM學(xué)到的多語言之間的對齊關(guān)系,將回譯任務(wù)融入到預(yù)訓(xùn)練中。核心思路是,使用CAMLM預(yù)訓(xùn)練好的模型,根據(jù)單語言語料生成另一種語言的偽數(shù)據(jù),利用這個偽數(shù)據(jù)作為輸入,構(gòu)造parallel句子作為輸入。BTMLM的示意圖如下。第一步將單語言輸入后面接mask,利用CAMLM預(yù)訓(xùn)練多語言模型生成mask部分的token,得到偽樣本(即隱空間中當前樣本在另一種樣本下的翻譯)。接下來,將偽樣本作為輸入,以MLM為目標,同時使用源句子和偽樣本預(yù)測被mask掉的token。這種方式相當于一種數(shù)據(jù)增強手段,通過模型自動生成parallel數(shù)據(jù),緩解了parallel數(shù)據(jù)不足的問題。

0580b502-cbbd-11ec-bce3-dac502259ad0.png

4Unicoder:多語言對齊任務(wù)的優(yōu)化

Unicoder: A Universal Language Encoder by Pre-training with Multiple Crosslingual Tasks(ACL 2019)提出了多語言預(yù)訓(xùn)練模型Unicoder。在XLM中,模型的訓(xùn)練任務(wù)主要是單語言的,Unicoder提出了3種新的多語言對齊任務(wù)來提升預(yù)訓(xùn)練多語言模型效果。

第一個任務(wù)是Cross-lingual Word Recovery,輸入是兩種語言的語句pair對(X,Y),然后利用attention的方法將X用Y表示,再利用這些表示還原X。這其實類似于一個基于attention的翻譯任務(wù),實現(xiàn)了不同語言之間的word alignment。

第二個任務(wù)是Cross-lingual Paraphrase Classification,是一個分類任務(wù)。輸入同樣是兩個語言的句子對,預(yù)測這兩個句子是否表達的是同一個含義。數(shù)據(jù)集的構(gòu)造方法上,正樣本采用機器翻譯數(shù)據(jù)集的數(shù)據(jù)構(gòu)造正樣本。為了構(gòu)造hard負樣本,即語義在一定程度上相似但不是互為翻譯的文本對,作者采用了Effective Parallel Corpus Mining using Bilingual Sentence Embeddings(2018)提出的hard negatives構(gòu)造方法。先使用隨機采樣的負樣本構(gòu)造簡單負樣本訓(xùn)練一個baseline模型,再利用這個模型計算當前樣本和所有負樣本相似度,取相似度最高且又不是正樣本的負樣本,作為hard negatives。

第三個任務(wù)是Cross-lingual Masked Language Model,將一些文檔級別翻譯較好的數(shù)據(jù)集的兩種語言進行重組,得到多語言document,在這種多語言document上以Mask Language Model為優(yōu)化目標訓(xùn)練。三種不同的預(yù)訓(xùn)練任務(wù)如下圖所示。

05ae38ba-cbbd-11ec-bce3-dac502259ad0.png

5ALM:樣本構(gòu)造上的創(chuàng)新

Alternating Language Modeling for Cross-Lingual Pre-Training(AAAI 2020)提出一種新的多語言模型預(yù)訓(xùn)練方式。之前的做法如XLM都是將多語言文本對拼接到一起,而本文提出的ALM方法通過將源語言中的部分短語替換成另一種語言,生成了多語言交替的樣本作為訓(xùn)練樣本,以Transformer為基礎(chǔ)在這種樣本上進行Mask Language Model的學(xué)習(xí)。這種方法強制讓每次預(yù)測被mask掉的單詞時,都要參考其他語言的信息,進一步縮小了不同語言在隱空間的距離。

05ed04b4-cbbd-11ec-bce3-dac502259ad0.png

6總結(jié)

以上就是多語言預(yù)訓(xùn)練中5個經(jīng)典模型的介紹。除了本文介紹的預(yù)訓(xùn)練語言模型外,對比學(xué)習(xí)、meta-learning等方法在Multilingual中也有很多應(yīng)用。多語言任務(wù)還是非常重要的,尤其當今很多企業(yè)都展開國際化戰(zhàn)略,拓展海外市場,多語言建模技術(shù)更成為不可缺少的能力。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10791
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25448
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22625

原文標題:Multilingual預(yù)訓(xùn)練的那些套路

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術(shù)細節(jié)。本文主要針對大語言
    的頭像 發(fā)表于 03-21 18:24 ?1684次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    小白學(xué)大模型訓(xùn)練語言模型的深度指南

    在當今人工智能飛速發(fā)展的時代,大型語言模型(LLMs)正以其強大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У?b class='flag-5'>訓(xùn)練大型
    的頭像 發(fā)表于 03-03 11:51 ?734次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的深度指南

    騰訊公布大語言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型訓(xùn)練方法、裝置、計算機設(shè)備及存儲介質(zhì)”的新專利。該專利的公布,標志著騰訊在大語言模型
    的頭像 發(fā)表于 02-10 09:37 ?413次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?527次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-04 11:44 ?702次閱讀

    云端語言模型開發(fā)方法

    云端語言模型的開發(fā)是一個復(fù)雜而系統(tǒng)的過程,涉及數(shù)據(jù)準備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個環(huán)節(jié)。下面,AI部落小編為您分享云端語言
    的頭像 發(fā)表于 12-02 10:48 ?691次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個簡稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

    從零開始訓(xùn)練一個大語言模型需要投資多少錢?

    一,前言 ? 在AI領(lǐng)域,訓(xùn)練一個大型語言模型(LLM)是一個耗時且復(fù)雜的過程。幾乎每個做大型語言模型(LLM)
    的頭像 發(fā)表于 11-08 14:15 ?791次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b>一個大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>需要投資多少錢?

    語言模型如何開發(fā)

    語言模型的開發(fā)是一個復(fù)雜且細致的過程,涵蓋了數(shù)據(jù)準備、模型架構(gòu)設(shè)計、訓(xùn)練、微調(diào)和部署等多個階段。以下是對大語言
    的頭像 發(fā)表于 11-04 10:14 ?605次閱讀

    Llama 3 語言模型應(yīng)用

    理解復(fù)雜的上下文信息,包括對話歷史、用戶偏好和文化差異。這使得它在對話系統(tǒng)和個性化推薦中表現(xiàn)出色。 情感分析 :通過深度學(xué)習(xí)技術(shù),Llama 3 能夠識別和理解文本中的情感傾向,無論是正面的、負面的還是中性的。 多語言支持 :Llama 3 支持多種語言,
    的頭像 發(fā)表于 10-27 14:15 ?740次閱讀

    ChatGPT 的多語言支持特點

    )技術(shù)迎來了巨大的挑戰(zhàn)和機遇。ChatGPT,作為一個領(lǐng)先的語言模型,其多語言支持的特點成為了它在眾多應(yīng)用場景中不可或缺的優(yōu)勢。 1. 多語言理解能力 ChatGPT 的
    的頭像 發(fā)表于 10-25 17:30 ?1519次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語言模型

    ,科大訊飛以其一貫的創(chuàng)新精神,開創(chuàng)性地發(fā)布了星火多語言模型。這一創(chuàng)新之舉不僅進一步鞏固了科大訊飛在中文和英文處理領(lǐng)域的領(lǐng)先地位,更將語言的支持范圍大幅擴展,涵蓋了俄語、日語、阿拉伯語、韓語、法語、西班牙語、葡萄牙語以及
    的頭像 發(fā)表于 10-24 13:58 ?911次閱讀

    谷歌全新推出開放式視覺語言模型PaliGemma

    這種熱烈的反響非常鼓舞人心,開發(fā)者們打造了一系列多樣的項目,例如用于印度語言多語言變體 Navarasa,以及設(shè)備端側(cè)動作模型 Octopus v2。開發(fā)者們展示了 Gemma 在打造極具影響力且易于使用的 AI 解決方案方面
    的頭像 發(fā)表于 10-15 17:37 ?743次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量無標簽文本數(shù)據(jù)上學(xué)習(xí)
    發(fā)表于 08-02 11:03

    Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

    Mistral AI 和 NVIDIA 于近日共同發(fā)布了一款全新的領(lǐng)先語言模型Mistral NeMo 12B。開發(fā)者可以輕松定制和部署該模型,令其適用于支持聊天機器人、多語言任務(wù)、編
    的頭像 發(fā)表于 07-27 11:04 ?1160次閱讀