色五月激情丁香综合,成人77999精品,加勒比中文字幕一区二区三区四区w

作者：cola

自訓(xùn)練已被證明是一種有效的針對跨域任務(wù)的方法。傳統(tǒng)的自訓(xùn)練方法依賴于有限且低質(zhì)量的源語料庫。為克服這一限制，本文提出用大型語言模型(LLM)增強(qiáng)自訓(xùn)練，以迭代地生成特定領(lǐng)域的語料庫。并針對句法成分解析，引入了指導(dǎo)LLM生成源語料庫的語法規(guī)則，建立了選擇偽實(shí)例的標(biāo)準(zhǔn)。

背景介紹

成分解析作為NLP中的一項(xiàng)基本任務(wù)，已經(jīng)在領(lǐng)內(nèi)基準(zhǔn)上取得了顯著的進(jìn)展，這表明解析器在捕獲底層語法結(jié)構(gòu)方面的能力日益增強(qiáng)。然而，開放域句法成分解析具仍具有挑戰(zhàn)。在不同的開放域中，成分解析面臨的復(fù)雜性超出了定義明確的任務(wù)。解決這些挑戰(zhàn)對于其現(xiàn)實(shí)世界的NLP應(yīng)用至關(guān)重要。

為了解決域偏移問題，基于自訓(xùn)練的無監(jiān)督域適應(yīng)已經(jīng)成為一種有效的方法。例如在每次迭代過程中利用源域模型自動(dòng)標(biāo)注來自目標(biāo)域的大規(guī)模源語料，然后選擇置信度高的偽數(shù)據(jù)作為額外的訓(xùn)練數(shù)據(jù)，以提高目標(biāo)域性能。然而，在低資源領(lǐng)域，源語料庫的質(zhì)量和數(shù)量往往無法保證，這限制了自訓(xùn)練方法的使用。而LLM具有強(qiáng)大的生成能力，可以作為解決目標(biāo)域源語料庫數(shù)量和質(zhì)量挑戰(zhàn)的潛在解決方案。

在生成句子時(shí)解決LLM的靈活性和幻覺問題面臨挑戰(zhàn)，我們采用語法規(guī)則作為LLM生成目標(biāo)域句子的指令。語法規(guī)則與句法成分解析密切相關(guān)。

方法

采用伯克利神經(jīng)解析器（Berkeley Neural Parser）作為方法的基礎(chǔ)。該解析器是一種基于圖表的方法，采用自注意力編碼器和圖表解碼器，利用預(yù)訓(xùn)練的嵌入作為輸入來增強(qiáng)解析過程。由于融合了預(yù)訓(xùn)練語言模型，伯克利神經(jīng)解析器天生具有跨域句法分析能力。這使得解析器可以在源域上進(jìn)行訓(xùn)練，可直接應(yīng)用于目標(biāo)域。

自訓(xùn)練

自訓(xùn)練的主要目標(biāo)是為目標(biāo)域生成高質(zhì)量的訓(xùn)練實(shí)例，然后使用這些實(shí)例訓(xùn)練目標(biāo)域模型。具體來說，在基礎(chǔ)方法的每次迭代中，都進(jìn)行了三個(gè)主要步驟:

訓(xùn)練解析器:使用源域成分樹訓(xùn)練伯克利神經(jīng)解析器。

解析源語料庫:用訓(xùn)練好的模型來解析來自目標(biāo)域的源文本，生成解析樹，作為下一步的候選偽樹。

偽數(shù)據(jù)選擇:選擇高置信度的偽樹作為額外的訓(xùn)練實(shí)例，然后用于增強(qiáng)模型在目標(biāo)域上的性能。

通過迭代地重復(fù)這些步驟，自訓(xùn)練方法使解析器適應(yīng)目標(biāo)域，利用源注釋樹生成高質(zhì)量的偽樹。

LLM增強(qiáng)自訓(xùn)練

如圖2所示，動(dòng)態(tài)嵌入LLM作為迭代自訓(xùn)練過程中的一個(gè)關(guān)鍵組件。在每次迭代中，我們基于上一步更新的樹，利用LLM為目標(biāo)域生成源語料庫。語法規(guī)則(GRs)從樹中提取，對指導(dǎo)目標(biāo)域源語料的LLMs生成起著至關(guān)重要的作用。

在每次迭代中，LLM增強(qiáng)的自訓(xùn)練句法成分解析可劃分為6個(gè)詳細(xì)步驟:

LLM生成：利用LLM為目標(biāo)域生成一個(gè)源語料庫。

解析訓(xùn)練：用源樹庫和目標(biāo)域選擇的偽樹來訓(xùn)練成分解析器。初始化時(shí)，偽樹為空，解析器僅在源域數(shù)據(jù)上進(jìn)行訓(xùn)練。

域解析：我們用訓(xùn)練過的解析器來解析生成的源語料庫，產(chǎn)生一組候選解析樹。

樹的選擇：從生成的解析樹中,選擇一個(gè)高質(zhì)量解析樹的子集來組成偽樹庫。

更新樹庫：通過添加選定的偽樹庫來更新源樹庫。

GRs抽?。簭母碌臉鋷熘谐槿≌Z法規(guī)則。

LLM增強(qiáng)的自訓(xùn)練過程不斷迭代，直到收斂。

實(shí)例選擇

本文提出了一種基于語法規(guī)則的偽數(shù)據(jù)選擇準(zhǔn)則。與之前僅關(guān)注任務(wù)的自訓(xùn)練選擇標(biāo)準(zhǔn)不同，該標(biāo)準(zhǔn)同時(shí)考慮了任務(wù)和LLM 生成語料庫的特征，確保所選擇的偽數(shù)據(jù)適用于使用自訓(xùn)練的跨域解析。

給定源集和候選實(shí)例(候選集)，與之間的距離為:然后，在自訓(xùn)練過程中選擇最接近源域集的前個(gè)候選集作為額外的訓(xùn)練實(shí)例。距離計(jì)算可以在token級進(jìn)行，也可以在語法規(guī)則級進(jìn)行，通過調(diào)整集合來分別表示token分布和語法規(guī)則分布。實(shí)例選擇過程包含三個(gè)層次的標(biāo)準(zhǔn):token、置信度和語法規(guī)則。并結(jié)合兩個(gè)表現(xiàn)最好的標(biāo)準(zhǔn)，即基于置信度的選擇和基于語法規(guī)則的選擇，從而產(chǎn)生了一個(gè)更有效的標(biāo)準(zhǔn)，用于識(shí)別高質(zhì)量實(shí)例以適應(yīng)目標(biāo)領(lǐng)域。

LLM提示

為了生成包含全面結(jié)構(gòu)信息并與目標(biāo)域句子風(fēng)格密切相似的句子，本文提出了一個(gè)融合語法規(guī)則和目標(biāo)域示例的LLM提示。在生成過程中，我們需要準(zhǔn)備以下參數(shù):1)從樹庫中提取的條語法規(guī)則，2)從目標(biāo)領(lǐng)域中采樣的個(gè)句子，3)生成句子的長度約束。

通過從樹庫句子長度的分布中采樣來確定的值，并從中提取語法規(guī)則。注意，語法規(guī)則是直接從成分樹中提取的，其中父節(jié)點(diǎn)對應(yīng)于語法規(guī)則的左側(cè)，所有子節(jié)點(diǎn)對應(yīng)于右側(cè)尾部。例如，如果樹庫是源域數(shù)據(jù)PTB，我們?yōu)槠骄L度引入高斯分布，記為，以獲得條語法規(guī)則。

我們抽取了5個(gè)目標(biāo)域句子。由于生成的句子的長度與語法規(guī)則數(shù)量密切相關(guān)，因此使用另一種正態(tài)分布來采樣兩個(gè)值和，這兩個(gè)值定義了生成句子的長度限制。圖3給出了一個(gè)具體的例子：

實(shí)驗(yàn)

數(shù)據(jù)：PTB-源數(shù)據(jù)，MCTB-目標(biāo)數(shù)據(jù)。

主要結(jié)果

為方便起見，主要的對比實(shí)驗(yàn)采用bert-base-uncased進(jìn)行，僅在bert-large-uncased上進(jìn)行比較。表1報(bào)告了句法成分解析器在五個(gè)目標(biāo)域上的性能。

分析

實(shí)例選擇策略

首先研究了每次迭代的四種不同的選擇策略:基于Token的、基于Conf的、基于GRs的和基于GRsConf的。圖4中的折線圖分為兩個(gè)部分，說明了基本的和LLM增強(qiáng)的自訓(xùn)練成分解析在迭代期間的解析器性能。從圖中可知，對于基礎(chǔ)的方法，除GRsConf外，所有策略的性能都呈現(xiàn)出先上升后下降的趨勢。這種趨勢表明，經(jīng)過幾次迭代后，候選數(shù)據(jù)的特征偏差越來越大，越來越不適合域遷移。在評論領(lǐng)域，使用GRsConf選擇的偽數(shù)據(jù)進(jìn)行自訓(xùn)練取得了最好的性能。

相比之下，LLM增強(qiáng)的自訓(xùn)練對所有選擇策略都表現(xiàn)出一致的上升趨勢，這表明所選擇的數(shù)據(jù)是高質(zhì)量的，適應(yīng)過程是漸進(jìn)的。這一結(jié)果突出了將LLM納入自訓(xùn)練迭代過程的可行性和有效性，實(shí)現(xiàn)了從源域到目標(biāo)域的更細(xì)粒度的遷移。

來自GRsConf的偽數(shù)據(jù)

在基于LLM增強(qiáng)自訓(xùn)練的跨域句法成分解析中，性能提升的關(guān)鍵在于所選擇的偽數(shù)據(jù)是否逐漸向目標(biāo)域靠攏。LLM生成過程和選擇策略從兩個(gè)相反的方向指導(dǎo)迭代:LLM生成的原始文本逐步向目標(biāo)域偏移，而選擇標(biāo)準(zhǔn)旨在確保偽數(shù)據(jù)保持接近源域。因此，我們分析了評論域的最佳選擇策略GRsConf，并考察了每次迭代中所選擇的偽數(shù)據(jù)的分布。同時(shí)，使用GRs的JS散度來測量所選偽數(shù)據(jù)與源域和目標(biāo)域之間的距離。如圖5所示，所選偽數(shù)據(jù)與源域的距離逐漸增大，而與目標(biāo)域的距離逐漸減小。趨勢表明，域遷移在第一次迭代中是最小的，在第二次和第三次迭代中發(fā)生了更多的適應(yīng)，并最終在第四次迭代中穩(wěn)定下來。這種距離的演化趨勢表明領(lǐng)域遷移過程是漸進(jìn)的，印證了GRsConf選擇策略結(jié)合LLM增強(qiáng)自訓(xùn)練的跨域句法解析方法的有效性。

目標(biāo)句的影響

采用基于GRsConf的偽數(shù)據(jù)選擇方法在評論領(lǐng)域進(jìn)行了對比實(shí)驗(yàn)。如表2所示，可以得出結(jié)論，句子的數(shù)量不會(huì)顯著影響最終的目標(biāo)域解析器。

GRs的影響

此外，我們用5個(gè)目標(biāo)域句子建立了LLM生成過程，省去了語法規(guī)則的引入。從表3所示的實(shí)驗(yàn)結(jié)果可以看出，在沒有語法規(guī)則的情況下，解析器的性能要低于標(biāo)準(zhǔn)的LLM增強(qiáng)的自訓(xùn)練方法。這表明，用語法規(guī)則約束LLM的生成是一個(gè)合理的選擇。

總結(jié)

提出了一種用于句法成分解析中的跨域自適應(yīng)的增強(qiáng)自訓(xùn)練方法。通過利用LLM的生成并將其整合到自訓(xùn)練過程中，該方法大大提高了跨域的成分解析性能。并有效地將高置信度選擇標(biāo)準(zhǔn)與基于語法規(guī)則的選擇相結(jié)合，逐步使訓(xùn)練數(shù)據(jù)更接近目標(biāo)域。

編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
561

瀏覽量
10726
語法

語法

+關(guān)注

關(guān)注
0

文章
44

瀏覽量
10124
LLM

LLM

+關(guān)注

關(guān)注
1

文章
323

瀏覽量
765

原文標(biāo)題：EMNLP2023 | LLM作用下的成分句法分析基礎(chǔ)研究

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

LLM作用下的成分句法分析基礎(chǔ)研究

評論