資料介紹
在基于實(shí)例的機(jī)器翻譯中,句子相似度計(jì)算是實(shí)例匹配的有效機(jī)制。該文對(duì)基于相同詞的句子相似模型作進(jìn)一步的改進(jìn),包括關(guān)鍵詞抽取,以及在句子相似度的定義中引入同義詞的情形。實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法比原方法具有較高的準(zhǔn)確率。
關(guān) 鍵 詞 自然語(yǔ)言處理; 基于實(shí)例的機(jī)器翻譯; 句子相似度; 基于詞
基于實(shí)例的機(jī)器翻譯(Example Based Machine Translation,EBMT)是以雙語(yǔ)對(duì)齊的實(shí)例庫(kù)為主要知識(shí)源,輸入一個(gè)待翻譯的源語(yǔ)言句子,從實(shí)例庫(kù)中查找與輸入句最相似的例句,再模仿例句的譯文來(lái)實(shí)現(xiàn)輸入句的翻譯。在EBMT中,實(shí)例匹配是關(guān)鍵,直接關(guān)系到系統(tǒng)本身的翻譯質(zhì)量。實(shí)現(xiàn)實(shí)例匹配的有效機(jī)制是進(jìn)行句子相似度計(jì)算[1-2],目前主要有基于詞[3-5]和基于句法語(yǔ)義分析[6-7]的兩類(lèi)方法。兩類(lèi)方法各有優(yōu)缺點(diǎn),基于詞的方法簡(jiǎn)單、流行,但由于僅利用句子的表層信息,即組成句子的有關(guān)詞匯的詞法和語(yǔ)義信息,因此,在判斷句子整體結(jié)構(gòu)相似方面有欠缺;基于句法語(yǔ)義分析的方法折衷考慮句子的組成詞匯語(yǔ)義信息與整體框架結(jié)構(gòu)信息,但在折衷考慮的層次上較難把握。本文研究基于詞的句子相似度計(jì)算問(wèn)題,并在文獻(xiàn)[5]的基礎(chǔ)上提出了一種改進(jìn)的方法。
1 基于詞的句子相似度計(jì)算
基于詞的方法是目前最簡(jiǎn)單、最流行的方法,依據(jù)詞的形態(tài)變化、同義詞、反義詞以及更進(jìn)一步的語(yǔ)義距離來(lái)判斷孤立詞之間的相似度,再通過(guò)這種詞間相似度的不同組合來(lái)確定句子間的相似度。文獻(xiàn)[3]利用同義詞表計(jì)算兩句詞之間的語(yǔ)義距離,進(jìn)而計(jì)算兩句之間的相似度。文獻(xiàn)[4]通過(guò)正反雙向比較兩句相同詞的個(gè)數(shù)及其位置關(guān)系,得到一個(gè)轉(zhuǎn)換表達(dá)式和子塊庫(kù),再通過(guò)系統(tǒng)預(yù)定義的翻譯模式和限制條件實(shí)現(xiàn)兩句相似度的計(jì)算。文獻(xiàn)[5]通過(guò)比較兩句相同詞的個(gè)數(shù)及其位置關(guān)系,得到兩句的詞形相似度和詞序相似度,再通過(guò)詞形相似度和詞序相似度計(jì)算兩句的相似度。
文獻(xiàn)[4-5]采用的方法實(shí)質(zhì)上是相同的,均通過(guò)比較相同詞的個(gè)數(shù)及其位置關(guān)系來(lái)計(jì)算兩句的相似度。但在相似度的定義中,僅考慮了形態(tài)上相同的詞,而沒(méi)有考慮同義詞的情形。例如,對(duì)兩個(gè)簡(jiǎn)單的句子“我/ 是/ 老師/ 。/”與“他/ 為/ 學(xué)生/。/”,按照文獻(xiàn)[5]中的方法計(jì)算則相似度很低(只有0.1),實(shí)際上這兩句是比較相似的。究其原因,主要是沒(méi)有考慮兩句中的同義詞“是”和“為”。另外,也沒(méi)有考慮任何句法結(jié)構(gòu)信息。因此,在算法實(shí)現(xiàn)上雖然較為簡(jiǎn)單,但準(zhǔn)確率卻不高?;谠~的方法依據(jù)句子的表層信息,通過(guò)對(duì)這些表層信息的加工也可以獲得一些有用的句法結(jié)構(gòu)信息,如抽取一些能夠近似表達(dá)部分句法結(jié)構(gòu)信息的關(guān)鍵性的詞(以下簡(jiǎn)稱(chēng)關(guān)鍵詞)。在此基礎(chǔ)上進(jìn)行句子相似度計(jì)算,就會(huì)具有較高的準(zhǔn)確率。本文針對(duì)以上兩點(diǎn)作了進(jìn)一步的改進(jìn)。
2 一種改進(jìn)的方法
本文對(duì)文獻(xiàn)[5]中的句子相似模型作了進(jìn)一步改進(jìn),包括關(guān)鍵詞抽取,以及在句子相似度的定義中考慮同義詞的情形。令inp為待翻譯的輸入句,exa為對(duì)應(yīng)的m個(gè)例句中的一個(gè),先分別抽取inp和exa中所有的名詞、代詞、動(dòng)詞或形容詞,并組成相應(yīng)的關(guān)鍵詞序列,再求出inp和exa中關(guān)鍵詞序列的相似度,最后選取大于規(guī)定閾值的最大相似度例句作為輸入句的最相似例句。
2.1 關(guān)鍵詞抽取
由語(yǔ)言學(xué)知識(shí)可知,任何句子都是由關(guān)鍵成分(主、謂、賓等)和修飾成分(定、狀、補(bǔ)等)構(gòu)成的。關(guān)鍵成分對(duì)句子起主要作用,修飾成分對(duì)句子起次要作用。進(jìn)行句子相似度計(jì)算時(shí),只要考慮句中的關(guān)鍵成分。基于詞的方法不考慮句法結(jié)構(gòu)分析,因此,不能確定句子的內(nèi)部成分,包括關(guān)鍵成分和修飾成分。在通常情況下,一個(gè)句子中作主語(yǔ)和賓語(yǔ)的多為名詞或代詞,作謂語(yǔ)的多為動(dòng)詞或形容詞。因此,可以將一個(gè)句子中的所有名詞、代詞、動(dòng)詞和形容詞作為關(guān)鍵詞,并在計(jì)算句子相似度時(shí)只考慮這些關(guān)鍵詞。例如,句子“我/ 當(dāng)然/ 愿意/ 了解/ 她們/ 的/ 要求/ 。/”的關(guān)鍵詞序列為 “我/ 愿意/ 了解/ 她們/ 要求/ 。/”。對(duì)于特定句中的某個(gè)名詞、代詞、動(dòng)詞或形容詞,不一定就是該句中的主語(yǔ)、賓語(yǔ)或謂語(yǔ)成分,但相對(duì)于句中所有的詞構(gòu)成的詞序列而言,關(guān)鍵詞序列卻具有一定的句法結(jié)構(gòu)信息表達(dá)能力,至少可以了解句子中的哪些詞在組成句子框架結(jié)構(gòu)方面是比較重要的。在此基礎(chǔ)上進(jìn)行相似度計(jì)算,比一般基于詞的方法準(zhǔn)確一些。
- 基于概率分布函數(shù)的流程工廠(chǎng)模型拓?fù)?b class="flag-6" style="color: red">相似度計(jì)算 5次下載
- 基于卷積神經(jīng)網(wǎng)絡(luò)的相似度計(jì)算模型 19次下載
- 基于時(shí)空分析的交通路口相似度計(jì)算方法 5次下載
- 一種結(jié)合相對(duì)信息熵的改進(jìn)LEACH協(xié)議 13次下載
- 一種車(chē)輛霧計(jì)算停車(chē)輔助系統(tǒng)模型 10次下載
- 針對(duì)協(xié)同過(guò)濾推薦算法的相似度計(jì)算方法 6次下載
- 一種用于釋義識(shí)別的句子相似度算法 8次下載
- 基于圖集成模型的自動(dòng)摘要生產(chǎn)方法 10次下載
- 一種改進(jìn)的聚類(lèi)聯(lián)合相似度推薦算法 10次下載
- 如何使用區(qū)域相似度實(shí)現(xiàn)局部擬合活動(dòng)輪廓模型 2次下載
- 一種改進(jìn)的時(shí)序效應(yīng)的推薦模型 0次下載
- 基于分層組合模式的句子組合模型 0次下載
- 一中余弦相似度的改進(jìn)方法 0次下載
- 一種基于本體的概念相似度計(jì)算及其應(yīng)用_冉婕 0次下載
- 協(xié)同推薦系統(tǒng)檢測(cè)模型的一種優(yōu)化方法
- 一種新的通用視覺(jué)主干模型Vision Mamba 118次閱讀
- 一種新型的雙流注意力增強(qiáng)型BERT來(lái)提高捕捉句子對(duì)中細(xì)微差異的能力 1572次閱讀
- FLAT的一種改進(jìn)方案 1779次閱讀
- 一種采用微控制器的自動(dòng)模型鐵路布局項(xiàng)目 1586次閱讀
- 如何實(shí)現(xiàn)三維模型對(duì)比?比較3d模型相似度軟件浩辰3D軟件入門(mén)教程 1w次閱讀
- 腦機(jī)接口最新研究能將神經(jīng)信號(hào)直接映射為句子 3077次閱讀
- 人工智能是一種改進(jìn)數(shù)據(jù)控制和處理的方法 3165次閱讀
- 復(fù)合模型擴(kuò)展:一種更好的擴(kuò)展CNN的方法 3874次閱讀
- 【新專(zhuān)利介紹】一種改進(jìn)電表 1314次閱讀
- 一種可以超越傳統(tǒng)方法捕捉微小的面部表情,并更好的測(cè)量人類(lèi)情緒的機(jī)器學(xué)習(xí)模型 3853次閱讀
- 計(jì)算文本相似度幾種最常用的方法,并比較它們之間的性能 5.3w次閱讀
- 一種分?jǐn)?shù)階Bingham磁流變阻尼器力學(xué)模型 4658次閱讀
- 深度學(xué)習(xí)模型介紹,Attention機(jī)制和其它改進(jìn) 1.8w次閱讀
- 一種基于Diakoptics的計(jì)算微波電路的設(shè)計(jì)和實(shí)現(xiàn) 1243次閱讀
- 云計(jì)算的三種服務(wù)模式和四種部署模型 3115次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費(fèi)下載
- 0.00 MB | 1490次下載 | 免費(fèi)
- 2單片機(jī)典型實(shí)例介紹
- 18.19 MB | 93次下載 | 1 積分
- 3S7-200PLC編程實(shí)例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識(shí)別和講解說(shuō)明
- 4.28 MB | 18次下載 | 4 積分
- 5開(kāi)關(guān)電源原理及各功能電路詳解
- 0.38 MB | 11次下載 | 免費(fèi)
- 6100W短波放大電路圖
- 0.05 MB | 4次下載 | 3 積分
- 7基于A(yíng)T89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
- 0.11 MB | 4次下載 | 免費(fèi)
- 8基于單片機(jī)的紅外風(fēng)扇遙控
- 0.23 MB | 3次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費(fèi)
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費(fèi)
- 4LabView 8.0 專(zhuān)業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費(fèi)
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費(fèi)
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費(fèi)
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費(fèi)
- 8開(kāi)關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21539次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191183次下載 | 免費(fèi)
- 7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183277次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138039次下載 | 免費(fèi)
評(píng)論