一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中文分詞在2007-2017十年間的技術(shù)進展

nlfO_thejiangme ? 來源:lq ? 2019-02-11 11:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文回顧了中文分詞在2007-2017十年間的技術(shù)進展,尤其是自深度學(xué)習(xí)滲透到自然語言處理以來的主要工作。我們的基本結(jié)論是,中文分詞的監(jiān)督機器學(xué)習(xí)方法在從非神經(jīng)網(wǎng)絡(luò)方法到神經(jīng)網(wǎng)絡(luò)方法的遷移中尚未展示出明顯的技術(shù)優(yōu)勢。中文分詞的機器學(xué)習(xí)模型的構(gòu)建,依然需要平衡考慮已知詞和未登錄詞的識別問題。

盡管迄今為止深度學(xué)習(xí)應(yīng)用于中文分詞尚未能全面超越傳統(tǒng)的機器學(xué)習(xí)方法,我們審慎推測,由于人工智能聯(lián)結(jié)主義基礎(chǔ)下的神經(jīng)網(wǎng)絡(luò)模型有潛力契合自然語言的內(nèi)在結(jié)構(gòu)分解方式,從而有效建模,或能在不遠將來展示新的技術(shù)進步成果。

1

背景

中文分詞是中文信息處理的一個基礎(chǔ)任務(wù)和研究方向。十年前,黃和趙(2007)接受《中文信息學(xué)報》委托,針對自20世紀末以來的中文分詞的機器學(xué)習(xí)方法做了十年回顧,發(fā)表了《中文分詞十年回顧》一文。 該文的基本結(jié)論是中文分詞的統(tǒng)計機器學(xué)習(xí)方法優(yōu)于傳統(tǒng)的規(guī)則方法,尤其在未登錄詞(out-of-vocabulary words, OOV)即訓(xùn)練集之中未出現(xiàn)的詞的識別上,具有無可比擬的優(yōu)勢。這一基本結(jié)論隨后得到全面證實?,F(xiàn)在10年過去,截至2017年3月, Google Scholar顯示該文被引用166次,而中國知網(wǎng)記錄其引用為483次。

今天看來,使用機器學(xué)習(xí)方法在具有切分標記的分詞語料上學(xué)習(xí)或訓(xùn)練出高效能中文分詞器是自然而然的想法,然而十年前的情形大不相同。首先,直到20世紀的最后十年,中文信息處理界才意識到分詞可以作為真實標注語料上的機器學(xué)習(xí)任務(wù)進行操作。其次,充足的語料準備也并非一蹴而就。兩個早期的語料來自賓州大學(xué)中文樹庫(Chinese Penn Treebank, CTB) 和北京大學(xué)計算語言所標注的人民日報語料。在各類切分語料齊備的基礎(chǔ)上, SIGHAN才得以組織第一次國際性的中文分詞評測SIGHANBakeoff-2003。

語料準備之外,還有兩個歷史性的因素,遲滯了中文分詞這一中文信息處理基礎(chǔ)子任務(wù)走向徹底的機器學(xué)習(xí)。其一,長期以來,中文分詞的經(jīng)典方法,即最大匹配算法,在合適的詞典搭配下,通常能夠取得一定程度上頗可接受的性能。以F值度量,最大匹配分詞一般情況下約能獲得80%甚至更高的成績。這類簡單有效的規(guī)則方法的存在,極大降低了研發(fā)先進機器學(xué)習(xí)技術(shù)的迫切性。其二,機器學(xué)習(xí)方法的計算代價巨大,在必要硬件條件尚未普及或者成本仍過于高昂的情況下,機器學(xué)習(xí)方法的優(yōu)勢得不到體現(xiàn)。 2005年,典型的分詞學(xué)習(xí)工具條件隨機場(conditional random field, CRF)在百萬詞語料庫上的訓(xùn)練,需要12-18小時的單線程CPU時間,占用內(nèi)存2-3G,遠超當(dāng)時個人計算機的一般硬件配置水準。

因此,我們在2017年的今天回顧10年前的學(xué)術(shù)狀態(tài),必須歷史性地考慮當(dāng)時當(dāng)?shù)氐木唧w情形,才能理解當(dāng)時以及后來那些理所當(dāng)然的技術(shù)進步有其內(nèi)在而特殊的合理性和必然性。最近10年機器學(xué)習(xí)領(lǐng)域最為顯著的技術(shù)井噴,顯然是深度學(xué)習(xí)方法的崛起和全面覆蓋。因而,我們下面將技術(shù)總結(jié)分為兩大部分,即中文分詞的傳統(tǒng)機器學(xué)習(xí)模型和最近的深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))模型。本文對技術(shù)論文的最新引用截止至ACL-2017會議的部分已錄用論文。但由于篇幅所限,我們僅關(guān)注嚴格意義上的監(jiān)督機器學(xué)習(xí)模式下的相關(guān)工作,而對于非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、領(lǐng)域遷移學(xué)習(xí)以及其它分詞方法和應(yīng)用等,則尚付闕如,有待日后或各路高賢的努力。我們冒昧以此相對狹窄的視角,回顧我們力所能及范圍內(nèi)的一些當(dāng)時及當(dāng)今相對前沿的研究工作,旨在拋磚引玉,以供借鑒。

2

傳統(tǒng)的機器學(xué)習(xí)模型

分詞作為字符串上的切分過程,是一種相對簡單的結(jié)構(gòu)化機器學(xué)習(xí)任務(wù)。根據(jù)所處理的結(jié)構(gòu)分解單元,大體可以將用于分詞的傳統(tǒng)機器學(xué)習(xí)模型分為兩大類,即基于字標注的和基于詞(相關(guān)特征)的學(xué)習(xí)。

基于字標注學(xué)習(xí)的方法始于Xue (2003)。該工作使用一個字在詞中的四種相對位置標簽(tag),即B、M、 E和S等字位(如表1所示),來表達該字所攜帶的切分標注信息,從而首次將分詞任務(wù)形式化為字位的串標注學(xué)習(xí)任務(wù)。串標注學(xué)習(xí)是自然語言處理中最基礎(chǔ)的結(jié)構(gòu)化學(xué)習(xí)任務(wù),在串標注的概率圖模型中, 兩個串的各個節(jié)點單元需要嚴格一一對應(yīng), 非常方便于使用各種成熟的機器學(xué)習(xí)工具來建模和實現(xiàn)。Xue (2003)的首次實現(xiàn)其實尚未充分使用串標注結(jié)構(gòu)學(xué)習(xí),而是直接應(yīng)用了字位分類模型。 Ng & Low(2004)和Low et al. (2005)才是第一次將嚴格的串標注學(xué)習(xí)應(yīng)用于分詞, 用的是最大熵(Maximum Entropy,ME) Markov模型。而Peng et al. (2004)和Tseng et al. (2005)則自然地將標準的串標注學(xué)習(xí)工具條件隨機場引入分詞學(xué)習(xí)。隨后, CRF多個變種構(gòu)成了深度學(xué)習(xí)時代之前的標準分詞模型。

中文分詞任務(wù)是切分出特定上下文環(huán)境下正確的詞,因此,所謂基于詞的分詞學(xué)習(xí)建模需要解決一個“先有雞還是先有蛋”的問題。基于詞的隨機過程建模引致一個CRF變種,即semi-CRF(半條件隨機場)模型的直接應(yīng)用?;谧治粯俗⒌姆衷~學(xué)習(xí)通常用到的是線性鏈條件隨機場(linear chain CRF),它是基于Markov過程建模,處理過程中的每步只對輸入序列的一個文本單元進行標注。而semi-CRF則基于semi-Markov過程建模,它在每步給序列中的連續(xù)單元標注成相同標簽。這一特性和分詞處理步驟高度契合,使其可以直接用于分詞處理。

Andrew (2006)發(fā)表semi-CRF的第一個分詞實現(xiàn)。然而, 即使以當(dāng)時的標準, 號稱直接建模的semi-CRF模型的分詞性能卻不甚理想。通常來說,直接建模會獲得更好的機器學(xué)習(xí)效果,然而在semi-CRF直接應(yīng)用于分詞時,卻一直很難兌現(xiàn)。之后,Sun et al. (2009)和Sun et al. (2012)將包含隱變量的semi-CRF學(xué)習(xí)模型用于分詞,才將其分詞性能提升到前沿水平:前者是首個隱變量semi-CRF模型的工作,聲稱能夠同時利用基于字序列和基于詞序列的特征信息,并經(jīng)驗證明引入隱含變量能通過有效捕捉長距信息來提升長詞的召回率;后者額外引用了新的高維標簽轉(zhuǎn)移Markov特征,同時針對性地提出了基于特征頻數(shù)的自適應(yīng)在線梯度下降算法,以提升訓(xùn)練效率。值得注意的是,線性鏈CRF模型的訓(xùn)練時間比對應(yīng)的最大熵Markov模型會慢數(shù)倍,因為最大熵模型訓(xùn)練時間正比于需要學(xué)習(xí)的標簽數(shù)量,而CRF訓(xùn)練時間則正比于標簽數(shù)量的平方,但semi-CRF的訓(xùn)練比標準的CRF還要緩慢,因此極大地限制了該類模型的實際應(yīng)用。

傳統(tǒng)的字標注模型方法在進一步發(fā)展之后, 也引入部分標志性的已知詞信息(即詞表詞, in-vocabularywords, IV)。 Zhang et al. (2006)提出了一種基于子詞(subword)的標注學(xué)習(xí),基本思路是從訓(xùn)練集中抽取高頻已知詞構(gòu)造子詞詞典。然而,該方法單獨使用效果不佳,需要結(jié)合其他模型,其性能才能和已有方法進行有意義的比較。 Zhao&Kit(2007a)大幅度改進了這個策略,通過在訓(xùn)練集上迭代最大匹配分詞的方法,找到最優(yōu)的子詞(子串)詞典,使用單一的子串標注學(xué)習(xí)即可獲得最佳性能。

基于子串的直接標注模型事實上過強地應(yīng)用了已知詞信息,因為所有子串都屬于已知詞,并且在模型一開始就不能再切分。這一缺陷后來得到修正,主要的工作包括Zhao&Kit(2007b;2008b;2008a;2011)。在這些工作中,對已有工作的改進主要有兩點:其一,所有可能子串按照某個特定的統(tǒng)計度量方式根據(jù)訓(xùn)練集上的n-gram計數(shù)來進行打分;其二,基本模型還是字位標注學(xué)習(xí),前面獲得的子串信息以附加特征形式出現(xiàn)。這一工作獲得了傳統(tǒng)標注模型下的最佳性能,包括囊括2008年SIGHAN Bakeoff-4的全部五項分詞封閉測試的第一名(Zhao&Kit, 2008b)。當(dāng)子串的抽取和統(tǒng)計度量得分計算擴展到訓(xùn)練集之外,Zhao&Kit(2011)實際上提出了一種擴展性很強的半監(jiān)督分詞方法,實驗也驗證了其有效性。

和以上所有基于串標注,無論是線性鏈CRF標注還是semi-CRF標注的方法都不相同, Zhang & Clark(2007)引入了一種基于整句切分結(jié)構(gòu)學(xué)習(xí)的分詞方法。雖然他們聲稱這是一種基于詞的方法,但是他們的方法不同于以往的最顯著點,是字和詞的n-gram特征,都以同等地位在整句的切分結(jié)構(gòu)分解中進行特征提取。在細節(jié)上,他們采用了擴展的感知機算法進行訓(xùn)練,在解碼階段則使用近似的定寬搜索(beam search)。盡管其模型具備理論上更廣泛的特征表達能力,但事實上該工作未能給出更佳的分詞性能(參見表6的結(jié)果對比)。

由于分詞是自然語言處理的一個起始任務(wù),因此串標注學(xué)習(xí)下的可選特征類型相當(dāng)有限。實際上,能選用的只是滑動窗口下的n-gram特征, n-gram單元為字或者詞。理論上,以單個n-gram特征為單位進行任意的特征模板選擇,在工程計算量上是可行的。實際的系統(tǒng)中,對于字特征多采取5字的滑動窗口,而Zhao et al. (2006a)及其后續(xù)工作則僅用3字窗口;對于詞,則多采取3詞的滑動窗口。然而,字位標注并非直接的切分點學(xué)習(xí),從后者(切分點)到前者(字位標注系統(tǒng))有著多種方案,而一旦字位標注發(fā)生改變,相應(yīng)的優(yōu)化n-gram特征集顯然會發(fā)生改變。這一現(xiàn)象的發(fā)現(xiàn)及其完整的經(jīng)驗研究,發(fā)表在Zhaoet al. (2006b)和Zhao et al. (2010a)中。表2和表3分別列出了之前的標注集和Zhao et al. (2010a)考察過的完整標注集序列, 后者證明在6-tag標注集配合使用3字窗口的6個n-gram特征(分別是C-1, C0, C1, C-1C0, C0C1,C-1C1,其中C0代表當(dāng)前字),即可獲得字位標注學(xué)習(xí)的最佳性能(默認使用CRF模型)。

表3: 6-標簽以下所有可能的字標簽集及示例

3

深度學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)分詞模型

自從詞嵌入(word embedding)表示達到了數(shù)值計算的實用化階段之后,深度學(xué)習(xí)開始席卷自然語言處理領(lǐng)域。原則上,嵌入向量承載了一部分字或詞的句法和語義信息,應(yīng)該能帶來進一步的性能提升。如前所述,中文分詞任務(wù)中可用的特征僅限于滑動窗口內(nèi)的n-gram特征。由此,雖然典型的深度學(xué)習(xí)模型皆以降低特征工程代價的優(yōu)勢而著稱,但是對于分詞任務(wù)的特征工程壓力的緩解卻相當(dāng)有限。因而,期望神經(jīng)分詞模型帶來進一步性能改進的方向在于:一,有效集成字或者詞的嵌入式表示,充分利用其中蘊含的有效句法和語義信息;二,將神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力有效地和已有的傳統(tǒng)結(jié)構(gòu)化建模方法結(jié)合,如在經(jīng)典的字位標注模型中用等價的相應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)進行置換。

Collobert et al. (2011)提出使用神經(jīng)網(wǎng)絡(luò)解決自然語言處理問題,尤其是序列標注類問題的一般框架,這一框架抽取滑動窗口內(nèi)的特征,在每一個窗口內(nèi)解決標簽分類問題。在此基礎(chǔ)上, Zheng et al. (2013)提出神經(jīng)網(wǎng)絡(luò)中文分詞方法,首次驗證了深度學(xué)習(xí)方法應(yīng)用到中文分詞任務(wù)上的可行性。他們的工作直接借用了Collobert模型的結(jié)構(gòu),將字向量作為系統(tǒng)輸入,其技術(shù)貢獻包括:一,使用了大規(guī)模文本上預(yù)訓(xùn)練的字向量表示來改進監(jiān)督學(xué)習(xí)(開放測試意義);二,使用類似感知機的訓(xùn)練方式取代傳統(tǒng)的最大似然方法,以加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練。就結(jié)構(gòu)化建模來說,該工作等同于Low et al. (2005)的字位標記的串學(xué)習(xí)模型,區(qū)別僅在于是用一個簡單的神經(jīng)網(wǎng)絡(luò)模型替代了后者的最大熵模型,其模型框圖見圖1中的左圖。由于結(jié)構(gòu)化建模的缺陷,該模型的精度僅和早期Xue (2003)的結(jié)果相當(dāng),而遠遜于傳統(tǒng)字標注學(xué)習(xí)模型的佼佼者。

圖 1: Zheng et al. (2013) (左)和Pei et al. (2014) (右)的模型框架。

2014年,Pei et al. (2014)對Zheng et al. (2013)的模型做了重要改進,引入了標簽向量來更精細地刻畫標簽之間的轉(zhuǎn)移關(guān)系, 其改進程度類似于Low et al. (2005)首次引入Markov特征到Ng & Low (2004)的最大熵模型之中。Pei et al.提出了一種新型神經(jīng)網(wǎng)絡(luò)即最大間隔張量神經(jīng)網(wǎng)絡(luò)(Max-Margin Tensor NeuralNetwork, MMTNN)并將其用于分詞任務(wù)(見圖1右),使用標簽向量和張量變化來捕捉標簽與標簽之間、標簽與上下文之間的關(guān)系。另外,為了降低計算復(fù)雜度和防止過擬合(所有神經(jīng)網(wǎng)絡(luò)模型的通病),該文還專門提出了一種新型張量分解方式。

隨后,為了更完整精細地對分詞上下文建模, Chen et al.(2015a)提出了一種帶有自適應(yīng)門結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)(Gated recursive neural network, GRNN)抽取n-gram特征, 其中的兩種定制的門結(jié)構(gòu)(重置門、更新門)被用來控制n-gram信息的融合和抽取。與前述兩項研究中簡單拼接字級信息不同,該模型用到了更深的網(wǎng)絡(luò)結(jié)構(gòu),為免于傳統(tǒng)優(yōu)化方法所受到的梯度擴散的制約,該工作使用了有監(jiān)督逐層訓(xùn)練的方法。

同年, Chen et al. (2015b)針對滑動窗口的局部性,提出用長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-TermMemory Neural Networks, LSTM)來捕捉長距離依賴, 部分克服了過往的序列標注方法只能從固定大小的滑動窗口抽取特征的不足。 Xu & Sun(2016)將GRNN和LSTM聯(lián)合起來使用。 該工作可以看作是結(jié)合了Chen et al. (2015a)和Chen et al. (2015b)兩者的模型。該模型中,先用雙向LSTM提取上下文敏感的局部信息,然后在滑動窗口內(nèi)將這些局部信息用帶門結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)融合起來,最后用作標簽分類的依據(jù)。 LSTM是神經(jīng)網(wǎng)絡(luò)模型家族中和線性鏈CRF同等角色的結(jié)構(gòu)化建模工具,隨著它被引入分詞學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)模型在分詞性能上開始可以和傳統(tǒng)機器學(xué)習(xí)模型相抗衡。我們將結(jié)構(gòu)化建模的傳統(tǒng)-神經(jīng)模型的對照情況列在表4中。

與傳統(tǒng)方法中基于字的序列標注方案幾乎一統(tǒng)江湖的局面不同,神經(jīng)網(wǎng)絡(luò)有相對更靈活的結(jié)構(gòu)化建模能力,因而有別于序列標注的其他方法也相繼涌現(xiàn)出來。 Ma & Hinrichs (2015)提出了一種基于字的切分動作匹配算法,該算法在保持相當(dāng)程度的分詞性能的同時,有著不亞于傳統(tǒng)方法的速度優(yōu)勢。具體來說,該文提出了一種新型的向量匹配算法,可以視為傳統(tǒng)序列標注方法的一種擴展,在訓(xùn)練和測試階段都只有線性的時間復(fù)雜度(見圖2左)。該工作有兩個亮點值得注意:一,首次嚴肅考慮了神經(jīng)模型分詞的計算效率問題;二,遵循了嚴格的SIGHAN Bakeoff封閉測試的要求,只使用了簡單的特征集合,而完全不依賴訓(xùn)練集之外的語言資源。

圖2: Ma & Hinrichs (2015) (左)和Liu et al. (2016) (右)的模型框圖

Zhang et al. (2016)提出了一種基于轉(zhuǎn)移的模型用于分詞,并將傳統(tǒng)的特征模版和神經(jīng)網(wǎng)絡(luò)自動提取的特征結(jié)合起來, 在神經(jīng)網(wǎng)絡(luò)自動提取的特征和傳統(tǒng)的離散特征的融合方法做了嘗試。結(jié)果表明,通過組合這兩種特征,分詞精度可以得到進一步提升。

Liu et al. (2016)首次將零階半馬爾可夫隨機場應(yīng)用到神經(jīng)分詞模型中,并分析了不同字向量和詞向量對分詞效果的影響。 此文基于semi-CRF建模分詞學(xué)習(xí)(見圖2右),用直接的切分塊嵌入表示和間接的輸入單元融合表示來刻畫切分塊,同時還考察了多種融合方式和多種切分塊嵌入表示。遺憾的是,該系統(tǒng)嚴重依賴傳統(tǒng)方法的輸出結(jié)果來提升性能。他們的具體做法是用傳統(tǒng)方法的分詞結(jié)果(在外部語料上)作為詞向量訓(xùn)練語料,因此,該文所報告的最終結(jié)果應(yīng)屬于開放測試范疇。而作為純粹的神經(jīng)模型版本下的semi-CRF模型,在封閉測試意義下,該系統(tǒng)的效果和傳統(tǒng)semi-CRF(如Andrew (2006))同樣效果不佳(具體見表6的結(jié)果對照)。

Cai & Zhao(2016) 徹底放棄滑動窗口,提出對分詞句子直接建模的方法,以捕捉分詞的全部歷史信息, 提出了一個類似于Zhang & Clark (2007)的神經(jīng)分詞模型, 同時充分吸收了前面一些工作的有益經(jīng)驗,如門網(wǎng)絡(luò)結(jié)構(gòu)等(圖3)。由于覆蓋了前所未有的特征范圍,該模型在封閉測試意義上取得了和傳統(tǒng)模型接近的分詞性能。 概括來說,該方法使用了一個帶自適應(yīng)門結(jié)構(gòu)的組合神經(jīng)網(wǎng)絡(luò),詞向量表示通過其字向量生成,并用LSTM網(wǎng)絡(luò)的打分模型對詞向量序列打分。這種方法直接對分詞結(jié)構(gòu)進行了建模,能利用字、詞、句三個層次的信息,是首個能完整捕捉切分和輸入歷史的方法。與之前的無論傳統(tǒng)和還是深度學(xué)習(xí)的方法相比,該模型將分詞動作依賴的特征窗口擴張到最大程度(見表5)。該文所提的分詞系統(tǒng)框架可以分為三個組件:一個依據(jù)字序列的詞向量生成網(wǎng)絡(luò)組合門網(wǎng)絡(luò) (gated combination neuralnetwork, GCNN,見圖4左);一個能對不同切分從最終結(jié)果(也就是詞序列)上進行打分的估值網(wǎng)絡(luò);和一種尋找擁有最大分數(shù)的切分的搜索算法。第一個模塊近似于模擬中文造詞法過程,這對于未登陸詞識別有著重要意義;第二個模塊從全句的角度對分詞的結(jié)果從流暢度和合理性上進行打分,能最大限度地利用分詞上下文;第三個模塊則使在指數(shù)級的切分空間中尋找最可能的切分最優(yōu)解。

圖 3: Cai & Zhao (2016)的模型框圖

表6列出了近10年來主要的分詞系統(tǒng)在SIGHAN Bakeoff-2005語料上的分詞性能比較。神經(jīng)分詞系統(tǒng)短短數(shù)年間取得了長足進步,但整體上仍然不敵傳統(tǒng)模型。此外,盡管神經(jīng)網(wǎng)絡(luò)方法在知識依賴和特征工程方面有著巨大優(yōu)勢,也取得了一定的進展,但模型的計算復(fù)雜度也大幅提高,因為成功的神經(jīng)分詞器往往建立于更加精巧、更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)之上。事實上,經(jīng)歷五年,深度學(xué)習(xí)方法在最終模型的性能上,無論是分詞精度還是計算效率上,和傳統(tǒng)方法相比并都不具有顯著優(yōu)勢。

Cai et al. (2017)在Cai & Zhao (2016)的基礎(chǔ)上,通過簡化網(wǎng)絡(luò)結(jié)構(gòu),混合字詞輸入以及使用早期更新(early update)等收斂性更好的訓(xùn)練策略, 設(shè)計了一個基于貪心搜索(greedy search)的快速分詞系統(tǒng)(見圖4右)。該算法與之前的深度學(xué)習(xí)算法相比不僅在速度上有了巨大提升,分詞精度也得到了進一定提高。實驗結(jié)果還表明,詞級信息比字級信息對于機器學(xué)習(xí)更有效,但是僅僅依賴詞級信息不可避免會削弱深度學(xué)習(xí)模型在陌生環(huán)境下的泛化能力。表7列舉了最近3年和速度相關(guān)的神經(jīng)分詞系統(tǒng)的結(jié)果。從中可見,Cai et al. (2017)首次使神經(jīng)模型方法在性能與效率上同時取得了和傳統(tǒng)方法相當(dāng)?shù)某煽儭?/p>

圖4: Cai & Zhao (2016) (左)和Cai et al. (2017) (右)的組合門網(wǎng)絡(luò)模塊

4

封閉及開放測試

SIGHAN Bakeoff的分詞評測定義了嚴格的封閉測試條件,要求不得使用訓(xùn)練集之外的語言資源,否則相應(yīng)結(jié)果則算開放測試類別。區(qū)分封閉和開放測試的一個主要目的,是分辨機器學(xué)習(xí)的性能提升的確是模型自身的改進,而非其它。

不管是傳統(tǒng)模型還是深度學(xué)習(xí)模型,可選的分詞用外部資源都可以包括各類詞典和切分語料(不一定和已有切分語料屬于同一個分詞規(guī)范)。外部資源的使用,可以通過額外標記特征的形式引入,早期的開放測試系統(tǒng)包括Low et al. (2005)。 Zhao et al. (2010a)系統(tǒng)考察了多種外部資源,包括詞典、命名實體識別器以及其他語料上訓(xùn)練的分詞器,統(tǒng)一用于字標注模型下的附加標記特征,所提的具體做法很簡單:在主切分器上加入其它分詞器(或命名實體識別器)給出的輔助標記特征即可。結(jié)果表明,該策略在所有分詞規(guī)范語料上都能顯著提升性能,特別是在SIGHAN Bakeoff-2006的兩個簡體語料上可以帶來額外的2個百分點的性能增益。表6展示的結(jié)果顯示, Zhao et al. (2010a)報告的開放測試結(jié)果目前為止依然為業(yè)界最高的分詞性能。該組結(jié)果實際上在Bakeoff-2006語料上給出,因而缺乏PKU上的結(jié)果,所用的附加資源則來自其它公開的Bakeoff語料。最后,該工作還經(jīng)驗性暗示,如果可用的額外切分語料可以無限制擴大,則分詞精度也可以無限制提升,雖然代價是切分速度會急劇下降。

基于嵌入表示的深度學(xué)習(xí)模型對于分詞的封閉和開放測試區(qū)分帶來了新的挑戰(zhàn)。顯然,在外部預(yù)訓(xùn)練的字或者詞嵌入向量屬于明顯的外部資源利用,因為字向量預(yù)訓(xùn)練可以直接借用外部無標記語料,典型如維基百科數(shù)據(jù),而詞向量的預(yù)訓(xùn)練則需要使用一個傳統(tǒng)分詞模型在外部語料上作預(yù)切分,這會同步地引入外部資源知識并隱性集成傳統(tǒng)分詞器的輸出結(jié)果。但是,相當(dāng)部分的神經(jīng)分詞的工作有意無意地忽略了以上做法的角色區(qū)分,實際上等于混淆了開放和封閉測試,更不用說很多神經(jīng)模型系統(tǒng)甚至再次使用額外的詞典標注來強化其性能。這些做法嚴重干擾了對于當(dāng)前神經(jīng)分詞模型的分析和效果評估:到底這些模型聲稱的性能提升,是來自新引入的深度學(xué)習(xí)模型,還是屬于悄悄引入的外部資源的貢獻?從表6中所比對的神經(jīng)分詞器的開放和封閉測試效果可以看出,大部分神經(jīng)分詞系統(tǒng)引入外部輔助信息,才能再獲得1-2個百分點的性能提升(已經(jīng)屬于開放測試范疇),才能和嚴格封閉測試意義上的傳統(tǒng)模型抗衡。如果嚴格剝離掉所有額外預(yù)訓(xùn)練的字或詞嵌入、額外引入的詞典標注特征以及隱性集成的傳統(tǒng)分詞器的性能貢獻,可以公正地看出,直至2016年底,所有神經(jīng)分詞系統(tǒng)單獨運行時,在性能(更不用說在效率上)都不敵傳統(tǒng)系統(tǒng)。

說明:表格上部展示的是傳統(tǒng)方法,下部是深度學(xué)習(xí)方法。標有雙星號(**)的是來自Pei et al. (2014)的再運行結(jié)果;標有星號(*)的是來自Cai & Zhao (2016)的再運行結(jié)果;帶有? 是指使用了或者可能使用了預(yù)訓(xùn)練的字向量;帶有? 側(cè)是依賴傳統(tǒng)模型(在大規(guī)模未標注語料上使用傳統(tǒng)切分的結(jié)果進行預(yù)訓(xùn)練);而括號(…)里的結(jié)果使用了成語表。

說明:標有星號(*)的數(shù)據(jù)來自Cai and Zhao (2016)再運行的結(jié)果。此表列出的是Zhang et al. (2016)與Liu et al. (2016)中神經(jīng)網(wǎng)絡(luò)模型單獨工作的結(jié)果。注意大多數(shù)深度學(xué)習(xí)方法使用的字向量可以事先在大規(guī)模無標記的語料上進行預(yù)訓(xùn)練。嚴格來說,這類結(jié)果需歸于SIGHAN Bakeoff開放測試的類別。

Yang et al. (2017)專門調(diào)查分析了外部資源對中文分詞效果的影響,包括預(yù)訓(xùn)練的字/詞向量、標點符號、自動分詞結(jié)果、詞性標注等,他們把每一種外部資源當(dāng)作一個輔助的分類任務(wù),使用多任務(wù)神經(jīng)學(xué)習(xí)方法預(yù)訓(xùn)練了一組對漢字上下文建模的共享參數(shù)。大量的實驗表明了外部資源對神經(jīng)模型的性能的提升同樣具有重要意義。

如果把外部資源的貢獻進行量化,或者簡化一些,是否能夠給出機器學(xué)習(xí)的語料規(guī)模和學(xué)習(xí)性能的增長之間的聯(lián)系規(guī)律?其實,這方面的經(jīng)驗工作已在Zhao et al. (2010b)之中完成,基本結(jié)論是統(tǒng)計機器學(xué)習(xí)系統(tǒng)給出的分詞精度和訓(xùn)練語料規(guī)模大體符合Zipf律,即:語料規(guī)模指數(shù)增長,性能才能線性增長。而和統(tǒng)計分詞不同,更傳統(tǒng)的規(guī)則分詞,例如最大匹配法,其精度和所用的詞典(即所收錄的詞表詞)的規(guī)模成線性關(guān)系,因為分詞錯誤主要是未登錄詞導(dǎo)致的。這一結(jié)論意味著統(tǒng)計方法,無論是傳統(tǒng)的字標注還是現(xiàn)代的神經(jīng)模型,仍有著巨大的增長空間。

5

結(jié)論

關(guān)于中文分詞的機器學(xué)習(xí)方法,長期以來一直存在著“字還是詞”的特征表示優(yōu)越性之爭,這恰好和語言學(xué)界對于中文結(jié)構(gòu)分析的“字本位”還是“詞本位”的爭議相映成趣。這一點早在黃和趙 (2006)中就給出了經(jīng)驗性觀察結(jié)果:字、詞的特征學(xué)習(xí)需要在分詞系統(tǒng)中均衡表達,才能獲得最佳性能。實際上,所謂字、詞爭議的核心對應(yīng)于分詞的兩個指標,已知詞(或詞表詞,即出現(xiàn)在切分訓(xùn)練語料中的詞)的識別精度和未登錄詞的識別精度,前者識別精度很高、相對容易但所占百分比高,后者識別精度很低、難度較大但所占百分比較低。經(jīng)驗性的結(jié)果表明,強調(diào)基于字的特征及其表示會帶來更好的未登錄詞的識別性能。原因無他,未登錄詞從未在訓(xùn)練集出現(xiàn),只能依賴于模型通過字的創(chuàng)造性組合才能識別。反過來,強調(diào)詞特征的系統(tǒng),包括基于詞的切分系統(tǒng),對于未登錄詞的識別效果通常略為遜色。最佳的分詞系統(tǒng)總是需要合理考慮字表示和詞表示的平衡問題。最近的兩個工作的改進點可以輔證這一結(jié)論: Caiet al. (2017)對于Cai & Zhao (2016)的一個關(guān)鍵性改進,是詞向量不再總是由字向量通過神經(jīng)網(wǎng)絡(luò)計算得到,而是采取了兩種策略,即低頻或者未知詞繼續(xù)由字向量計算,而訓(xùn)練集中的高頻詞(可以認為是更為穩(wěn)定的已知詞)則進行直接計算。當(dāng)系統(tǒng)由后者偏向字向量表示的模式轉(zhuǎn)向字-詞均衡的表示模式以后,確實帶來了額外的性能提升。

最近5年,基于神經(jīng)網(wǎng)絡(luò)模型的分詞學(xué)習(xí)已經(jīng)取得了一系列成果。就目前的結(jié)果來看,我們可以得出兩個基本結(jié)論:一,神經(jīng)分詞所取得的性能效果僅與傳統(tǒng)分詞系統(tǒng)大體相當(dāng),如果不是稍遜一籌的話;二,相當(dāng)一部分的神經(jīng)分詞系統(tǒng)所報告的性能改進(我們謹慎推測)來自于經(jīng)由字或詞嵌入表示所額外引入的外部語言資源信息,而非模型本身或字詞嵌入表示方式所導(dǎo)致的性能改進。如果說詞嵌入表示蘊含著深層句法和語義信息的話,那么,這個結(jié)論似乎暗示一個推論,即分詞學(xué)習(xí)是一個不需要太多句法和語義信息即可良好完成的任務(wù)。

現(xiàn)代深度學(xué)習(xí)意義下的神經(jīng)網(wǎng)絡(luò)歸類于人工智能的聯(lián)結(jié)主義思潮,由于其帶有先天性的內(nèi)在拓撲結(jié)構(gòu),如果能克服其訓(xùn)練計算低效的弊病,它就應(yīng)該是本身需要結(jié)構(gòu)化學(xué)習(xí)的自然語言處理任務(wù)的理想建模方式。這是我們在深度學(xué)習(xí)時代看到更多樣化的結(jié)構(gòu)建模方法用于中文分詞任務(wù)的主要原因。如果我們能有效平衡字-詞表示的均衡性,不排除將來深度學(xué)習(xí)基礎(chǔ)上的分詞系統(tǒng)能有進一步的成長空間。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:深度長文:中文分詞的十年回顧

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    統(tǒng)信Windows應(yīng)用兼容引擎官網(wǎng)正式上線

    操作系統(tǒng)的拓展性與易用性依托軟件生態(tài)。為提升 Linux 系統(tǒng)對 Windows 應(yīng)用的兼容能力,deepin-wine 團隊自 2014 年成立起便持續(xù)探索,從技術(shù)驗證到產(chǎn)品化落地,從單一功能到全場景兼容,十年間的每一步突破都旨在構(gòu)建更完善的生態(tài)閉環(huán)。
    的頭像 發(fā)表于 07-17 11:50 ?172次閱讀

    蔡司工業(yè)CT三坐標檢測智能駕艙護航三電質(zhì)量安全

    據(jù)QuestMobile數(shù)據(jù)顯示,目前中國汽車市場活躍的新能源汽車數(shù)量已達到3000萬輛。過去十年間,中國新能源汽車產(chǎn)業(yè)實現(xiàn)了從0到1的技術(shù)跨越,市場滲透率從2016的不足2%一路攀升至2024
    的頭像 發(fā)表于 07-09 14:07 ?119次閱讀
    蔡司工業(yè)CT三坐標檢測智能駕艙護航三電質(zhì)量安全

    BOE(京東方)“照亮成長路”公益項目新十年啟幕 科技無界照亮美好未來

    的“世界高城”理塘,寓意該項目歷經(jīng)十年耕耘達到了全新的高度,也標志著BOE(京東方)下一個十年公益征程的嶄新起點將由此啟幕?;顒蝇F(xiàn)場,BOE(京東方)宣布,今年將繼續(xù)向四川理塘縣、陜西富平縣、青海玉樹州雜多縣等地區(qū)捐建30智慧
    的頭像 發(fā)表于 06-10 09:01 ?224次閱讀

    十年磨一劍,百頻通萬物:國產(chǎn)無線通信突圍之路

    模塊。它沒有手機芯片的光環(huán),卻是物聯(lián)網(wǎng)的“空氣級存在”。今天走進成都澤耀科技有限公司,看“低調(diào)技術(shù)派”如何用十年沉淀,無線通信賽道織出一張覆蓋170MHz-5.
    的頭像 發(fā)表于 06-09 15:21 ?472次閱讀
    <b class='flag-5'>十年</b>磨一劍,百頻通萬物:國產(chǎn)無線通信突圍之路

    10周文章合集白皮書

    十年間,我們始終以客戶需求為錨點,見證并參與了汽車電子的三次革命性躍遷:從“信號傳輸”到“服務(wù)定義”、從“機械控制”到“軟件驅(qū)動”、從“單車智能”到“全域協(xié)同”。每一輪變革中,北匯信息的測試方案皆以
    發(fā)表于 05-30 11:39 ?2次下載

    如何應(yīng)對邊緣設(shè)備上部署GenAI的挑戰(zhàn)

    過去十年間,人工智能(AI)和機器學(xué)習(xí)(ML)領(lǐng)域發(fā)生了巨大的變化。卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)逐漸被Transformer和生成式人工智能(GenAI)所取代,這標志著該領(lǐng)域進入了一個全新的發(fā)展階段。這一轉(zhuǎn)變源于人們需要更準確、高效且具備上下文理解能力、能處理復(fù)雜任務(wù)的模型。
    的頭像 發(fā)表于 04-30 13:48 ?641次閱讀
    如何應(yīng)對邊緣設(shè)備上部署GenAI的挑戰(zhàn)

    氣侯技術(shù)公司紛紛采用 NVIDIA Earth-2 用于高分辨率、高能效、更準確的天氣預(yù)報和備災(zāi)工作

    的天氣預(yù)報解決方案。 ? 過去十年間,與氣候相關(guān)的天氣事件對全球經(jīng)濟造成了高達 2 萬億美元的影響。這一全新 Omniverse Blueprint 使用戶能夠利用最新技術(shù),幫助全球企業(yè)和組織提升風(fēng)險管理和災(zāi)備能力。 ? 可用于
    發(fā)表于 03-19 09:40 ?190次閱讀
    氣侯<b class='flag-5'>技術(shù)</b>公司紛紛采用 NVIDIA Earth-2 用于高分辨率、高能效、更準確的天氣預(yù)報和備災(zāi)工作

    納米技術(shù)的發(fā)展歷程和制造方法

    納米技術(shù)是一個高度跨學(xué)科的領(lǐng)域,涉及納米尺度上精確控制和操縱物質(zhì)。集成電路(IC)作為已經(jīng)達到納米級別的重要技術(shù),對社會生活產(chǎn)生了深遠影響。晶體管器件的關(guān)鍵尺寸在過去數(shù)十年間不斷縮小
    的頭像 發(fā)表于 03-04 09:43 ?1791次閱讀
    納米<b class='flag-5'>技術(shù)</b>的發(fā)展歷程和制造方法

    北汽福田與寧德時代簽署十年戰(zhàn)略合作協(xié)議

    近日,北汽福田與寧德時代福建寧德舉行十年戰(zhàn)略合作簽約儀式。雙方擬在商用車電動化領(lǐng)域展開深度合作,圍繞前沿技術(shù)開發(fā)與應(yīng)用、海外市場拓展、整車及動力電池后市場、產(chǎn)業(yè)生態(tài)構(gòu)建等方面實現(xiàn)優(yōu)勢互補、合作共贏
    的頭像 發(fā)表于 02-12 09:21 ?516次閱讀

    睿創(chuàng)微納五&amp;十年功勛員工頒獎大會圓滿舉行

    余名員工獲頒十年紀念金幣,以致敬他們十年來的堅守與奉獻。每一枚紀念幣都是一份沉甸甸的榮譽和責(zé)任,是睿創(chuàng)對每位員工的感謝和鼓勵,更是對他們數(shù)年如一日貢獻的認可。?? 睿創(chuàng)微納副總經(jīng)理趙芳彥會上致辭,代表公司向五
    的頭像 發(fā)表于 12-12 10:35 ?784次閱讀

    何小鵬宣布未來十年愿景,加速全球化AI汽車布局

    11月6日的小鵬AI科技日上,小鵬汽車董事長何小鵬分享了公司的宏偉藍圖,即在未來十年內(nèi),將小鵬汽車打造成為一家享譽全球的AI汽車公司。   何小鵬感慨地表示,過去往往是國外的先進技術(shù)涌入中國,而現(xiàn)在,他自豪地宣布,小鵬汽
    的頭像 發(fā)表于 11-07 13:40 ?995次閱讀

    以關(guān)鍵射頻技術(shù)賦能衛(wèi)星通信,Qorvo的產(chǎn)品陣列再擴增

    十年前的2014,那一國務(wù)院及多個部委相繼出臺支持商業(yè)航天產(chǎn)業(yè)發(fā)展的政策,并明確鼓勵民營企業(yè)發(fā)展商業(yè)航天。短短十年間,國內(nèi)已經(jīng)有超過20家充滿活力的民間火箭發(fā)射企業(yè),而它們的背后是
    的頭像 發(fā)表于 10-29 13:59 ?1041次閱讀
    以關(guān)鍵射頻<b class='flag-5'>技術(shù)</b>賦能衛(wèi)星通信,Qorvo的產(chǎn)品陣列再擴增

    沃達豐與谷歌深化十年戰(zhàn)略合作

    沃達豐近日宣布,其與全球科技巨頭谷歌的戰(zhàn)略合作伙伴關(guān)系得到了進一步深化。這一為期十年的協(xié)議,總價值超過10億美元,旨在將谷歌最新推出的生成式人工智能支持的設(shè)備引入歐洲和非洲市場,為沃達豐的廣大客戶提供更為先進和智能的服務(wù)體驗。
    的頭像 發(fā)表于 10-09 16:22 ?530次閱讀

    十年預(yù)言:Chiplet的使命

    未來十年內(nèi)芯片算力提升的核心動力。 議題一: 算力困局如何突圍? 韓銀和研究員: 現(xiàn)有的高性能計算架構(gòu)正遭遇算力瓶頸。目前全球頂級的高性能計算系統(tǒng),由美國橡樹嶺國家實驗室基于HPE Cray EX235a架構(gòu)研發(fā)的超級計算機Frontier,其算
    的頭像 發(fā)表于 08-27 11:09 ?803次閱讀
    <b class='flag-5'>十年</b>預(yù)言:Chiplet的使命

    BOE京東方與聯(lián)合國教科文組織UNESCO簽訂合作協(xié)議 成為首個支持聯(lián)合國“科學(xué)十年”的中國科技企業(yè)

    法國時間7月25日,BOE(京東方)與聯(lián)合國教科文組織(UNESCO)法國巴黎總部基于《2024—2033科學(xué)促進可持續(xù)發(fā)展國際十年》決議(簡稱“科學(xué)十年”)簽訂為期三
    的頭像 發(fā)表于 07-26 13:04 ?602次閱讀
    BOE京東方與聯(lián)合國教科文組織UNESCO簽訂合作協(xié)議 成為首個支持聯(lián)合國“科學(xué)<b class='flag-5'>十年</b>”的中國科技企業(yè)