一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言處理中極其重要的句法分析

8g3K_AI_Thinker ? 來源:lp ? 2019-04-09 10:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡要介紹了自然語言處理中極其重要的句法分析,并側(cè)重對依存句法分析進行了重點總結(jié),包括定義、重要概念、基本方法、性能評價、依存分析數(shù)據(jù)集,最后,分享了一些流行的工具以及工具實戰(zhàn)例子。

01

句法分析

句法分析(syntactic parsing)是自然語言處理中的關(guān)鍵技術(shù)之一,它是對輸入的文本句子進行分析以得到句子的句法結(jié)構(gòu)的處理過程。

對句法結(jié)構(gòu)進行分析,一方面是語言理解的自身需求,句法分析是語言理解的重要一環(huán),另一方面也為其它自然語言處理任務提供支持。例如句法驅(qū)動的統(tǒng)計機器翻譯需要對源語言或目標語言(或者同時兩種語言)進行句法分析。

語義分析通常以句法分析的輸出結(jié)果作為輸入以便獲得更多的指示信息。根據(jù)句法結(jié)構(gòu)的表示形式不同,最常見的句法分析任務可以分為以下三種:

句法結(jié)構(gòu)分析(syntactic structure parsing),又稱短語結(jié)構(gòu)分析(phrase structure parsing),也叫成分句法分析(constituent syntactic parsing)。作用是識別出句子中的短語結(jié)構(gòu)以及短語之間的層次句法關(guān)系。

依存關(guān)系分析,又稱依存句法分析(dependency syntactic parsing),簡稱依存分析,作用是識別句子中詞匯與詞匯之間的相互依存關(guān)系。

深層文法句法分析,即利用深層文法,例如詞匯化樹鄰接文法(Lexicalized Tree Adjoining Grammar,LTAG)、詞匯功能文法(Lexical Functional Grammar,LFG)、組合范疇文法(Combinatory Categorial Grammar,CCG)等,對句子進行深層的句法以及語義分析。

02

依存句法定義

維基百科是這樣描述的:The dependency-based parse trees of dependency grammars see all nodes as terminal, which means they do not acknowledge the distinction between terminal and non-terminal categories. They are simpler on average than constituency-based parse trees because they contain fewer nodes.

依存句法是由法國語言學家L.Tesniere最先提出。它將句子分析成一顆依存句法樹,描述出各個詞語之間的依存關(guān)系。也即指出了詞語之間在句法上的搭配關(guān)系,這種搭配關(guān)系是和語義相關(guān)聯(lián)的。

在自然語言處理中,用詞與詞之間的依存關(guān)系來描述語言結(jié)構(gòu)的框架稱為依存語法(dependence grammar),又稱從屬關(guān)系語法。利用依存句法進行句法分析是自然語言理解的重要技術(shù)之一。

03

重要概念

依存句法認為“謂語”中的動詞是一個句子的中心,其他成分與動詞直接或間接地產(chǎn)生聯(lián)系。

依存句法理論中,“依存”指詞與詞之間支配與被支配的關(guān)系,這種關(guān)系不是對等的,這種關(guān)系具有方向。確切的說,處于支配地位的成分稱之為支配者(governor,regent,head),而處于被支配地位的成分稱之為從屬者(modifier,subordinate,dependency)。

依存語法本身沒有規(guī)定要對依存關(guān)系進行分類,但為了豐富依存結(jié)構(gòu)傳達的句法信息,在實際應用中,一般會給依存樹的邊加上不同的標記。

依存語法存在一個共同的基本假設:句法結(jié)構(gòu)本質(zhì)上包含詞和詞之間的依存(修飾)關(guān)系。一個依存關(guān)系連接兩個詞,分別是核心詞(head)和依存詞(dependent)。依存關(guān)系可以細分為不同的類型,表示兩個詞之間的具體句法關(guān)系。

04

常見方法

基于規(guī)則的方法:早期的基于依存語法的句法分析方法主要包括類似CYK的動態(tài)規(guī)劃算法、基于約束滿足的方法和確定性分析策略等。

基于統(tǒng)計的方法:統(tǒng)計自然語言處理領(lǐng)域也涌現(xiàn)出了一大批優(yōu)秀的研究工作,包括生成式依存分析方法、判別式依存分析方法和確定性依存分析方法,這幾類方法是數(shù)據(jù)驅(qū)動的統(tǒng)計依存分析中最為代表性的方法。

基于深度學習的方法:近年來,深度學習在句法分析課題上逐漸成為研究熱點,主要研究工作集中在特征表示方面。傳統(tǒng)方法的特征表示主要采用人工定義原子特征和特征組合,而深度學習則把原子特征(詞、詞性、類別標簽)進行向量化,在利用多層神經(jīng)元網(wǎng)絡提取特征。

05

依存分析器的性能評價

通常使用的指標包括:無標記依存正確率(unlabeled attachment score,UAS)、帶標記依存正確率(labeled attachment score, LAS)、依存正確率(dependency accuracy,DA)、根正確率(root accuracy,RA)、完全匹配率(complete match,CM)等。這些指標的具體意思如下:

無標記依存正確率(UAS):測試集中找到其正確支配詞的詞(包括沒有標注支配詞的根結(jié)點)所占總詞數(shù)的百分比。

帶標記依存正確率(LAS):測試集中找到其正確支配詞的詞,并且依存關(guān)系類型也標注正確的詞(包括沒有標注支配詞的根結(jié)點)占總詞數(shù)的百分比。

依存正確率(DA):測試集中找到正確支配詞非根結(jié)點詞占所有非根結(jié)點詞總數(shù)的百分比。

根正確率(RA):有二種定義,一種是測試集中正確根結(jié)點的個數(shù)與句子個數(shù)的百分比。另一種是指測試集中找到正確根結(jié)點的句子數(shù)所占句子總數(shù)的百分比。

完全匹配率(CM):測試集中無標記依存結(jié)構(gòu)完全正確的句子占句子總數(shù)的百分比。

06

數(shù)據(jù)集

Penn Treebank:Penn Treebank 是一個項目的名稱,項目目的是對語料進行標注,標注內(nèi)容包括詞性標注以及句法分析。

SemEval-2016 Task 9 中文語義依存圖數(shù)據(jù):http://ir.hit.edu.cn/2461.html

下載地址:

https://github.com/HIT-SCIR/SemEval-2016

CoNLL 經(jīng)常開放句法分析的學術(shù)評測,比如:

2018年的通用句法分析評測任務:

http://universaldependencies.org/conll18/

2009年多語言多語言的句法依存和語義角色聯(lián)合評測任務:http://ufal.mff.cuni.cz/conll2009-st/

2008年英語的依存句法-語義角色聯(lián)合評測任務:https://www.clips.uantwerpen.be/conll2008/

2007年多語言依存分析評測:https://www.clips.uantwerpen.be/conll2007/

07

工具推薦

1. StanfordCoreNLP

斯坦福大學開發(fā)的,提供依存句法分析功能。

Github 地址:

https://github.com/Lynten/stanford-corenlp

官網(wǎng):

https://stanfordnlp.github.io/CoreNLP/

2. HanLP

HanLP 是一系列模型與算法組成的 NLP 工具包。提供了中文依存句法分析功能。

Github 地址:

https://github.com/hankcs/pyhanlp

官網(wǎng):

http://hanlp.linrunsoft.com/

3. SpaCy

工業(yè)級的自然語言處理工具,遺憾的是目前不支持中文。

Gihub 地址:

https://github.com/explosion/spaCy

官網(wǎng):

https://spacy.io/

4. FudanNLP

復旦大學自然語言處理實驗室開發(fā)的中文自然語言處理工具包,包含信息檢索: 文本分類、新聞聚類;中文處理: 中文分詞、詞性標注、實體名識別、關(guān)鍵詞抽取、依存句法分析、時間短語識別;結(jié)構(gòu)化學習: 在線學習、層次分類、聚類。

Github 地址:

https://github.com/FudanNLP/fnlp

代碼已上傳:

https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/Dependency.ipynb

參考:

1.統(tǒng)計自然語言處理

2.中文信息處理報告-2016

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15199
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122805
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14165

原文標題:別說還不懂依存句法分析

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言自然語言(Natural Language )廣納了眾多技術(shù),對自然或人類語言
    發(fā)表于 05-02 13:50

    自然語言處理技術(shù)介紹

    ,包括:分詞、詞性標注、句法分析、命名實體識別,以及信息抽取領(lǐng)域的實體關(guān)系抽取等。2.1.分詞分詞是自然語言處理技術(shù)的基礎(chǔ)構(gòu)成之一,并且是其它技術(shù)的基礎(chǔ)?;诮y(tǒng)計實現(xiàn)的詞性標注、命名實體識別、
    發(fā)表于 09-27 09:57

    NLPIR語義分析是對自然語言處理的完美理解

    和邏輯表示。語義分析就是對信息所包含的語義的識別,并建立一種計算模型,使其能夠像人那樣理解自然語言。語義分析自然語言理解的根本問題,它在自然語言
    發(fā)表于 10-19 11:34

    自然語言處理怎么最快入門?

    `本文整理自知乎上的一個問答,分享給正在學習自然語言處理的朋友們!一、自然語言處理是什么?自然語言
    發(fā)表于 11-28 10:02

    hanlp漢語自然語言處理入門基礎(chǔ)知識介紹

    人工智能。自然語言處理涉及的幾個層次:作為輸入一共有兩個來源,語音與文本。所以第一級是語音識別和OCR或分詞(事實上,跳過分詞雖然理所當然地不能做句法分析,但字符級也可以直接做不少應用)。接下來是形態(tài)學
    發(fā)表于 01-02 14:43

    【推薦體驗】騰訊云自然語言處理

    自然語言處理技術(shù)的功勞??梢哉f,只要有大量文本數(shù)據(jù)的應用場景,幾乎都涉及到NLP技術(shù),也都可以使用相關(guān)自然語言處理產(chǎn)品的接口來做智能分析。比
    發(fā)表于 10-09 15:28

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務有哪些?自然語言處理的方法是什么?
    發(fā)表于 09-08 06:51

    基于本體和句法分析的領(lǐng)域分詞的實現(xiàn)

    針對基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法所存在的缺陷,提出基于本體和句法分析的某領(lǐng)域分詞方法,通過建立體裁本體進行句法分析,從智能
    發(fā)表于 04-09 09:10 ?20次下載

    什么是自然語言處理_自然語言處理常用方法舉例說明

    自然語言處理是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言
    發(fā)表于 12-28 16:56 ?1.8w次閱讀
    什么是<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>_<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>常用方法舉例說明

    自然語言處理怎么最快入門_自然語言處理知識了解

    自然語言處理就是實現(xiàn)人機間自然語言通信,實現(xiàn)自然語言理解和自然語言生成是十分困難的,造成困難的根本原因是
    發(fā)表于 12-28 17:10 ?5415次閱讀

    自然語言處理入門基礎(chǔ)之hanlp詳解

    人工智能。自然語言處理涉及的幾個層次:自然語言處理的幾個層次作為輸入一共有兩個來源,語音與文本。所以第一級是語音識別和OCR或分詞(事實上,跳過分詞雖然理所當然地不能做
    發(fā)表于 11-29 14:33 ?850次閱讀

    什么是句法分析

    要深入研究句法分析,首先要知道,什么樣的句法分析算是好的句法分析,所以句法分析方法的評價是首要思考的問題,目前進行句法分析,主要是用依存
    的頭像 發(fā)表于 11-24 09:36 ?8740次閱讀
    什么是<b class='flag-5'>句法分析</b>

    自然語言列舉法描述法各自的特點

    自然語言文本。在自然語言處理中,列舉法和描述法是兩種常見的方法。 列舉法 列舉法是一種基于規(guī)則的方法,它通過列舉所有可能的情況來解決問題。在自然語言
    的頭像 發(fā)表于 07-03 14:13 ?1869次閱讀

    自然語言處理過程的五個層次

    自然語言處理(NLP)的五個層次: 詞法分析(Lexical Analysis): 詞法分析是NLP的第一步,它涉及將文本分解為基本單位,通常是單詞或標記。 詞法
    的頭像 發(fā)表于 07-03 14:27 ?1770次閱讀

    ASR與自然語言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理(NLP)是人工智能領(lǐng)域的兩個重要分支,它們在許多應用中緊密結(jié)合,共同構(gòu)成了自然語言理解和
    的頭像 發(fā)表于 11-18 15:19 ?1026次閱讀