一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言處理一些相關(guān)技術(shù)以及相關(guān)任務(wù)淺析

電子工程師 ? 來源:工程師青青 ? 作者: 電子發(fā)燒友 ? 2019-03-29 15:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文根據(jù)自己的學(xué)習(xí)以及查閱相關(guān)資料的理解總結(jié),簡(jiǎn)要的介紹一下自然語言處理(nlp)一些相關(guān)技術(shù)以及相關(guān)任務(wù),nlp技術(shù)包括基礎(chǔ)技術(shù)和應(yīng)用技術(shù)。后續(xù)會(huì)抽空繼續(xù)分專題完善這一個(gè)系列。限于作者水平有限,其中難免有錯(cuò)漏之處,歡迎讀者斧正。

發(fā)展

一般認(rèn)為1950 年圖靈提出著名的“圖靈測(cè)試”是自然語言處理思想的開端。20 世紀(jì) 50 年代到 70 年代自然語言處理主要采用基于規(guī)則的方法。基于規(guī)則的方法不可能覆蓋所有語句,且對(duì)開發(fā)者的要求極高。這時(shí)的自然語言處理停留在理性主義思潮階段。

70 年代以后隨著互聯(lián)網(wǎng)的高速發(fā)展,語料庫越來越豐富以及硬件更新完善,自然語言處理思潮由理性主義向經(jīng)驗(yàn)主義過渡,基于統(tǒng)計(jì)的方法逐漸代替了基于規(guī)則的方法。

從 2008 年到現(xiàn)在,由于深度學(xué)習(xí)在圖像識(shí)別、語音識(shí)別等領(lǐng)域不斷取得突破,人們也逐漸開始引入深度學(xué)習(xí)來做自然語言處理研究,由最初的詞向量到 2013 年 word2vec,將深度學(xué)習(xí)與自然語言處理的結(jié)合推向了高潮,并且在機(jī)器翻譯、問答系統(tǒng)、閱讀理解等領(lǐng)域取得了一定成功。再到最近的emlo、bert等,也許正在揭開下一個(gè)篇章。

定義

自然語言是指漢語、英語等人們?nèi)粘J褂玫恼Z言,是隨著人類社會(huì)發(fā)展自然而然的演變而來的語言,不是人造的語言,自然語言是人類學(xué)習(xí)生活的重要工具。或者說,自然語言是指人類社會(huì)約定俗成的,區(qū)別于人工語言,如程序設(shè)計(jì)的語言。

處理包含理解、轉(zhuǎn)化、生成等過程。自然語言處理,是指用計(jì)算機(jī)對(duì)自然語言的形、音、義等信息進(jìn)行處理,即對(duì)字(如果是英文即為字符)、詞、句、段落、篇章的輸入、輸出、識(shí)別、分析、理解、生成等的操作和加工。實(shí)現(xiàn)人機(jī)間的信息交流,是人工智能界、計(jì)算機(jī)科學(xué)和語言學(xué)界所共同關(guān)注的重要問題。所以自然語言處理也被譽(yù)為人工智能的掌上明珠。

可以說,自然語言處理就是要計(jì)算機(jī)理解自然語言,自然語言處理機(jī)制涉及兩個(gè)流程,包括自然語言理解和自然語言生成。自然語言理解是指計(jì)算機(jī)能夠理解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達(dá)給定的意圖。自然語言的理解和分析是一個(gè)層次化的過程,許多語言學(xué)家把這一過程分為五個(gè)層次,可以更好地體現(xiàn)語言本身的構(gòu)成,五個(gè)層次分別是語音分析、詞法分析、句法分析、語義分析和語用分析。

語音分析是要根據(jù)音位規(guī)則,從語音流中區(qū)分出一個(gè)個(gè)獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出音節(jié)及其對(duì)應(yīng)的詞素或詞。

詞法分析是找出詞匯的各個(gè)詞素,從中獲得語言學(xué)的信息。

句法分析是對(duì)句子和短語的結(jié)構(gòu)進(jìn)行分析,目的是要找出詞、短語等的相互關(guān)系以及各自在句中的作用。

語義分析是指運(yùn)用各種機(jī)器學(xué)習(xí)方法,學(xué)習(xí)與理解一段文本所表示的語義內(nèi)容。 語義分析是一個(gè)非常廣的概念。

語用分析是研究語言所存在的外界環(huán)境對(duì)語言使用者所產(chǎn)生的影響。

基礎(chǔ)技術(shù)

基礎(chǔ)技術(shù)包括詞法分析、句法分析、語義分析等。

詞法分析(lexical analysis)

詞法分析包括漢語分詞(word segmentation 或 tokenization)和詞性標(biāo)注(part-of-speech tag)等。

漢語分詞:處理漢語(英文自帶分詞)首要工作就是要將輸入的字串切分為單獨(dú)的詞語,這一步驟稱為分詞。

詞性標(biāo)注:詞性標(biāo)注的目的是為每一個(gè)詞賦予一個(gè)類別,這個(gè)類別稱為詞性標(biāo)記。比如,名詞(noun)、動(dòng)詞(verb)等。

句法分析(syntactic parsing)

句法分析是對(duì)輸入的文本句子進(jìn)行分析得到句子的句法結(jié)構(gòu)的處理過程。最常見的句法分析任務(wù)有下列幾種:

短語結(jié)構(gòu)句法分析(phrase-structure syntactic parsing):該任務(wù)也被稱作成分句法分析(constituent syntactic parsing),作用是識(shí)別出句子中的短語結(jié)構(gòu)以及短語之間的層次句法關(guān)系。

依存句法分析(dependency syntactic parsing):作用是識(shí)別句子中詞匯與詞匯之間的相互依存關(guān)系。

深層文法句法分析:即利用深層文法,例如詞匯化樹鄰接文法(Lexicalized Tree Adjoining Grammar,LTAG、詞匯功能文法(Lexical Functional Grammar,LFG)、組合范疇文法(Combinatory Categorial Grammar,CCG)等,對(duì)句子進(jìn)行深層的句法以及語義分析。

語義分析(Semantic Analysis)

語義分析的最終目的是理解句子表達(dá)的真實(shí)語義。但是,語義應(yīng)該采用什么表示形式一直困擾著研究者們,至今這個(gè)問題也沒有一個(gè)統(tǒng)一的答案。語義角色標(biāo)注(semantic role labeling)是目前比較成熟的淺層語義分析技術(shù)。

總而言之,自然語言處理系統(tǒng)通常采用級(jí)聯(lián)的方式,即分詞、詞性標(biāo)注、句法分析、語義分析分別訓(xùn)練模型。在使用過程中,給定輸入句子,逐一使用各個(gè)模塊進(jìn)行分析,最終得到所有結(jié)果。

近年來,研究者們提出了很多有效的聯(lián)合模型,將多個(gè)任務(wù)聯(lián)合學(xué)習(xí)和解碼,如分詞詞性聯(lián)合、詞性句法聯(lián)合、分詞詞性句法聯(lián)合、句法語義聯(lián)合等,取得了不錯(cuò)的效果。

應(yīng)用技術(shù)

另一方面是自然語言處理的應(yīng)用技術(shù),這些任務(wù)往往會(huì)依賴基礎(chǔ)技術(shù),包括文本聚類(Text Clustering)、文本分類(Text Classification)、文本摘要(Text abstract)、情感分析(sentiment analysis)、自動(dòng)問答(Question Answering,QA)、機(jī)器翻譯(machine translation, MT)、信息抽?。↖nformation Extraction)、信息推薦(Information Recommendation)、信息檢索(Information Retrieval,IR)等。

因?yàn)槊恳粋€(gè)任務(wù)都涉及的東西很多,因此在這里我簡(jiǎn)單總結(jié)介紹一下這些任務(wù),等以后有時(shí)間(隨著我的學(xué)習(xí)深入),再分專題詳細(xì)總結(jié)各種技術(shù)。

文本分類:文本分類任務(wù)是根據(jù)給定文檔的內(nèi)容或主題,自動(dòng)分配預(yù)先定義的類別標(biāo)簽。包括單標(biāo)簽分類和多標(biāo)簽文本分類,。

文本聚類:任務(wù)則是根據(jù)文檔之間的內(nèi)容或主題相似度,將文檔集合劃分成若干個(gè)子集,每個(gè)子集內(nèi)部的文檔相似度較高,而子集之間的相似度較低。

文本摘要:文本摘要任務(wù)是指通過對(duì)原文本進(jìn)行壓縮、提煉,為用戶提供簡(jiǎn)明扼要的文字描述。

情感分析:情感分析任務(wù)是指利用計(jì)算機(jī)實(shí)現(xiàn)對(duì)文本數(shù)據(jù)的觀點(diǎn)、情感、態(tài)度、情緒等的分析挖掘。

自動(dòng)問答:自動(dòng)問答是指利用計(jì)算機(jī)自動(dòng)回答用戶所提出的問題以滿足用戶知識(shí)需求的任務(wù)。

機(jī)器翻譯:機(jī)器翻譯是指利用計(jì)算機(jī)實(shí)現(xiàn)從一種自然語言到另外一種自然語言的自動(dòng)翻譯。被翻譯的語言稱為源語言(source language), 翻譯到的語言稱作目標(biāo)語言(target language)。

信息抽?。盒畔⒊槿∈侵笍姆墙Y(jié)構(gòu)化/半結(jié)構(gòu)化文本(如網(wǎng)頁、新聞、論文文獻(xiàn)、微博等)中提取指定類型的信息(如實(shí)體、屬性、關(guān)系、事件、商品記錄等),并通過信息歸并、冗余消除和沖突消解等手段將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化信息的一項(xiàng)綜合技術(shù)。

信息推薦:信息推薦據(jù)用戶的習(xí)慣、 偏好或興趣, 從不斷到來的大規(guī)模信息中識(shí)別滿足用戶興趣的信息的過程。

信息檢索:信息檢索是指將信息按一定的方式加以組織,并通過信息查找滿足用戶的信息需求的過程和技術(shù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14162
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22625

原文標(biāo)題:干貨 | 一文輕松了解NLP所有相關(guān)任務(wù)簡(jiǎn)介!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言自然語言(Natural Language )廣納了眾多技術(shù),對(duì)自然或人類
    發(fā)表于 05-02 13:50

    自然語言處理技術(shù)介紹

    專業(yè)知識(shí)。本文主要介紹自然語言處理領(lǐng)域的一些常用技術(shù)。受限于本人在數(shù)據(jù)處理領(lǐng)域的實(shí)踐經(jīng)驗(yàn),在示例的選擇上,主要以個(gè)人的研發(fā)項(xiàng)目為主,包括自動(dòng)
    發(fā)表于 09-27 09:57

    NLPIR語義分析是對(duì)自然語言處理的完美理解

    和邏輯表示。語義分析就是對(duì)信息所包含的語義的識(shí)別,并建立種計(jì)算模型,使其能夠像人那樣理解自然語言。語義分析是自然語言理解的根本問題,它在自然語言
    發(fā)表于 10-19 11:34

    自然語言處理怎么最快入門?

    `本文整理自知乎上的個(gè)問答,分享給正在學(xué)習(xí)自然語言處理的朋友們!、自然語言
    發(fā)表于 11-28 10:02

    語義理解和研究資源是自然語言處理的兩大難題

    都是為了解決低資源問題。自然語言處理一些特定領(lǐng)域的應(yīng)用時(shí),會(huì)受到資源不足的影響。般現(xiàn)在采用的主要方法是對(duì)引入領(lǐng)域知識(shí),通過增加人工標(biāo)注數(shù)據(jù),使用半監(jiān)督利用標(biāo)注數(shù)據(jù);或者采用多
    發(fā)表于 09-19 14:10

    【推薦體驗(yàn)】騰訊云自然語言處理

    `相信大家對(duì)NLP自然語言處理技術(shù)都不陌生,它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的個(gè)分支,它與計(jì)算機(jī)和人類之間使用自然語言進(jìn)行交互密切
    發(fā)表于 10-09 15:28

    自然語言處理語言模型

    自然語言處理——53 語言模型(數(shù)據(jù)平滑)
    發(fā)表于 04-16 11:11

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務(wù)有哪些?自然語言處理
    發(fā)表于 09-08 06:51

    自然語言處理的概念和應(yīng)用 自然語言處理屬于人工智能嗎

      自然語言處理(Natural Language Processing)是種人工智能技術(shù),它是研究自然語言與計(jì)算機(jī)之間的交互和通信的
    發(fā)表于 08-23 17:31 ?2203次閱讀

    自然語言處理技術(shù)的原理的應(yīng)用

    自然語言處理(Natural Language Processing, NLP)作為人工智能(AI)領(lǐng)域的個(gè)重要分支,旨在使計(jì)算機(jī)能夠理解和處理人類
    的頭像 發(fā)表于 07-02 12:50 ?1317次閱讀

    自然語言處理是什么技術(shù)種應(yīng)用

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語言學(xué)領(lǐng)域的個(gè)分支,它涉及到使用計(jì)算機(jī)技術(shù)
    的頭像 發(fā)表于 07-03 14:18 ?2119次閱讀

    自然語言處理模式的優(yōu)點(diǎn)

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、生成和處理人類
    的頭像 發(fā)表于 07-03 14:24 ?1253次閱讀

    自然語言處理技術(shù)有哪些

    ,以下是一些主要的自然語言處理技術(shù): 詞法分析(Lexical Analysis):詞法分析是自然語言
    的頭像 發(fā)表于 07-03 14:30 ?2358次閱讀

    使用Python進(jìn)行自然語言處理

    在探討使用Python進(jìn)行自然語言處理(NLP)的廣闊領(lǐng)域時(shí),我們首先需要理解NLP的基本概念、其重要性、Python在NLP中的優(yōu)勢(shì),以及如何通過Python實(shí)現(xiàn)一些基礎(chǔ)的NLP
    的頭像 發(fā)表于 07-04 14:40 ?770次閱讀

    圖像識(shí)別技術(shù)包括自然語言處理

    圖像識(shí)別技術(shù)自然語言處理是人工智能領(lǐng)域的兩個(gè)重要分支,它們?cè)诤芏喾矫嬗兄芮械穆?lián)系,但也存在一些區(qū)別。 、圖像識(shí)別
    的頭像 發(fā)表于 07-16 10:54 ?1574次閱讀