一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

情感分析常用的知識有哪些呢?

深度學(xué)習(xí)自然語言處理 ? 來源:哈工大SCIR ? 作者:哈工大SCIR ? 2021-04-15 14:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.引文

情感分析 知識

當(dāng)training數(shù)據(jù)不足以覆蓋inference階段遇到的特征時,是標(biāo)注更多的數(shù)據(jù)還是利用現(xiàn)有外部知識充當(dāng)監(jiān)督信號

基于機器學(xué)習(xí)、深度學(xué)習(xí)的情感分析方法,經(jīng)常會遇到有標(biāo)注數(shù)據(jù)不足,在實際應(yīng)用過程中泛化能力差的局面。為了彌補這一缺點,學(xué)者們嘗試引入外部情感知識為模型提供監(jiān)督信號,提高模型分析性能。本文從常見的外部情感知識類型出發(fā),簡要介紹在情感分析中使用知識的一些代表性工作。

2.正文

我們?yōu)槭裁匆粩鄧L試在情感分析中融入知識呢?筆者以為有如下幾點原因:

1)一般的文本分類任務(wù)只提供句子或文檔級別的情感標(biāo)簽,引入情感詞典等先驗情感知識可以給情感文本引入更細(xì)粒度監(jiān)督信號,使得模型能學(xué)到更適合情感分析任務(wù)的特征表示。

2)底層的詞性、句法等分析任務(wù)能給下游的情感分類、抽取任務(wù)提供參考信息,如評價表達通常是形容詞或形容詞短語,而評價對象通常是名詞;不同情感分析任務(wù)本身存在相互促進作用,如評價對象和評價詞在句子中出現(xiàn)的距離通常比較近,聯(lián)合抽取能同時提高兩者的性能表現(xiàn)。

3)短文本評論通常略去了大量的背景常識知識,從文本本身通常難以推斷真實情感傾向性。例如一條有關(guān)大選的推文內(nèi)容是“I am so grateful for Joe Biden. Vote for #JoeBiden!!”,文本中并未涉及任何有關(guān)Trump的描述,要判斷它關(guān)于Trump的立場傾向性時,需要了解的背景知識是,二者是這次大選的競爭對手,支持一個人就意味著反對另一個人。

那情感分析常用的知識又有哪些呢?

2.1 知識的類型及情感分析常用知識庫

依據(jù)對知識獲取途徑的劃分方式[1],我們簡單總結(jié)了情感分析中常用的知識類型:

顯性知識

一般情感詞典(如MPQA,Bing Liu詞典等),情感表情符;否定詞(Negation)、強化詞(Intensification)、連接詞(Conjunction)等規(guī)則

SentiWordNet

ConceptNet,SenticNet

數(shù)據(jù)

數(shù)據(jù) (Twitter、微博表情符弱標(biāo)注數(shù)據(jù))

領(lǐng)域數(shù)據(jù)集 (例如某一類別商品評論數(shù)據(jù))

學(xué)習(xí)算法

詞法、句法、語義依存等模型

多任務(wù)學(xué)習(xí)算法

預(yù)訓(xùn)練語言模型、詞向量學(xué)習(xí)算法

其中,以情感詞典最為常用。情感分析數(shù)據(jù)通常結(jié)合語言模型算法,產(chǎn)生情感向量表示作為下游任務(wù)輸入;詞法、句法分析模型一般直接為下游情感分析任務(wù)提供特征輸入或者以多任務(wù)學(xué)習(xí)的方式參與到下游情感分析任務(wù)的訓(xùn)練過程中;結(jié)構(gòu)化的外部知識庫通常需要借助圖算法進行特征挖掘,為文本提供更豐富的常識、情感上下文信息。

2.2 知識的引入方式及在情感分析部分任務(wù)上的應(yīng)用

下表展示了幾種常見的知識類型及其特點,我們將根據(jù)知識的獲取途徑及引入方式,結(jié)合具體論文闡述其使用方式。

人工情感詞典 質(zhì)量高 規(guī)模小,靜態(tài),覆蓋低
自動情感詞典 規(guī)模大 靜態(tài)、質(zhì)量低
語言學(xué)規(guī)則 適用范圍廣 不夠準(zhǔn)確
預(yù)訓(xùn)練語言模型 上下文建模能力強 參數(shù)量大,訓(xùn)練時間長,運行速度慢
常識知識庫 規(guī)模大、質(zhì)量高、覆蓋全 利用困難
知識類型 優(yōu)點 缺點

目前,相關(guān)的情感分析工作可以大致分為以下幾類:

引入情感詞典知識

要說情感知識,大部分人首先會想到的就是人工編纂的情感詞典,它簡明直觀、質(zhì)量高、極性明確,使用方便,廣泛應(yīng)用在情感分類、情感元素抽取、情感原因發(fā)現(xiàn)、情感文本風(fēng)格遷移等多種情感分析任務(wù)上。情感詞區(qū)別于非情感詞的地方在于,它們一般表征一定的情感/情緒狀態(tài),通常情感詞典中還會給出其強度打分。類似的,現(xiàn)在網(wǎng)絡(luò)上流行的部分表情符 (emoj,如:) 、:( 、、)也能表征某些情感/情緒狀態(tài)。

圖1 人工編纂的情感詞典

我們在這里介紹一個同時使用情感詞典中詞的極性和打分的工作,看看前人們是如何在神經(jīng)網(wǎng)絡(luò)中把情感詞的情感信息融入文本的情感表示中的。

給定一段評論文本,Teng等人[2]首先找出其中的情感相關(guān)詞匯(如情感詞、轉(zhuǎn)折詞、否定詞),并計算其對文本整體情感極性的貢獻程度,然后將每個詞的貢獻值乘上其情感得分作為局部的情感極性值,最終加上全局的情感極性預(yù)測值作為整個文本的情感得分。

8cd4870a-9cd8-11eb-8b86-12bb97331649.png

圖2 同時使用情感詞典中詞的極性和打分

雖然上述工作在計算情感得分時,考慮了not、very等否定詞、強化詞的得分信息,但是沒有顯式把這些詞對周圍詞的情感語義表示的影響刻畫出來,Qian等人[3]考慮到情感詞、否定詞、強化詞在情感語義組合過程中起到的不同作用,對文本建模過程中對不同位置詞的情感分布加以約束。例如,若一個詞的上文是not等否定詞,會帶來not處文本情感語義的翻轉(zhuǎn)。

8ce570c4-9cd8-11eb-8b86-12bb97331649.png

圖3 對不同位置詞的情感分布加以約束

總體來看,情感詞典作為一種易于獲取、極性準(zhǔn)確的情感知識,能夠在標(biāo)注語料之外,為情感分析提供額外的監(jiān)督信號,既可以提升有監(jiān)督模型的泛化能力,也能夠為半監(jiān)督、無監(jiān)督模型提供一定的指導(dǎo)。

引入大規(guī)模無標(biāo)注語料

語言建模作為一個典型的自監(jiān)督學(xué)習(xí)任務(wù),其語言模型產(chǎn)生的詞表示作為下游任務(wù)網(wǎng)絡(luò)模型的輸入,表現(xiàn)出優(yōu)越的性能,因而得到廣泛的應(yīng)用。如果能將情感知識融入到語言模型中,其產(chǎn)生的詞表示必然對情感分析各子任務(wù)帶來性能提升。

我們接著介紹一個在詞向量中融入顯式情感詞典知識(實際使用的是表情符)的方法。

Tang等人[4]觀察到,一般的詞向量對于“good”和“bad”這種上下文相近但極性相反的詞,給出的向量表示沒有很強的區(qū)分性,不利于下游的各情感分析任務(wù)。Twitter和微博中有海量包含表情符的文本,利用這些情感極性明確的表情符可以過濾得到大量弱標(biāo)注的情感文本。Tang等人使用這些語料,他們在普通的C&W模型基礎(chǔ)上,引入情感得分相關(guān)的損失,將這些弱標(biāo)注的情感信息融入詞向量表示中,使“good”和“bad”這種上下文相近但情感不同的詞的向量表示有明顯的差異。在情感分類任務(wù)上,他們驗證了融入情感表情符知識的有效性。在此基礎(chǔ)上,他們還進一步自動構(gòu)建大規(guī)模情感詞典,該詞典被[2]應(yīng)用到Twitter情感分類任務(wù)上。

8cf22e7c-9cd8-11eb-8b86-12bb97331649.png

圖4 將基于表情符過濾的弱標(biāo)注情感信息融入詞向量表示中

引入外部特征提取算法

除了準(zhǔn)確的情感詞知識,詞法、句法、語義依存信息、評價詞和評價表達等情感信息在文本的情感語義建模過程中也發(fā)揮了重要作用,這些知識不是顯性存在于大規(guī)模的知識圖譜中,而是存在于對應(yīng)的人工標(biāo)注數(shù)據(jù)中。一般利用學(xué)習(xí)算法從這些數(shù)據(jù)中訓(xùn)練用于提取特征的模型。

Tian等人[5]在近期的預(yù)訓(xùn)練BERT語言模型基礎(chǔ)上,將文本中的評價對象(屬性)、情感詞等情感元素引入Mask Language Model預(yù)訓(xùn)練任務(wù),進一步提高了BERT類模型在多個情感分類數(shù)據(jù)集上的性能。

8d0c8e5c-9cd8-11eb-8b86-12bb97331649.png

圖5 將多種情感元素引入Mask Language Model預(yù)訓(xùn)練任務(wù) 同[3]類似,Ke等人[6]在預(yù)訓(xùn)練語言模型中引入詞級別的情感、詞性知識。他們先給每個詞預(yù)測詞性信息,然后依據(jù)詞性信息從SentiWordNet中推斷其情感極性?;讷@得的詞性和情感信息,他們在一般的Masked Language Model基礎(chǔ)上同時預(yù)測這些語言學(xué)標(biāo)簽,實現(xiàn)在預(yù)訓(xùn)練語言模型中注入情感知識。該模型在主流的情感分類、細(xì)粒度情感分析數(shù)據(jù)集上取得了目前最好的結(jié)果,證明引入詞性和情感極性知識在預(yù)訓(xùn)練任務(wù)中的有效性。

8d1fa410-9cd8-11eb-8b86-12bb97331649.png

圖6在預(yù)訓(xùn)練語言模型中引入詞級別的情感、詞性知識

Sun等人[7]提出在面向?qū)傩缘那楦蟹诸悾ˋBSA)任務(wù)上,引入Stanford parser解析得到的依存樹信息輔助識別評價對象相關(guān)的評價詞。他們將GCN在依存樹上學(xué)習(xí)得到的表示與BLSTM學(xué)習(xí)到的特征結(jié)合,判斷句子針對評價對象的情感極性。

8d3b0ef8-9cd8-11eb-8b86-12bb97331649.png

圖7將GCN在依存樹上學(xué)習(xí)得到的表示與BLSTM學(xué)習(xí)到的特征結(jié)合

在外部特征引入方式上,目前方法以兩種方法為主:(1)直接作為特征輸入模型(2)以多任務(wù)學(xué)習(xí)的方式,作為輔助任務(wù)與主任務(wù)一同訓(xùn)練。這些方法的區(qū)別主要在引入特征類別或者輔助任務(wù)的任務(wù)設(shè)計。

引入常識知識

除了情感詞典、情感詞向量、情感預(yù)訓(xùn)練語言模型、文本特征抽取器外,結(jié)構(gòu)化的外部知識也是很常見的一種情感知識來源。它的特點是規(guī)模大,覆蓋面廣,蘊含豐富的實體、事件或者常識概念間相關(guān)關(guān)系知識。結(jié)構(gòu)化知識中具備高質(zhì)量的關(guān)系類型,因而適用于需要推理、泛化的情感分析任務(wù)。

一個典型的需要泛化的任務(wù)是跨領(lǐng)域文本情感分類任務(wù)。源端和目標(biāo)端的評價對象、評價詞等情感相關(guān)特征差異較大,訓(xùn)練時模型依賴的源端分類特征未必會在目標(biāo)端文本中出現(xiàn),如何將這些情感特征進行對齊是一個重要且富有挑戰(zhàn)性的問題。一類方法是使用通用情感詞典作為pivot信息,建立源端、目標(biāo)端共享特征的對齊,但這類方法只考慮共享的情感詞信息,且通過文本本身學(xué)習(xí)到的情感表達對齊也不充分、準(zhǔn)確,同時無法捕獲到不同領(lǐng)域之間評價對象之間鏈接關(guān)系。

而結(jié)構(gòu)化外部知識正好彌補了這些缺點,它蘊含情感詞到非情感詞、不同領(lǐng)域評價對象之間的關(guān)聯(lián)關(guān)系。近年由于圖表示算法的進步,學(xué)者們能夠更高效的對這些結(jié)構(gòu)化外部知識加以利用。

在跨領(lǐng)域情感文檔情感分類任務(wù)上,Ghosal等人[8]在ACL2020上提出KinGDOM算法, 利用ConceptNet為所有領(lǐng)域構(gòu)建一個小規(guī)模知識圖譜,然后找出每個文檔中獨有的名詞、形容詞、副詞集合,再依據(jù)從中抽取出一個文檔相關(guān)的子圖,進而提供一個由知識庫知識提取而來的特征表示,與文檔本身的情感表示一起做最后的情感分類。

8d6956f0-9cd8-11eb-8b86-12bb97331649.png

圖8KinGDOM算法

類似地,在跨目標(biāo)立場分類任務(wù)上,Zhang等人[9]利用SenticNet和EmoLex構(gòu)建學(xué)習(xí)帶情緒關(guān)系連接的語義-情緒圖譜(SE-graph),并使用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)學(xué)習(xí)節(jié)點表示。給定一段文本,他們使用SE-graph為每個詞學(xué)習(xí)構(gòu)建一個子圖并學(xué)習(xí)其表示,得到的外部特征表示送入修改后的BLSTM隱層,與當(dāng)前上下文特征進行融合。

8d7c327a-9cd8-11eb-8b86-12bb97331649.png

圖9基于SE-graph 使用GCN學(xué)習(xí)節(jié)點表示

這兩個工作都使用外部結(jié)構(gòu)知識,擴展了輸入特征空間,利用知識庫中的連接將源端和目標(biāo)端的評價詞、評價對象等特征進行對齊,極大地豐富了情感上下文信息。

3.總結(jié)

本文介紹了情感分析中引入外部知識的部分工作,簡要介紹了現(xiàn)階段情感分析常用的外部知識,從最常見的情感詞典入手,逐步介紹基于情感詞典的情感詞向量、預(yù)訓(xùn)練語言模型,展示了使用多任務(wù)學(xué)習(xí)融合詞性、依存句法等文本底層特征抽取器的工作,最后介紹了近期熱門的使用結(jié)構(gòu)化外部知識的文本情感遷移學(xué)習(xí)工作。我們可以看出,情感詞典雖然最為簡單,卻是情感知識引入多種引入方式的基石,在情感分析算法中地位無出其右。

對于未來工作,一方面,由于目前的情感分析中知識引入的應(yīng)用場景仍局限在情感分類任務(wù)中,有待擴展到情感抽取、情感(多樣性)生成等各個情感分析任務(wù)上;另一方面,在情感分析專用預(yù)訓(xùn)練語言模型中融合結(jié)構(gòu)化外部知識,增強預(yù)訓(xùn)練語言模型對情感分析相關(guān)世界知識的理解仍有待探索。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 文本分類
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    7398
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25445
  • 情感分析
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    5296

原文標(biāo)題:【情感分析】基于知識引入的情感分析

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    洲明科技推出DeepSeek滿血版AI全息情感陪伴艙

    在這個科技日新月異的時代,人工智能正以前所未有的速度融入日常生活。從生產(chǎn)力工具到情感陪伴,隨著DeepSeek等大模型加速進化,AI不僅正重塑產(chǎn)業(yè)格局,更在改變?nèi)祟惻c世界的交互方式。
    的頭像 發(fā)表于 03-07 16:52 ?782次閱讀

    基于Raspberry Pi 5的情感機器人設(shè)計

    Raspberry Pi 5相較于上一代搭載了更強的處理器和硬件性能,為情感機器人的開發(fā)提供了前所未有的可能性。其支持多任務(wù)處理和實時計算,為語音交互和情感判斷提供了堅實的基礎(chǔ)。此外配合高性能的攝像頭模塊和傳感器,機器人能夠捕捉環(huán)境信息,真正做到 “知人知面” 。
    的頭像 發(fā)表于 02-26 14:28 ?1107次閱讀
    基于Raspberry Pi 5的<b class='flag-5'>情感</b>機器人設(shè)計

    常用運放電路總結(jié)筆記

    帶你理解運算放大器 對于運放的使用,存在著一些經(jīng)典常用的應(yīng)用電路,這個其實網(wǎng)絡(luò)上已經(jīng)大量的文章做記錄總結(jié)了,作為電子工程師必備的知識,我自己也覺得有必要用一篇文章來做個記錄總結(jié)。 本文的電路
    的頭像 發(fā)表于 02-20 10:58 ?1604次閱讀
    <b class='flag-5'>常用</b>運放電路總結(jié)筆記

    華為-射頻基礎(chǔ)知識培訓(xùn)

    課程目標(biāo)z 熟悉和掌握射頻基本概念和知識z 了解無線射頻系統(tǒng)結(jié)構(gòu)z 了解天饋系統(tǒng)的概念和知課程內(nèi)容第一章 無線通信的基本概念第二章 射頻常用計算單位簡介第三章 射頻常用概念辨析第四章 射頻系統(tǒng)介紹第五章 天線傳播基礎(chǔ)
    發(fā)表于 12-10 13:39 ?1次下載

    Minitab常用功能介紹 如何在 Minitab 中進行回歸分析

    Minitab是一款強大的質(zhì)量管理統(tǒng)計軟件,為質(zhì)量改善、教育和研究應(yīng)用領(lǐng)域提供統(tǒng)計軟件和數(shù)據(jù)分析工具。以下是對Minitab常用功能的介紹,以及使用Minitab進行回歸分析的具體步驟
    的頭像 發(fā)表于 12-02 15:38 ?2895次閱讀

    快恢復(fù)二極管選型參數(shù)怎么看?常用型號哪些?

    快恢復(fù)二極管選型參數(shù)怎么看?常用型號哪些?
    的頭像 發(fā)表于 11-14 17:30 ?1963次閱讀
    快恢復(fù)二極管選型參數(shù)怎么看?<b class='flag-5'>常用</b>型號<b class='flag-5'>有</b>哪些?

    基于LSTM神經(jīng)網(wǎng)絡(luò)的情感分析方法

    情感分析是自然語言處理(NLP)領(lǐng)域的一項重要任務(wù),旨在識別和提取文本中的主觀信息,如情感傾向、情感強度等。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于LSTM(長短期記憶)神經(jīng)網(wǎng)絡(luò)的
    的頭像 發(fā)表于 11-13 10:15 ?1273次閱讀

    【電路小知識】交流電路基礎(chǔ)知識和波形的種類

    的不同組合,可以設(shè)計出具有各種功能的電路。要想駕馭交流電路,就需要掌握波形和特性分析、計算以及設(shè)計技能,以便能夠預(yù)測電路行為、鎖定問題點并實現(xiàn)最佳設(shè)計。 本文將介紹交流電路的工作原理和基本要素等基礎(chǔ)知識
    發(fā)表于 10-25 11:45

    人員軌跡分析算法哪些?

    時段等。這些信息可以對城市規(guī)劃、交通管理、公共安全等方面具有重要的指導(dǎo)意義。而為了實現(xiàn)人員軌跡分析,我們需要使用一些專門的算法和技術(shù)。 下面是幾種常用的人員軌跡分析算法: 1. 基于密度的聚類算法: 基于密度的聚類
    的頭像 發(fā)表于 09-26 10:42 ?927次閱讀

    請問數(shù)字信號傳輸性能分析常用來做什么?

    數(shù)字信號傳輸性能分析常用來做什么?
    發(fā)表于 09-19 08:31

    嵌入式常用總線哪些

    嵌入式系統(tǒng)中常用的總線種類繁多,它們各自具有不同的特點和應(yīng)用場景。以下將詳細(xì)介紹幾種嵌入式開發(fā)中常用的總線,包括UART、I2C、SPI、RS-232、RS-485、CAN以及USB等,每種總線將從其定義、特點、工作原理、應(yīng)用場景等方面進行闡述。
    的頭像 發(fā)表于 09-10 11:34 ?1417次閱讀

    常用連接器的分類哪些

    常用連接器的分類多種多樣,每種類型都根據(jù)其特定的應(yīng)用場合和設(shè)計特點進行劃分。以下是對常用連接器的一個簡要分類介紹,旨在涵蓋其主要類型及其特點。
    的頭像 發(fā)表于 09-10 10:32 ?2198次閱讀

    請問常用的高速比較器哪些?

    常用的高速比較器哪些?
    發(fā)表于 09-03 07:23

    常用的仿真軟件哪些

    在當(dāng)今的工程和技術(shù)領(lǐng)域,仿真軟件已經(jīng)成為了一種非常重要的工具。它們可以幫助工程師和研究人員在實際制造和測試之前,對系統(tǒng)或產(chǎn)品進行模擬和分析。以下是一些常用的仿真軟件及其特點: MATLAB
    的頭像 發(fā)表于 08-22 09:18 ?6350次閱讀

    常用分析方法——輸入輸出阻抗,是怎么玩的?你會不?

    中的耦合電容從0.1uF-220uF都有,這是有病嗎?都是用作隔離直流的,怎么就不能統(tǒng)一? 明白這個問題其實很簡單,我們看信號是如何傳輸就容易明白了。這里就講 一個電路的分析方法,或者說是思維方式 。 電路分析方法 我們經(jīng)常會
    的頭像 發(fā)表于 07-18 18:29 ?9063次閱讀
    我<b class='flag-5'>常用</b>的<b class='flag-5'>分析</b>方法——輸入輸出阻抗,是怎么玩的?你會不?