一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí):基于語境的文本分類弱監(jiān)督學(xué)習(xí)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:丁磊 ? 2021-01-18 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高成本的人工標(biāo)簽使得弱監(jiān)督學(xué)習(xí)備受關(guān)注。seed-driven 是弱監(jiān)督學(xué)習(xí)中的一種常見模型。該模型要求用戶提供少量的seed words,根據(jù)seed words對未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽,增加訓(xùn)練樣本。

但是由于一詞多義現(xiàn)象的存在,同一個(gè)seed word會(huì)出現(xiàn)在不同的類別中,從而增加生成正確偽標(biāo)簽的難度;同時(shí),單詞w在語料庫中的所有位置都使用一個(gè)的詞向量,也會(huì)降低分類模型的準(zhǔn)確性。

而本篇論文主要貢獻(xiàn)有:

開發(fā)一種無監(jiān)督的方法,可以根據(jù)詞向量和seed words,解決語料庫中單詞的一詞多義問題。

設(shè)計(jì)一種排序機(jī)制,消除seed words中一些無效的單詞;并將有效的單詞擴(kuò)充進(jìn)seed words中。

模型整體結(jié)構(gòu)為:

23886e4c-58b3-11eb-8b86-12bb97331649.png

第一步:使用聚類算法解決語料庫中單詞的一詞多義問題

對于每一個(gè)單詞 w, 假設(shè)w出現(xiàn)在語料庫的n個(gè)不同位置, 分別為 ,使用K-Means算法將分成K類,這里K可理解為單詞w的K個(gè)不同解釋。

用下列公式計(jì)算K的值:

23bb05f0-58b3-11eb-8b86-12bb97331649.png

其中代表第i個(gè)聚類中心的向量。的計(jì)算方法如下:

240a0f10-58b3-11eb-8b86-12bb97331649.png

這里s表示一個(gè)seed word,且表示s在語料庫第i次出現(xiàn),對應(yīng)的詞向量為。

sim() 表示余弦函數(shù),median( )表示取中位數(shù)。

則對于任意,有

24453194-58b3-11eb-8b86-12bb97331649.png

綜上,一詞多義問題解決算法如下:

249a483c-58b3-11eb-8b86-12bb97331649.png

使用上面算法,我們就可以將原始語料庫轉(zhuǎn)變?yōu)榛谡Z境下的語料庫:

24f7145e-58b3-11eb-8b86-12bb97331649.png

第二步:對未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽令表示文檔d的偽標(biāo)簽;表示類別為的seed word 集合;表示單詞w出現(xiàn)在文檔d的詞頻

2578e2f4-58b3-11eb-8b86-12bb97331649.png

第三步:使用基于語境下的語料庫進(jìn)行文檔分類

本篇論文使用Hierarchical Attention Networks (HAN) 進(jìn)行文本分類。

25a2678c-58b3-11eb-8b86-12bb97331649.png

第四步:設(shè)計(jì)排序函數(shù),更新seed words我們設(shè)計(jì)出一個(gè)打分函數(shù),用于表示單詞w僅高頻的出現(xiàn)在類別為的文檔。分值越高,表示單詞w對類別越重要。我們可以選擇分值最高的前幾個(gè)單詞作為新的seed word。也可以剔除一些不重要的seed word。

264f65a4-58b3-11eb-8b86-12bb97331649.png

其中:

268ed78e-58b3-11eb-8b86-12bb97331649.png

表示類別為的文檔的數(shù)量。表示類別為且含有單詞w的文檔的數(shù)量。表示在類別為的文檔中,單詞w的詞頻。

n為語料庫D的文檔總數(shù)目表示語料庫D中含有單詞w的文檔的數(shù)量。

結(jié)果

我們的完整模型稱為 ConWea,

而 ConWea-NoCon是 ConWea確實(shí)缺少第一步的變體。

ConWea-NoExpan是 ConWea確實(shí)缺少第四步的變體。

ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。

271870fc-58b3-11eb-8b86-12bb97331649.png

責(zé)任編輯:xj

原文標(biāo)題:【ACL2020】基于語境的文本分類弱監(jiān)督學(xué)習(xí)

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【ACL2020】基于語境的文本分類弱監(jiān)督學(xué)習(xí)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來呢?

    的基本理論。了解監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的基本原理。例如,在監(jiān)督學(xué)習(xí)中,理解如何通過標(biāo)注數(shù)據(jù)來訓(xùn)練模型進(jìn)行分類或回歸任務(wù),像通過大量的
    發(fā)表于 07-08 17:44

    使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗(yàn)知識。
    的頭像 發(fā)表于 05-16 14:48 ?662次閱讀
    使用MATLAB進(jìn)行無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇

    人工智能尤其是深度學(xué)習(xí)技術(shù)的最新進(jìn)展,加速了不同應(yīng)用領(lǐng)域的創(chuàng)新與發(fā)展。深度學(xué)習(xí)技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢,導(dǎo)致戰(zhàn)爭形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?526次閱讀

    xgboost在圖像分類中的應(yīng)用

    和易用性,在各種機(jī)器學(xué)習(xí)任務(wù)中得到了廣泛應(yīng)用,包括分類、回歸和排序問題。在圖像分類領(lǐng)域,盡管深度學(xué)習(xí)模型(如卷積神經(jīng)網(wǎng)絡(luò)CNN)占據(jù)主導(dǎo)地位
    的頭像 發(fā)表于 01-19 11:16 ?971次閱讀

    時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列無監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?755次閱讀
    時(shí)空引導(dǎo)下的時(shí)間序列自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動(dòng)力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?1890次閱讀

    使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)

    語言任務(wù),如文本分類、情感分析、機(jī)器翻譯等。以下是使用LLM進(jìn)行NLP的一些優(yōu)缺點(diǎn): 優(yōu)點(diǎn) 強(qiáng)大的語言理解能力 : LLM通過訓(xùn)練學(xué)習(xí)了大量的語言模式和結(jié)構(gòu),能夠理解和生成自然語言文本。 它們能夠捕捉到語言中的細(xì)微差別,包括
    的頭像 發(fā)表于 11-08 09:27 ?2415次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?646次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的方法

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?1328次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)模型的案例: 一、基于FPGA的AlexNet卷積運(yùn)算加速 項(xiàng)目名稱
    的頭像 發(fā)表于 10-25 09:22 ?1196次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2865次閱讀

    雷達(dá)的基本分類方法

    電子發(fā)燒友網(wǎng)站提供《雷達(dá)的基本分類方法.pdf》資料免費(fèi)下載
    發(fā)表于 09-11 09:09 ?6次下載

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    章節(jié)最后總結(jié)了機(jī)器學(xué)習(xí)分類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強(qiáng)化
    發(fā)表于 07-25 14:33

    利用Matlab函數(shù)實(shí)現(xiàn)深度學(xué)習(xí)算法

    在Matlab中實(shí)現(xiàn)深度學(xué)習(xí)算法是一個(gè)復(fù)雜但強(qiáng)大的過程,可以應(yīng)用于各種領(lǐng)域,如圖像識別、自然語言處理、時(shí)間序列預(yù)測等。這里,我將概述一個(gè)基本的流程,包括環(huán)境設(shè)置、數(shù)據(jù)準(zhǔn)備、模型設(shè)計(jì)、訓(xùn)練過程、以及測試和評估,并提供一個(gè)基于Matlab的
    的頭像 發(fā)表于 07-14 14:21 ?3617次閱讀