一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)網(wǎng)絡(luò)、機器翻譯、情感分類和自動評論等研究方向的5篇論文

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-16 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

第 56 屆計算語言學協(xié)會年會ACL 2018將于當?shù)貢r間7月15-20日在澳大利亞墨爾本舉辦。騰訊AI Lab 今年共有5 篇論文入選,涉及到神經(jīng)機器翻譯、情感分類和自動評論等研究方向。下面將介紹這 5 篇論文的研究內(nèi)容。

1、通往魯棒的神經(jīng)網(wǎng)絡(luò)機器翻譯指路(Towards Robust Neural MachineTranslation)

論文地址:https://arxiv.org/abs/1805.06130

在神經(jīng)機器翻譯(NMT)中,由于引入了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和注意機制,上下文中的每個詞都可能影響模型的全局輸出結(jié)果,這有些類似于“蝴蝶效應(yīng)”。也就是說,NMT對輸入中的微小擾動極其敏感,比如將輸入中某個詞替換成其近義詞就可能導致輸出結(jié)果發(fā)生極大變化,甚至修改翻譯結(jié)果的極性。針對這一問題,研究者在本論文中提出使用對抗性穩(wěn)定訓練來同時增強神經(jīng)機器翻譯的編碼器與解碼器的魯棒性。

上圖給出了該方法的架構(gòu)示意,其工作過程為:給定一個輸入句子x,首先生成與其對應(yīng)的擾動輸入x',接著采用對抗訓練鼓勵編碼器對于x 和x' 生成相似的中間表示,同時要求解碼器端輸出相同的目標句子y。這樣能使得輸入中的微小擾動不會導致目標輸出產(chǎn)生較大差異。

研究者在論文中提出了兩種構(gòu)造擾動輸入的方法。第一種是在特征級別(詞向量)中加入高斯噪聲;第二種是在詞級別中用近義詞來替換原詞。

研究表明,該框架可以擴展應(yīng)用于各種不同的噪聲擾動并且不依賴于特定的 NMT 架構(gòu)。實驗結(jié)果表明該方法能夠同時增強神經(jīng)機器翻譯模型的魯棒性和翻譯質(zhì)量,下表給出了在NIST 漢語-英語翻譯任務(wù)上的大小寫不敏感 BLEU 分數(shù)。

可以看到,研究者使用極大似然估計(MLE)訓練的 NMT 系統(tǒng)優(yōu)于其它最好模型大約3 BLEU。

2、hyperdoc2vec:超文本文檔的分布式表示(hyperdoc2vec:Distributed Representations of Hypertext Documents)

論文地址:https://arxiv.org/abs/1805.03793

現(xiàn)實世界中很多文檔都具有超鏈接的結(jié)構(gòu)。例如,維基頁面(普通網(wǎng)頁)之間通過URL互相指向,學術(shù)論文之間通過引用互相指向。超文檔的嵌入(embedding)可以輔助相關(guān)對象(如實體、論文)的分類、推薦、檢索等問題。然而,針對普通文檔的傳統(tǒng)嵌入方法往往偏重建模文本/鏈接網(wǎng)絡(luò)中的一個方面,若簡單運用于超文檔,會造成信息丟失。

本論文提出了超文檔嵌入模型在保留必要信息方面應(yīng)滿足的四個標準并且表明已有的方法都無法同時滿足這些標準。這些標準分別為:

內(nèi)容感知度(content awareness):超文檔的內(nèi)容自然在描述該超文檔方面起主要作用

上下文感知度(context awareness):超鏈接上下文通常能提供目標文檔的總結(jié)歸納

新信息友好度(newcomer friendliness):對于沒有被其它任何文檔索引的文檔,需要采用適當?shù)姆绞降玫剿鼈兊那度?/p>

語境意圖感知度(context intent awareness):超鏈接周圍的“evaluate... by”這樣的詞通常指示了源超文檔使用該引用的原因

為此,研究者提出了一種新的嵌入模型hyperdoc2vec。不同于大多數(shù)已有方法,hyperdoc2vec會為每個超文檔學習兩個向量,以表征其引用其它文檔的情況和被引用的情況。因此,hyperdoc2vec可以直接建模超鏈接或引用情況,而不損失其中包含的信息。下面給出了hyperdoc2vec 模型示意圖:

為了評估所學習到的嵌入,研究者在三個論文領(lǐng)域數(shù)據(jù)集以及論文分類和引用推薦兩個任務(wù)上系統(tǒng)地比較了hyperdoc2vec 與其它方法。模型分析和實驗結(jié)果都驗證了hyperdoc2vec 在以上四個標準下的優(yōu)越性。下表展示了在DBLP 上的 F1 分數(shù)結(jié)果:

可以看到,添加了 DeepWalk 信息后基本都能得到更優(yōu)的結(jié)果;而不管是否使用了 DeepWalk,hyperdoc2vec的結(jié)果都是最優(yōu)的。

3、TNet:面向評論目標的情感分類架構(gòu)(TransformationNetworks for Target-Oriented Sentiment Classification)

論文地址:https://arxiv.org/abs/1805.01086

開源項目:https://github.com/lixin4ever/TNet

面向評論目標(opinion target)的情感分類任務(wù)是為了檢測用戶對于給定評論實體的情感傾向性。直觀上來說,帶注意機制的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)很適合處理這類任務(wù),以往的工作也表明基于這類模型的工作確實取得了很好的效果。

研究者在這篇論文中嘗試了一種新思路,即用卷積神經(jīng)網(wǎng)絡(luò)(CNN)替代基于注意機制的RNN去提取最重要的分類特征。

由于CNN 很難捕捉目標實體信息,所以研究者設(shè)計了一個特征變換組件來將實體信息引入到單詞的語義表示當中。但這個特征變換過程可能會使上下文信息丟失。針對這一問題,研究者又提出了一種“上下文保留”機制,可將帶有上下文信息的特征和變換之后的特征結(jié)合起來。

綜合起來,研究者提出了一種名為目標特定的變換網(wǎng)絡(luò)(TNet)的新架構(gòu),如下左圖所示。其底部是一個BiLSTM,其可將輸入變換成有上下文的詞表示(即 BiLSTM 的隱藏狀態(tài))。其中部是TNet 的核心部分,由 L 個上下文保留變換(CPT)層構(gòu)成。最上面的部分是一個可感知位置的卷積層,其首先會編碼詞和目標之間的位置相關(guān)性,然后提取信息特征以便分類。

右圖則展示了一個CPT 模塊的細節(jié),其中有一個全新設(shè)計的TST 組件,可將目標信息整合進詞表示中。此外,其中還包含一個上下文保留機制。

研究者在三個標準數(shù)據(jù)集上評估了新提出的框架,結(jié)果表明新方法的準確率和F1值全面優(yōu)于已有方法;下表給出了詳細的實驗結(jié)果。

本研究的相關(guān)代碼已經(jīng)開源。

4、兼具領(lǐng)域適應(yīng)和情感感知能力的詞嵌入學習(Learning Domain-Sensitive andSentiment-Aware Word Embeddings)

論文地址:https://arxiv.org/abs/1805.03801

詞嵌入是一種有效的詞表示方法,已被廣泛用于情感分類任務(wù)中。一些現(xiàn)有的詞嵌入方法能夠捕捉情感信息,但是對于來自不同領(lǐng)域的評論,它們不能產(chǎn)生領(lǐng)域適應(yīng)的詞向量。另一方面,一些現(xiàn)有的方法可以考慮多領(lǐng)域的詞向量自適應(yīng),但是它們不能區(qū)分具有相似上下文但是情感極性相反的詞。

在這篇論文中,研究者提出了一種學習領(lǐng)域適應(yīng)和情感感知的詞嵌入(DSE)的新方法,可同時捕獲詞的情感語義和領(lǐng)域信息。本方法可以自動確定和生成領(lǐng)域無關(guān)的詞向量和領(lǐng)域相關(guān)的詞向量。模型可以區(qū)分領(lǐng)域無關(guān)的詞和領(lǐng)域相關(guān)的詞,從而使我們可以利用來自于多個領(lǐng)域的共同情感詞的信息,并且同時捕獲來自不同領(lǐng)域的領(lǐng)域相關(guān)詞的不同語義。

在 DSE 模型中,研究者為詞匯表中的每個詞都設(shè)計了一個用于描述該詞是領(lǐng)域無關(guān)詞的概率的分布。這個概率分布的推理是根據(jù)所觀察的情感和上下文進行的。具體而言,其推理算法結(jié)合了期望最大化(EM)方法和一種負采樣方案,其過程如下算法1 所示。

其中,E 步驟使用了貝葉斯規(guī)則來評估每個詞的 zw(一個描述領(lǐng)域相關(guān)性的隱變量)的后驗分布以及推導目標函數(shù)。而在M 步驟中則會使用梯度下降法最大化該目標函數(shù)并更新相應(yīng)的嵌入。

研究者在一個亞馬遜產(chǎn)品評論數(shù)據(jù)集上進行了實驗,下表給出了評論情感分類的實驗結(jié)果:

實驗結(jié)果表明,本工作提供了一個有效的學習兼具領(lǐng)域適應(yīng)和情感感知能力的詞嵌入的方法,并提高了在句子層面和詞匯層面的情感分類任務(wù)的性能。

5、自動評論文章:任務(wù)和數(shù)據(jù)集(Automatic Article Commenting: theTask and Dataset)

論文地址:https://arxiv.org/abs/1805.03668

公開數(shù)據(jù)集:https://ai.tencent.com/upload/PapersUploads/article_commenting.tgz

在線文章的評論可以提供延伸的觀點以及提升用戶的參與度。因而,自動產(chǎn)生評論正成為在線論壇智能聊天機器人中的一個很有價值的功能。

本論文提出了一個新的自動評論文章任務(wù),并為這個任務(wù)構(gòu)建了一個大規(guī)模的中文數(shù)據(jù)集:它包含數(shù)百萬條真實評論和一個人工標注的、能夠表達評論質(zhì)量的子集。下圖給出了這個數(shù)據(jù)集的統(tǒng)計信息和分類情況:

這個數(shù)據(jù)集是從騰訊新聞(news.qq.com)收集的。其中每個實例都有一個標題以及文章的文本內(nèi)容,還有一組讀者評論及輔助信息(sideinformation),該輔助信息中包含編輯為該文章劃分的類別以及每個評論獲得的用戶點贊數(shù)。

研究者爬取了 2017 年 4 月到 8 月的新聞文章及相關(guān)內(nèi)容,然后使用Python 庫Jieba 對所有文本進行了token 化,并過濾掉了文本少于 30 詞的短文章和評論數(shù)少于 20 的文章。所得到的語料又被分成了訓練集、開發(fā)集和測試集。該數(shù)據(jù)集的詞匯庫大小為1858452。文章標題和內(nèi)容的平均長度分別為 15 和 554 中文詞(不是漢字)。平均評論長度為17 詞。輔助信息方面,每篇文章都關(guān)聯(lián)了44 個類別中的一個。每條評論的點贊數(shù)量平均在 3.4-5.9 之間,盡管這個數(shù)字看起來很小,但該分布表現(xiàn)出了長尾模式——受歡迎的評論的點贊數(shù)可達成千上萬。

該數(shù)據(jù)集已開放下載。

通過引入評論質(zhì)量的人工偏好,本論文還提出了多個自動評價度量(W-METEOR、W-BLEU、W-ROUGE、W-CIDEr),它們拓展了現(xiàn)有主流的基于參考答案的度量方法而且它們獲得了與人類評價更好的相關(guān)度。研究者也演示了該數(shù)據(jù)集和相關(guān)評價度量在檢索和生成模型上的應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138048
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103618
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15196

原文標題:【ACL2018】騰訊AI Lab入選5篇論文解讀:神經(jīng)機器翻譯、情感分類等

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于LSTM神經(jīng)網(wǎng)絡(luò)的公交行程時間預(yù)測案例

    近年來,結(jié)合注意力機制的神經(jīng)網(wǎng)絡(luò)成為研究的熱點,被廣泛應(yīng)用于機器翻譯、圖像分類領(lǐng)域,在公交行程時間預(yù)測問題上的
    發(fā)表于 10-10 09:42 ?1709次閱讀

    機器翻譯三大核心技術(shù)原理 | AI知識科普

    ,美國喬治敦大學在IBM公司協(xié)同下用IBM-701計算機首次完成了英俄機器翻譯試驗,拉開了機器翻譯研究的序幕;沉寂階段:美國科學院成立了語言自動處理咨詢委員會(ALPAC)于1966年
    發(fā)表于 07-06 10:30

    機器翻譯三大核心技術(shù)原理 | AI知識科普 2

    本帖最后由 訊飛開放平臺 于 2018-7-6 10:47 編輯 神經(jīng)機器翻譯講完了基于規(guī)則的機器翻譯和基于統(tǒng)計的機器翻譯,接下來我們來看下基于端到端的
    發(fā)表于 07-06 10:46

    神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索有什么優(yōu)勢?

    ,稍有不同就無法復現(xiàn)論文的結(jié)果。而網(wǎng)絡(luò)結(jié)構(gòu)作為一種特殊的超參數(shù),在深度學習整個環(huán)節(jié)中扮演著舉足輕重的角色。在圖像分類任務(wù)上大放異彩的ResNet、在機器翻譯任務(wù)上稱霸的Transfor
    發(fā)表于 09-11 11:52

    神經(jīng)機器翻譯的方法有哪些?

    目前,神經(jīng)機器翻譯(NMT)已經(jīng)成為在學術(shù)界和工業(yè)界最先進的機器翻譯方法。最初的這種基于編碼器-解碼器架構(gòu)的機器翻譯系統(tǒng)都針對單個語言對進行翻譯
    發(fā)表于 11-23 12:14

    輕量化神經(jīng)網(wǎng)絡(luò)的相關(guān)資料下載

    原文鏈接:【嵌入式AI部署&基礎(chǔ)網(wǎng)絡(luò)】輕量化神經(jīng)網(wǎng)絡(luò)精述--MobileNet V1-3、ShuffleNet V1-2、NasNet深度神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用在圖像
    發(fā)表于 12-14 07:35

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    [16- 18]進行分類。特征提取和分類器的 設(shè)計是圖片分類任務(wù)的關(guān)鍵,對分類結(jié)果的好壞 有
    發(fā)表于 08-02 10:39

    探尋神經(jīng)網(wǎng)絡(luò)的本質(zhì) 分析神經(jīng)網(wǎng)絡(luò)機器翻譯和語音識別過程

    使用新的解釋技術(shù),來分析神經(jīng)網(wǎng)絡(luò)機器翻譯和語音識別的訓練過程,神經(jīng)網(wǎng)絡(luò)語言處理工作原理有待破解。
    發(fā)表于 12-12 14:31 ?1747次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的詳細介紹

    在循環(huán)神經(jīng)網(wǎng)絡(luò)可以用于文本生成、機器翻譯還有看圖描述,在這些場景中很多都出現(xiàn)了RNN的身影。
    的頭像 發(fā)表于 05-11 14:58 ?1.4w次閱讀
    循環(huán)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>(RNN)的詳細介紹

    美國一學校發(fā)表一機器翻譯算法論文報告 顯示可解碼神經(jīng)活動并將其翻譯為句子

    據(jù)外媒報道,近日美國加州大學舊金山分校的Joseph Makin及同事在《自然-神經(jīng)科學》上發(fā)表的一論文報告了一種能夠以較高的準確率,解碼神經(jīng)活動并將其
    的頭像 發(fā)表于 03-31 14:01 ?2513次閱讀

    結(jié)合正文的新聞評論情感分類方法綜述

    的新聞評論情感分析只考慮評論文本自身的信息,而新聞評論文本信息和新聞?wù)男畔⑼蔷o密相關(guān)的,基于此,文中提出一種基于交叉注意力機制并結(jié)合正文的新聞
    發(fā)表于 05-10 11:30 ?16次下載

    基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對比

    海量文本分析是實現(xiàn)大數(shù)據(jù)理解和價值發(fā)現(xiàn)的重要手段,其中文本分類作為自然語言處理的經(jīng)典問題受到研究者廣泛關(guān)注,而人工神經(jīng)網(wǎng)絡(luò)在文本分析方面的優(yōu)異表現(xiàn)使其成為目前的主要研究
    發(fā)表于 05-13 16:34 ?49次下載

    基于模板驅(qū)動的神經(jīng)機器翻譯模型綜述

    基于模板驅(qū)動的神經(jīng)機器翻譯模型綜述
    發(fā)表于 06-24 15:31 ?16次下載

    基于句子級上下文的神經(jīng)機器翻譯綜述

    基于句子級上下文的神經(jīng)機器翻譯綜述
    發(fā)表于 06-29 16:26 ?64次下載

    機器翻譯研究進展

    成為主流,如神經(jīng)網(wǎng)絡(luò)機器翻譯神經(jīng)網(wǎng)絡(luò)機器翻譯機器從大量數(shù)據(jù)中自動學習
    的頭像 發(fā)表于 07-06 11:19 ?1270次閱讀
    <b class='flag-5'>機器翻譯</b><b class='flag-5'>研究</b>進展