妓女精品一区二区三区四区,清纯唯美五月天日韩一区二区,中文字幕亚洲乱码熟女在线

自然語言處理（NLP）是一門集語言學(xué)、計算機科學(xué)、人工智能于一體的科學(xué)，解決的是“讓機器可以理解自然語言”——這一到目前為止都還只是人類獨有的特權(quán)，因此被譽為人工智能皇冠上的明珠。

近日，采訪到了 NLP 領(lǐng)域的華人新星——加州大學(xué)圣巴巴拉分校助理教授王威廉，向他請教了 NLP 領(lǐng)域最前沿的研究問題，以及 NLP 研究方向的一些建議。

關(guān)于王威廉：2009 年畢業(yè)于深圳大學(xué)，隨后赴美留學(xué)，并先后在哥倫比亞大學(xué)和卡耐基梅隆大學(xué)獲得碩士和博士學(xué)位。他的研究范圍包括統(tǒng)計關(guān)系學(xué)習(xí)、信息提取、社交媒體、語音和視覺等等。2016 年博士畢業(yè)之后，王威廉加盟加州大學(xué)圣巴巴拉分校。如今，王威廉已經(jīng)是該校 NLP 小組的負責(zé)人，同時也是計算機科學(xué)系的助理教授。近幾年來，王威廉在一些重要的 NLP/AI/ ML 等會議和期刊上發(fā)表了 60 多篇論文，并多次獲得知名學(xué)術(shù)會議的最佳論文獎及提名。

1）您現(xiàn)在的主要研究領(lǐng)域是什么？有哪些最新進展？

王威廉：我的主要研究領(lǐng)域現(xiàn)在有三個：自然語言處理、機器學(xué)習(xí)、人工智能。

在自然語言處理領(lǐng)域，我們實驗室主要關(guān)注的方向是信息抽取，社交媒體，語音、語言處理，以及語言與視覺方面的研究；

在機器學(xué)習(xí)領(lǐng)域，我們比較關(guān)注的是強化學(xué)習(xí)、對抗學(xué)習(xí)以及深度學(xué)習(xí)技術(shù)的突破；

在人工智能總體領(lǐng)域，我們對知識的表示、推理、知識圖譜非常關(guān)注。

我們最近的一些突破，比如發(fā)表在 EMNLP 2017 上 DeepPath 首先提出了用強化學(xué)習(xí)的方法去做知識圖譜上的推斷，這項工作取得了很大的關(guān)注。我們還有一些相關(guān)的工作，比如用變分推理的方法去進一步提高知識圖譜路徑找尋的效率。

此外，我們還有不少在語言與視覺方面的嘗試，包括 video captioning，video storytelling，以及如何把深度強化學(xué)習(xí)技術(shù)與這些復(fù)雜的語言與視覺的技術(shù)相結(jié)合。我們嘗試了逆向的強化學(xué)習(xí)，去學(xué)習(xí)生成文本描述的多樣性，主動學(xué)習(xí)它的一些獎勵函數(shù)。我們最近也做了一些 language grounding 的工作，比如教機器人根據(jù)語言與視覺的信息來完成路徑的找尋，到達目的地。同時我們也在社交媒體領(lǐng)域做了不少關(guān)于假新聞、仇恨言論檢測的工作。

2）NLP 領(lǐng)域目前有哪些突破？未來的研究難點有哪些？

王威廉：在 NLP 領(lǐng)域，實體標(biāo)注等工作的結(jié)果都非常好了，基本上都超過 90% 的準(zhǔn)確率?，F(xiàn)在的一些工作，包括大家很關(guān)心的閱讀理解，在 SQuAD 上面第一版的結(jié)果已經(jīng)非常好了。在未來，我認為語言的生成還是一個很難的問題，就是如何去做一些可以控制的生成，如何保證語義的連貫性以及語法的正確性，這些都是在神經(jīng)網(wǎng)絡(luò)框架下難以做到的。

還有一個是推理的問題。我們?nèi)绾芜M一步地在分類、在序列標(biāo)注等任務(wù)的基礎(chǔ)上設(shè)計一些算法以及機器學(xué)習(xí)的模型，然后讓機器能夠在一些復(fù)雜的任務(wù)上，尤其是一些推理的相關(guān)的任務(wù)上取得一些突破，這些還是相當(dāng)難的問題。

3）NLP 領(lǐng)域里比較流行的 SQuAD 數(shù)據(jù)集的局限性在哪？NLP 領(lǐng)域需要怎樣的數(shù)據(jù)集？以及怎樣的評價標(biāo)準(zhǔn)？

王威廉：它的局限性有幾個，第一是數(shù)據(jù)量還不大，第二是機器做閱讀理解的時候其實并不需要完全理解這個問題，也不需要完全理解這個篇章，它可以用很簡單的模式識別的方法去找 pattern。比如說這個問題里面的哪個詞和篇章里面的哪個詞比較匹配，然后來回答答案。所以它并不能真正地理解語言，不能很好地理解問題，遇到復(fù)雜的問題就回答不了。

NLP 領(lǐng)域需要更加復(fù)雜的數(shù)據(jù)集，比如說多個文本，需要在知識圖譜里做一些推斷，需要根據(jù)上下文不同的假設(shè)去做一些推測，這樣的數(shù)據(jù)集可能會有更多的幫助。

評價標(biāo)準(zhǔn)是很多人在討論的一個話題，像 BLEU 等已經(jīng)用了一二十年了，它局限性非常大，比如說它不是通過語義的方法來做評價，而是是通過詞之間的 overlap（重疊）做的一個評價標(biāo)準(zhǔn)，所以它不能代替人類的評價。

4）Salesforce 開發(fā)了一個針對十大自然語言常見任務(wù)（問答、機器翻譯、摘要、自然語言推理、情感分析、語義角色標(biāo)注、關(guān)系抽取、任務(wù)驅(qū)動多輪對話、數(shù)據(jù)庫查詢生成器和代詞消解）通用模型 decaNLP，這種通用模型有哪些優(yōu)缺點？

王威廉：個人認為多任務(wù)學(xué)習(xí)、是非常有意思的一個方向。你可以看一下 decaNLP 的單項結(jié)果，確實是比各個單項的 SOTA 還是有一些距離的。總體來說，這是非常有意思的一個研究方向，但是在實際應(yīng)用中，每一個單項的成績比單項的 SOTA 還是有不小的距離。

5）基于 Attention 的網(wǎng)絡(luò)真的可以取代 RNN 及其變種嗎？為什么？

王威廉：不一定。RNN 及其變種確實有一些優(yōu)勢，比如它能夠把握非常準(zhǔn)確的本地語義關(guān)系，像LSTM 在 sequence tagging 等任務(wù)上還是能取得非常不錯的結(jié)果。總體來說，Transformer 還是很有意思的研究角度，但是實際情況是，它并沒有在除了機器翻譯之外的 NLP 任務(wù)上面取得最好的結(jié)果。

6）強化學(xué)習(xí)和 GAN 現(xiàn)在非常熱門，但在 NLP 任務(wù)中又有很多限制，面對這種現(xiàn)狀，科研人員應(yīng)該怎么做？

王威廉：我覺得首先你要搞清楚為什么要用強化學(xué)習(xí)。在我看來，強化學(xué)習(xí)在 NLP 中可以做三件事情。第一件事情，你可以用它去做 learning to search，learning to rank，然后用強化學(xué)習(xí)作為解決傳統(tǒng)方法解決不了的問題的一種手段。第二件，我們發(fā)現(xiàn)在 reinforcedco-training 這個工作中，強化學(xué)習(xí)可以學(xué)習(xí)選擇數(shù)據(jù)，然后我們可以用強化學(xué)習(xí)去做 denoiser（去噪）。此外，還可以用強化學(xué)習(xí)去優(yōu)化 BLEU Score，ROUGE Score，我們最近發(fā)表在 ACL 2018 上的工作也有用逆向強化學(xué)習(xí)去學(xué)它的評價標(biāo)準(zhǔn)。總之，還是有不少值得研究的空間。

GAN 更是一個很有意思的方向。GAN 在 CV 領(lǐng)域取得了很好的結(jié)果，在 NLP 領(lǐng)域，由于語言是離散的，所以大家還在研究如何通過更好地設(shè)計對抗網(wǎng)絡(luò)，讓判別器可以去反向傳播錯誤，從而更好地更新生成器。我們在負例生成與遠程監(jiān)督去噪上也做了一些嘗試，包括今年的 KBGAN 和 DSGAN 。

總體來說，首先要搞清楚你為什么要做這個事情？你到底要做什么事情？強化學(xué)習(xí)跟 GAN 適不適合這個任務(wù)？搞清楚了這幾點，然后才有可能使得你的 NLP 的結(jié)果得到提升。如果搞不清楚就盲目應(yīng)用 GAN 和強化學(xué)習(xí)，是是很難在你的任務(wù)中取得很好的結(jié)果的。

7）對于科研人員來說，NLP 里哪些研究方向更容易取得突破？

王威廉：自然語言研究有兩塊，一個是生成，一個是理解。生成和理解這兩塊其實都非常重要，比較難說哪一塊更容易取得突破。

但是生成的任務(wù)肯定是非常難的，因為首先詞匯量是無窮無盡的，然后 latent space 和詞的映射關(guān)系也是非常難做的，所以生成會是比較難一點。

至于理解任務(wù)，要看你做到哪一步了。如果你是做文本分類這些簡單一點的任務(wù)，當(dāng)然也有難一點的，比如說結(jié)構(gòu)化預(yù)測，sequence tagging 會更難一點，那最難的可能就是比如說句法樹的生成，比如依存句法分析或者是語義分析。

8）面對目前 NLP 領(lǐng)域的研究困境，以往我們會在數(shù)據(jù)、ML 或 DL 等方法上做創(chuàng)新或改變，現(xiàn)在是否依然是這個思路？是否需要懂得語言學(xué)知識或者融合其他學(xué)科知識？

王威廉：在早些年，大家做 NLP 研究可能是研究計算語言學(xué)，就是怎樣用計算的方法去更好地理解語言學(xué)?，F(xiàn)在基本上已經(jīng)變了，過去 10-15年，NLP 基本上是計算機科學(xué)家為主，他們可能會關(guān)心一些更加實用的任務(wù)，比如說機器翻譯，對話系統(tǒng)。大家可以看到，很多的 NAACL 、EMNLP 論文，往往是在數(shù)據(jù)、任務(wù)或者是機器學(xué)習(xí)的方法上做一些創(chuàng)新。

這其實也跟計算機學(xué)科有關(guān)，因為計算機學(xué)科本身喜歡在算法層面上做創(chuàng)新。至于需不需要語言學(xué)知識？在深度學(xué)習(xí)之前，大家覺得是需要的，有了深度學(xué)習(xí)之后，大家覺得可能不需要。但是現(xiàn)在大家又發(fā)現(xiàn)，像 Seq2Seq 模型的結(jié)果非常差，語義連貫性、語法正確性也都沒有保證，而大家又想把結(jié)構(gòu)融合到深度學(xué)習(xí)模型里。所以我個人認為還是需要掌握一些語言學(xué)知識，至少對你學(xué)習(xí)和研究的語言要有一些基本的知識，而其他學(xué)科的知識，根據(jù)你不同的應(yīng)用也是非常重要的。比如說你做計算社會科學(xué)，你當(dāng)然是需要知道一些社會科學(xué)，包括心理學(xué)、社會學(xué)一些相關(guān)的知識，然后才能更好地讓你的研究取得突破。

9）近幾年中國在 NLP 領(lǐng)域的發(fā)展?fàn)顩r？

王威廉：最近幾年中國在 NLP 領(lǐng)域的發(fā)展是非常迅猛的，主要體現(xiàn)在下以下幾個方面。第一，大家可以看到，在 NLP領(lǐng)域的 ACL、NAACL、EMNLP 這三大會議上，中國人基本上已經(jīng)撐起了半邊天?，F(xiàn)在有一半的論文至少都是來自于國內(nèi)的高校，然如果看第一作者，華人作者的比例可能會更高。國內(nèi)工業(yè)界的發(fā)展也非常迅猛，尤其在自然語言處理領(lǐng)域。另外，現(xiàn)在國內(nèi)是百花齊放，不光是傳統(tǒng)的清華、北大、中科院、哈工大，很多其他的學(xué)校都陸陸續(xù)續(xù)有很多的優(yōu)秀的教授以及一些非常優(yōu)秀的研究。相比美國，中國的增速肯定是快很多的?？傮w來說，中美已經(jīng)是 NLP 領(lǐng)域的兩個強國了，接下來就希望更多的中國論文能夠獲得最佳論文獎。

10）中文 NLP 和英文 NLP 的區(qū)別在哪？

王威廉：中文 NLP 難點在于它的處理單元不是詞，而是字符。不管是做強化學(xué)習(xí)，還是做 Seq2Seq ，在詞級別來做和字符級別還是差很遠的。如果是做字符級別的話，你的 sequence 可能會變得非常長，并不太容易做。所以中文的挑戰(zhàn)在于語言本身比較難。除了漢語，也有其他少數(shù)民族的語言非常值得關(guān)注和留意。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1807

文章
49029

瀏覽量
249575
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8503

瀏覽量
134632
nlp

nlp

+關(guān)注

關(guān)注
1

文章
490

瀏覽量
22625

原文標(biāo)題：專訪王威廉：NLP哪些研究方向更容易取得突破？

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

專訪NLP領(lǐng)域的華人新星——加州大學(xué)圣巴巴拉分校助理教授王威廉

評論