1月27日,第33屆 AAAI(AAAI 2019)在美國夏威夷召開,其中百度共有15篇論文被收錄。
AAAI于1979年成立,是國際人工智能領(lǐng)域的頂級國際會議。這一協(xié)會如今在全球已有超過6000名的會員,匯集了全球最頂尖的人工智能領(lǐng)域?qū)<覍W(xué)者,一直是人工智能界的研究風(fēng)向標,在學(xué)術(shù)界久負盛名。
本屆大會共收到7700余篇有效投稿,其中7095篇論文進入評審環(huán)節(jié),最終有1150篇論文被錄用,錄取率為近年最低僅為16.2%。百度共獲得15篇論文被收錄的成績。其中有5位作者受邀在主會做 Oral 形式報告,另有10位作者將攜論文在主會以 Spotlight Poster 形式做報告。
在百度此次收錄的15篇論文中,內(nèi)容涉及智能出行、機器學(xué)習(xí)、視頻建模、無人駕駛、自然語言處理、智能醫(yī)療等多個領(lǐng)域。
自然語言處理領(lǐng)域
百度這次被AAAI收錄的論文《Modeling Coherence for Discourse Neural Machine Translation》,提出了一種篇章級別的翻譯模型,能夠使得篇章內(nèi)的句子之間保持良好的連貫性和一致性。這是由于翻譯一些文檔、演講之類的文本時,通常需要慮句子之間的銜接性和連貫性。而傳統(tǒng)的翻譯模型通常都是將一個句子當(dāng)做單獨的翻譯單元,忽視了句子之間的關(guān)聯(lián)性。
具體來說,該論文提出了一種多輪解碼方案,在第一輪解碼中單獨生成每個句子的初步翻譯結(jié)果,在第二輪解碼中利用第一輪翻譯的結(jié)果進行翻譯內(nèi)容潤色,并且提出使用增強式學(xué)習(xí)模型來獎勵模型產(chǎn)生篇幅更一致的譯文。最終在演講文本的測試集合上,論文提出的模型不僅能夠提升句子級別1.23 BLEU,同時能夠提升篇章級別2.2 BLEU。通過實驗分析,本文提出的翻譯模型確實能產(chǎn)生篇章更加連貫和一致的句子。
此模型是基于 Transformer 模型設(shè)計的。首先,訓(xùn)練流程中的一個 batch 為一篇文章中的所有句子,在第一輪解碼中,采用標準的 Transformer 模型生成單個句子的初步翻譯結(jié)果。在第二輪解碼中,將第一輪產(chǎn)生的譯文合并成一個句子,構(gòu)成此篇章翻譯的參考譯文。同時將初步翻譯結(jié)果作為一個額外的 Multi-Head Attention 機制,加入到 Decoder 的解碼流程中。通過這個步驟,在第二輪解碼的過程中,在翻譯單個句子時,能夠考察其他句子可能產(chǎn)生的翻譯結(jié)果,進而調(diào)整當(dāng)前句子的文本輸出概率,盡量使得翻譯結(jié)果更一致。最終利用 Self-critical 的學(xué)習(xí)機制,鼓勵模型生成篇章一致性的譯文。值得一提的是,不僅僅是第二輪解碼中可以使用增強式學(xué)習(xí)機制,在第一輪解碼中也可以鼓勵模型產(chǎn)生更一致的譯文。
本文首次在學(xué)術(shù)和工業(yè)界提出解決神經(jīng)網(wǎng)絡(luò)翻譯中的篇章一致性和連貫性問題,并且提出了一種通用的解碼框架,通過多輪解碼和增強式學(xué)習(xí)策略,使得模型能產(chǎn)生良好的篇章連貫和一致性的譯文。同時,本文還提出了若干評估篇章連貫和一致性的評價方法,有利于促進相關(guān)的研究工作發(fā)展。
目前的在線翻譯引擎基本都是針對單個句子進行解碼翻譯,并不能保證一篇文章翻譯出來后句子之間有很好的連貫性,采用本文提出的方法,能夠使得篇章級別的翻譯文本閱讀起來更流暢,句子之間的連貫性更好。
無人車駕駛領(lǐng)域
為了能在復(fù)雜的城市交通中安全有效地行駛,無人車必須對周圍交通體(機動車,自行車,行人等等)的行為軌跡做出可靠的預(yù)測。一個十分重要又具有挑戰(zhàn)性的任務(wù)就是探索各種各樣的交通體的不同的行為特征并能對它們做出及時準確的預(yù)測,進而幫助無人車做出合理的行駛決策。
為了解決這個問題,《TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents》的作者提出了基于 LSTM 的路徑預(yù)測算法 TrafficPredict。他們的方法是用實例層來學(xué)習(xí)個體的運動規(guī)律和它們之間的交互,用類別層來學(xué)習(xí)同一類別的個體的運動的相似性,從而進一步優(yōu)化對個體的預(yù)測結(jié)果。
他們采集了一個復(fù)雜路況下的交通數(shù)據(jù)集,正常行駛的汽車通過 Lidar 采集的連續(xù)幀數(shù)據(jù)經(jīng)過標注得到。問題設(shè)定為觀察交通體[0 : Tobs]時間段內(nèi)的運動軌跡,預(yù)測 [Tobs + 1 : Tpred]的運動軌跡。對于一個時間段的數(shù)據(jù),首先把數(shù)據(jù)組織成一個4D Graph。
這個 Graph 包含兩個層,一個是實例層,一個是類別層。在實例層中,每一個個體看成一個節(jié)點,每一幀中個體之間通過邊連接,相鄰幀的同一個體也通過邊連接。在類別層中,同一幀中相同類別的個體把信息匯總到一個超節(jié)點中,超節(jié)點會總結(jié)經(jīng)驗,進而反向改善每一個個體的預(yù)測結(jié)果,相鄰幀的同一個超節(jié)點也通過邊連接。4D Graph 通過邊捕捉個體在空間上的交互信息,在時間上的連續(xù)信息,和在類別上的相似信息,通過節(jié)點和超節(jié)點匯總和分析這些信息。
本文提出的方法把多類別交通體的路線預(yù)測統(tǒng)一到一個框架之下,通過構(gòu)建空間和時間維度上的4D Graph,充分利用交通體自身的運動模式和與周圍交通體交互的信息,并通過超節(jié)點總結(jié)概括同類別運動相似性來改善個體的結(jié)果,從而對每個交通體的軌跡預(yù)測精度有了較大提高。另外,本文還發(fā)布了多類別體的復(fù)雜城市交通的路線數(shù)據(jù)集。
目前自動駕駛的測試場景都是比較規(guī)則和簡單的交通場景:有清晰的車道線,紅綠燈,交通參與體比較單一。但是,很多城市交通,比如中國或印度的城市交通,具有很高的復(fù)雜度。尤其在一些十字路口,自行車、三輪車、汽車、公交車交互前進。本文針對多類別體城市交通提出的的路徑預(yù)測算法,為無人車在復(fù)雜交通場景下的導(dǎo)航提供了更為精確的指導(dǎo),進而可以提升自動駕駛系統(tǒng)的安全性。
視頻建模
深度學(xué)習(xí)在靜態(tài)圖像理解上取得了巨大成功,然而高效的視頻時序及空域建模的網(wǎng)絡(luò)模型尚無定論。不同于已有的基于 CNN+RNN 或者 3D 卷積網(wǎng)絡(luò)的方法,《StNet: Local and Global Spatial-Temporal Modeling for Action Recognition》 一文提出了兼顧局部時空聯(lián)系以及全局時空聯(lián)系的視頻時空聯(lián)合建模網(wǎng)絡(luò)框架 StNet。
具體而言,StNet 將視頻中連續(xù) N 幀圖像級聯(lián)成一個 3N 通道的“超圖”,然后用 2D 卷積對超圖進行局部時空聯(lián)系的建模。為了建立全局時空關(guān)聯(lián),StNet 中引入了對多個局部時空特征圖進行時域卷積的模塊。特別地,我們提出了時序 Xception 模塊對視頻特征序列進一步建模時序依賴。在 Kinetics 動作識別數(shù)據(jù)集的大量實驗結(jié)果表明,StNet 能夠取得 State-of-the-art 的識別性能,同時 StNet 在計算量與準確率的折衷方面表現(xiàn)優(yōu)異。此外實驗結(jié)果驗證了 StNet 學(xué)習(xí)到的視頻表征能夠在 UCF101 上有很好的遷移泛化能力。
StNet 提出了局部和全局時空聯(lián)系聯(lián)合建模的概念,能得到更具判別力的視頻表征,有效的提高視頻動作識別的性能。同時,StNet 的設(shè)計兼顧了計算量與識別準確率的折衷,具有很好的實用價值。StNet 作為一個 backbone 網(wǎng)絡(luò)結(jié)構(gòu),可以應(yīng)用在用 video2vector、視頻識別等方面。
附:被 AAAI 2019收錄的百度15篇論文題目
lModeling Coherence for Discourse Neural Machine Translation
lJoint Representation Learning for Multi-Modal Transportation Recommendation
lSpHMC: Spectral Hamiltonian Monte Carlo
lStNet: Local and Global Spatial-Temporal Modeling for Action Recognition
lTrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents
lRead, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos
lAddressing the Under-translation Problem from the Entropy Perspective
lUnderstanding Story Characters, Movie Actors and Their Versatility with Gaussian Representations
lJoint Extraction of Entities and Overlapping Relations using Position-Attentive Sequence Labeling
lOversampling for Imbalanced Data via Optimal Transport
lMulti-agent Discussion Mechanism for Natural Language Generation
lSign-Full Random Projections
lInteractive Attention Transfer Network for Cross-domain Sentiment Classification
lExploiting the Contagious Effect for Employee Turnover Prediction
lDistant Supervision for Relation Extraction with Linear Attenuation Simulation and Non-IID Relevance Embedding
-
百度
+關(guān)注
關(guān)注
9文章
2335瀏覽量
92226 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134618 -
論文
+關(guān)注
關(guān)注
1文章
103瀏覽量
15213
原文標題:百度15篇論文被AAAI 2019收錄
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論