久久精品丁香五月,欧美日韩性一区二区三区

2018年還剩20天，人工智能的熱度一點(diǎn)沒(méi)減。除了下圍棋、認(rèn)人臉，人工智能究竟發(fā)展到了什么地步？匯總各領(lǐng)域?qū)W術(shù)論文最先進(jìn)成果，今天，讓我們來(lái)看計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理這兩個(gè)領(lǐng)域AI進(jìn)展的真實(shí)情況。

2018年，人工智能熱度不減，成果不斷。

雖然少了去年動(dòng)輒“超越人類(lèi)”的銳氣，但“輔助人類(lèi)”的人工智能，如今究竟發(fā)展到什么程度？就讓我們?cè)?018即將結(jié)束的時(shí)候，來(lái)一個(gè)簡(jiǎn)單的回顧。

拋開(kāi)劑量談毒性是耍流氓，拋開(kāi)數(shù)據(jù)集和特定任務(wù)談人工智能進(jìn)展也一樣?！皊tate of the art.ai”是MIT和UNAM的學(xué)生做的一個(gè)網(wǎng)站，收進(jìn)了目前最優(yōu)的算法，涵蓋了計(jì)算機(jī)視覺(jué)、游戲、自然語(yǔ)言處理、網(wǎng)絡(luò)圖和知識(shí)庫(kù)、程序歸納和程序合成、音頻處理、時(shí)間序列處理七個(gè)領(lǐng)域。

下面，我們就根據(jù)已經(jīng)發(fā)表的科研論文，先來(lái)看看計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理這兩大AI領(lǐng)域的情況。

計(jì)算機(jī)視覺(jué)

3D/3D Reconstruction

“3D”可以說(shuō)是眼下CV領(lǐng)域最火的一個(gè)詞。今年各家智能手機(jī)宣傳里都提到了“3D結(jié)構(gòu)光”。那么，3D視覺(jué)發(fā)展到了什么程度？

2017年的CVPR，MIT、馬薩諸塞大學(xué)阿默斯特分校和谷歌DeepMind的研究人員展示了一項(xiàng)成果，使用自動(dòng)編碼器（VAE），構(gòu)建了一個(gè)名叫SingleVPNet的框架，能從多個(gè)視角的深度圖或其相應(yīng)的輪廓（silhouette）學(xué)習(xí)生成模型，并使用渲染函數(shù)從這些圖像生成細(xì)節(jié)精致的3D形狀。

不僅如此，他們提出的框架還能通過(guò)綜合不同視角的2D深度圖（甚至在有遮擋的情況下），生成新的3D形狀。

SingleVPNet在3D形狀數(shù)據(jù)集SharpNetCore上取得了平均誤差0.35的結(jié)果。換句話說(shuō)，生成逼真的3D形狀還有一段距離。

補(bǔ)充，SharpNetCore是ShapeNet的一個(gè)子集，目前包括55個(gè)常見(jiàn)對(duì)象類(lèi)別（覆蓋了計(jì)算機(jī)視覺(jué)領(lǐng)域常用的3D基準(zhǔn)數(shù)據(jù)集PASCAL 3D+的12個(gè)對(duì)象類(lèi)別），約有51300個(gè)獨(dú)特的3D模型，每個(gè)模型都有手動(dòng)驗(yàn)證的類(lèi)別和對(duì)齊注釋?zhuān)善樟炙诡D、斯坦福和豐田技術(shù)研究所（TTIC）的研究人員共同創(chuàng)建。

動(dòng)作識(shí)別

動(dòng)作識(shí)別指從視頻中識(shí)別不同的動(dòng)作，這個(gè)動(dòng)作可能貫穿整個(gè)視頻，也可能不會(huì)。動(dòng)作識(shí)別是圖像識(shí)別的擴(kuò)展，涉及從多幀視頻中進(jìn)行圖像識(shí)別，然后從每一個(gè)幀中聚集預(yù)測(cè)結(jié)果。

2017年的NeurIPS，CMU機(jī)器人學(xué)院的研究人員Rohit Girdhar 和 Deva Ramanan 利用注意力機(jī)制（Attentional Pooling），在保持網(wǎng)絡(luò)復(fù)雜度和計(jì)算量基本不變的情況下，在三個(gè)靜態(tài)圖像和視頻標(biāo)準(zhǔn)動(dòng)作識(shí)別數(shù)據(jù)集上提升了動(dòng)作識(shí)別的基準(zhǔn)。其中，在MPII人體姿態(tài)數(shù)據(jù)集上取得了12.5％的相對(duì)改進(jìn)。

不過(guò)，看絕對(duì)值，平均精度還停留在52.2個(gè)百分點(diǎn)上面。

人臉識(shí)別

根據(jù)美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院（NIST）今年11月16日公布的結(jié)果，在被譽(yù)為工業(yè)界“黃金標(biāo)準(zhǔn)”的全球人臉識(shí)別算法測(cè)試（FRVT）中，依圖科技以千萬(wàn)分之一誤報(bào)下的識(shí)別準(zhǔn)確率超過(guò)99%，繼續(xù)保持全球人臉識(shí)別競(jìng)賽冠軍。

千萬(wàn)分位誤報(bào)下的識(shí)別準(zhǔn)確率超過(guò)99%，意味著更多核心關(guān)鍵的安防場(chǎng)景被解鎖。相比于去年同期，全球人臉識(shí)別性能提升了80%。

值得一提，在這份官方公布的報(bào)告中，中國(guó)人工智能公司實(shí)力展現(xiàn)，依圖科技（yitu）、商湯科技（sensetime）、曠視科技（megvii）囊括了前十中的五席，加上排名第五的中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院（siat），中國(guó)團(tuán)隊(duì)已經(jīng)超過(guò)半數(shù)，并穩(wěn)穩(wěn)“霸屏”前五，領(lǐng)跑全球人臉識(shí)別算法。

人體姿態(tài)估計(jì)

今年2月，上海交通大學(xué)盧策吾團(tuán)隊(duì)MVIG實(shí)驗(yàn)室AlphaPose 系統(tǒng)上線，是首個(gè)在 COCO 數(shù)據(jù)集上可達(dá)到 70+ mAP 的開(kāi)源姿態(tài)估計(jì)系統(tǒng)。

今年9月，AlphaPose系統(tǒng)升級(jí)，采用 PyTorch 框架，在姿態(tài)估計(jì)標(biāo)準(zhǔn)測(cè)試集COCO validation set上，達(dá)到 71mAP的精度（比 OpenPose 相對(duì)提升17%，Mask-RCNN相對(duì)提升8%），同時(shí)，速度達(dá)到了20FPS（比 OpenPose 相對(duì)提高66%，Mask-RCNN相對(duì)提高300%）。

AlphaPose系統(tǒng)，是基于上海交大MVIG組提出的 RMPE 二步法框架（ICCV 2017論文）構(gòu)建的，相比其他開(kāi)源系統(tǒng)在準(zhǔn)確率有很大提高，比OpenPose相對(duì)提高17%，Mask-RCNN相對(duì)提高8.2%。

升級(jí)后，各個(gè)開(kāi)源框架在COCO-Validation上性能，時(shí)間在單卡1080ti GPU測(cè)出指標(biāo)如下：

圖像分類(lèi)

計(jì)算機(jī)在圖像分類(lèi)任務(wù)上的精度早已超越了人類(lèi)，因此當(dāng)前圖像分類(lèi)精度的最好成績(jī)，往往是其他研究的副產(chǎn)物。ICLR 2017，谷歌大腦 Barret Zoph 和 Quoc V. Le 發(fā)表了“Neural Architecture Search with Reinforcement Learning”，他們用強(qiáng)化學(xué)習(xí)自動(dòng)搜索神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，最終AI自己設(shè)計(jì)出的模型，在 CIFAR-10數(shù)據(jù)集上做圖像分類(lèi)取得了96.35%的精度。

或許令人意外，圖像分類(lèi)目前最好結(jié)果是Facebook AI Research的Benjamin Graham在他2015年Arxiv論文“Fractional Max-Pooling”中得到的，經(jīng)過(guò)100次測(cè)試后在CIFAR-10上誤差僅為3.47%。這篇論文提出了一種新的fractional max-pooling方法，降低了各種數(shù)據(jù)集上的過(guò)擬合。

圖像生成

說(shuō)到圖像生成，那自然就是生成對(duì)抗網(wǎng)絡(luò)（GAN）。

GAN在今年不斷發(fā)展，今年ICLR DeepMind 提出的 BigGAN，可謂當(dāng)前最強(qiáng)圖像生成模型，在128x128分辨率的ImageNet上訓(xùn)練，BigGAN的Inception 分?jǐn)?shù)（IS）可以達(dá)到 166.3 ，F(xiàn)rechet Inception 距離（FID）9.6。

關(guān)于BigGAN更詳細(xì)的介紹看這里。

未來(lái)GAN還能提升到什么程度，值得期待！

圖像分割

是的，圖像分割王者是何愷明等人2017年提出的Mask-RCNN，mAP值26.2。

2018年8月，密歇根大學(xué)和谷歌大腦的研究人員合作，提出了一種圖像語(yǔ)義分層處理框架，可以實(shí)現(xiàn)像素級(jí)別的圖像語(yǔ)義理解和操縱，在圖像中任意添加、改變、移動(dòng)對(duì)象，并與原圖渾然一體，實(shí)現(xiàn)真正的“毫無(wú)PS痕跡”。

雖然相關(guān)論文還未經(jīng)過(guò)同行評(píng)議，但是根據(jù)上述研究人員在Arxiv論文匯報(bào)的結(jié)果，他們?cè)趫D像分割上更勝一籌。

自然語(yǔ)言處理

分類(lèi)/語(yǔ)義相似度/語(yǔ)法/電影評(píng)論/語(yǔ)義等價(jià)/問(wèn)答/實(shí)體識(shí)別

BERT這個(gè)名字近來(lái)在NLP領(lǐng)域可謂是紅紅火火。

10月13日，谷歌AI團(tuán)隊(duì)新發(fā)布的BERT模型，在機(jī)器閱讀理解頂級(jí)水平測(cè)試SQuAD1.1中表現(xiàn)出驚人的成績(jī)：全部?jī)蓚€(gè)衡量指標(biāo)上全面超越人類(lèi)！并且還在11種不同NLP測(cè)試中創(chuàng)出最佳成績(jī)，包括將GLUE基準(zhǔn)推至80.4％（絕對(duì)改進(jìn)7.6％），MultiNLI準(zhǔn)確度達(dá)到86.7% （絕對(duì)改進(jìn)率5.6％）等。

谷歌團(tuán)隊(duì)的Thang Luong直接定義：BERT模型開(kāi)啟了NLP的新時(shí)代！

BERT的新語(yǔ)言表示模型，它代表Transformer的雙向編碼器表示。與最近的其他語(yǔ)言表示模型不同，BERT旨在通過(guò)聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示。因此，預(yù)訓(xùn)練的BERT表示可以通過(guò)一個(gè)額外的輸出層進(jìn)行微調(diào)，適用于廣泛任務(wù)的最先進(jìn)模型的構(gòu)建。

如前文所述，BERT在11項(xiàng)NLP任務(wù)中刷新了性能表現(xiàn)記錄！在此舉出其中一項(xiàng)結(jié)果。

GLUE測(cè)試結(jié)果，由GLUE評(píng)估服務(wù)器給出。每個(gè)任務(wù)下方的數(shù)字表示訓(xùn)練樣例的數(shù)量?！捌骄币粰谥械臄?shù)據(jù)與GLUE官方評(píng)分稍有不同，因?yàn)槲覀兣懦擞袉?wèn)題的WNLI集。BERT 和OpenAI GPT的結(jié)果是單模型、單任務(wù)下的數(shù)據(jù)。所有結(jié)果來(lái)自https://gluebenchmark.com/leaderboard和https://blog.openai.com/language-unsupervised/

SQuAD 結(jié)果。BERT 集成是使用不同預(yù)訓(xùn)練檢查點(diǎn)和微調(diào)種子（fine-tuning seed）的 7x 系統(tǒng)。

CoNLL-2003 命名實(shí)體識(shí)別結(jié)果。超參數(shù)由開(kāi)發(fā)集選擇，得出的開(kāi)發(fā)和測(cè)試分?jǐn)?shù)是使用這些超參數(shù)進(jìn)行五次隨機(jī)重啟的平均值。

總體而言，BERT模型在NLP領(lǐng)域中的多項(xiàng)任務(wù)取得目前最佳效果，包括

分類(lèi)、語(yǔ)義相似度、語(yǔ)法、電影評(píng)論、語(yǔ)義等價(jià)、問(wèn)答、實(shí)體識(shí)別等等。

常識(shí)推理

在常識(shí)推理方面(Commensense Inference)，目前取得最先進(jìn)水平的是Antonio Lieto等人于2017年發(fā)布的文章：Dual PECCS: a cognitive system for conceptual representation and categorization。

當(dāng)然，該篇文章的結(jié)果在概念分類(lèi)準(zhǔn)確率(Concept Categorization Accuracy)上目前最佳，為89；但在Dev和Test準(zhǔn)確率方面，目前依舊BERT模型結(jié)果最佳，分別為86.6和86.3。

機(jī)器翻譯

在機(jī)器翻譯任務(wù)中(Machine Translation)，目前取得最佳結(jié)果來(lái)自于Zhen Yang等人于今年4月在Arxiv上發(fā)布的文章：

該文章的算法主要結(jié)合了Transformer+BR-CSGAN，在BLEU上取得的評(píng)分結(jié)果為43.01，為目前最佳結(jié)果。

自然語(yǔ)言推斷

在自然語(yǔ)言推斷(Natural Language Inference)任務(wù)中，目前最佳結(jié)果來(lái)自于Yichen Gong等人于今年5月在Arxiv上發(fā)布的文章：

該論文采用的算法是DIIN，在準(zhǔn)確率方面目前為89.84，目前處于最佳水平。

以上是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)領(lǐng)域的最新發(fā)展情況。想要了解AI其它領(lǐng)域中各任務(wù)目前取得的最佳結(jié)果可以參考如下鏈接：

https://www.stateoftheart.ai/

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1805

文章
48898

瀏覽量
247846
計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
9

文章
1708

瀏覽量
46665
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
628

瀏覽量
14083

原文標(biāo)題：2018，一文看盡AI發(fā)展真相（上）

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理這兩個(gè)領(lǐng)域AI進(jìn)展的真實(shí)情況

評(píng)論