2018年還剩20天,人工智能的熱度一點(diǎn)沒(méi)減。除了下圍棋、認(rèn)人臉,人工智能究竟發(fā)展到了什么地步?匯總各領(lǐng)域?qū)W術(shù)論文最先進(jìn)成果,今天,讓我們來(lái)看計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理這兩個(gè)領(lǐng)域AI進(jìn)展的真實(shí)情況。
2018年,人工智能熱度不減,成果不斷。
雖然少了去年動(dòng)輒“超越人類(lèi)”的銳氣,但“輔助人類(lèi)”的人工智能,如今究竟發(fā)展到什么程度?就讓我們?cè)?018即將結(jié)束的時(shí)候,來(lái)一個(gè)簡(jiǎn)單的回顧。
拋開(kāi)劑量談毒性是耍流氓,拋開(kāi)數(shù)據(jù)集和特定任務(wù)談人工智能進(jìn)展也一樣?!皊tate of the art.ai”是MIT和UNAM的學(xué)生做的一個(gè)網(wǎng)站,收進(jìn)了目前最優(yōu)的算法,涵蓋了計(jì)算機(jī)視覺(jué)、游戲、自然語(yǔ)言處理、網(wǎng)絡(luò)圖和知識(shí)庫(kù)、程序歸納和程序合成、音頻處理、時(shí)間序列處理七個(gè)領(lǐng)域。
下面,我們就根據(jù)已經(jīng)發(fā)表的科研論文,先來(lái)看看計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理這兩大AI領(lǐng)域的情況。
計(jì)算機(jī)視覺(jué)
3D/3D Reconstruction
“3D”可以說(shuō)是眼下CV領(lǐng)域最火的一個(gè)詞。今年各家智能手機(jī)宣傳里都提到了“3D結(jié)構(gòu)光”。那么,3D視覺(jué)發(fā)展到了什么程度?
2017年的CVPR,MIT、馬薩諸塞大學(xué)阿默斯特分校和谷歌DeepMind的研究人員展示了一項(xiàng)成果,使用自動(dòng)編碼器(VAE),構(gòu)建了一個(gè)名叫SingleVPNet的框架,能從多個(gè)視角的深度圖或其相應(yīng)的輪廓(silhouette)學(xué)習(xí)生成模型,并使用渲染函數(shù)從這些圖像生成細(xì)節(jié)精致的3D形狀。
不僅如此,他們提出的框架還能通過(guò)綜合不同視角的2D深度圖(甚至在有遮擋的情況下),生成新的3D形狀。
SingleVPNet在3D形狀數(shù)據(jù)集SharpNetCore上取得了平均誤差0.35的結(jié)果。換句話說(shuō),生成逼真的3D形狀還有一段距離。
補(bǔ)充,SharpNetCore是ShapeNet的一個(gè)子集,目前包括55個(gè)常見(jiàn)對(duì)象類(lèi)別(覆蓋了計(jì)算機(jī)視覺(jué)領(lǐng)域常用的3D基準(zhǔn)數(shù)據(jù)集PASCAL 3D+的12個(gè)對(duì)象類(lèi)別),約有51300個(gè)獨(dú)特的3D模型,每個(gè)模型都有手動(dòng)驗(yàn)證的類(lèi)別和對(duì)齊注釋?zhuān)善樟炙诡D、斯坦福和豐田技術(shù)研究所(TTIC)的研究人員共同創(chuàng)建。
動(dòng)作識(shí)別
動(dòng)作識(shí)別指從視頻中識(shí)別不同的動(dòng)作,這個(gè)動(dòng)作可能貫穿整個(gè)視頻,也可能不會(huì)。動(dòng)作識(shí)別是圖像識(shí)別的擴(kuò)展,涉及從多幀視頻中進(jìn)行圖像識(shí)別,然后從每一個(gè)幀中聚集預(yù)測(cè)結(jié)果。
2017年的NeurIPS,CMU機(jī)器人學(xué)院的研究人員Rohit Girdhar 和 Deva Ramanan 利用注意力機(jī)制(Attentional Pooling),在保持網(wǎng)絡(luò)復(fù)雜度和計(jì)算量基本不變的情況下,在三個(gè)靜態(tài)圖像和視頻標(biāo)準(zhǔn)動(dòng)作識(shí)別數(shù)據(jù)集上提升了動(dòng)作識(shí)別的基準(zhǔn)。其中,在MPII人體姿態(tài)數(shù)據(jù)集上取得了12.5%的相對(duì)改進(jìn)。
不過(guò),看絕對(duì)值,平均精度還停留在52.2個(gè)百分點(diǎn)上面。
人臉識(shí)別
根據(jù)美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)今年11月16日公布的結(jié)果,在被譽(yù)為工業(yè)界“黃金標(biāo)準(zhǔn)”的全球人臉識(shí)別算法測(cè)試(FRVT)中,依圖科技以千萬(wàn)分之一誤報(bào)下的識(shí)別準(zhǔn)確率超過(guò)99%,繼續(xù)保持全球人臉識(shí)別競(jìng)賽冠軍。
千萬(wàn)分位誤報(bào)下的識(shí)別準(zhǔn)確率超過(guò)99%,意味著更多核心關(guān)鍵的安防場(chǎng)景被解鎖。相比于去年同期,全球人臉識(shí)別性能提升了80%。
值得一提,在這份官方公布的報(bào)告中,中國(guó)人工智能公司實(shí)力展現(xiàn),依圖科技(yitu)、商湯科技(sensetime)、曠視科技(megvii)囊括了前十中的五席,加上排名第五的中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院(siat),中國(guó)團(tuán)隊(duì)已經(jīng)超過(guò)半數(shù),并穩(wěn)穩(wěn)“霸屏”前五,領(lǐng)跑全球人臉識(shí)別算法。
人體姿態(tài)估計(jì)
今年2月,上海交通大學(xué)盧策吾團(tuán)隊(duì)MVIG實(shí)驗(yàn)室AlphaPose 系統(tǒng)上線,是首個(gè)在 COCO 數(shù)據(jù)集上可達(dá)到 70+ mAP 的開(kāi)源姿態(tài)估計(jì)系統(tǒng)。
今年9月,AlphaPose系統(tǒng)升級(jí),采用 PyTorch 框架,在姿態(tài)估計(jì)標(biāo)準(zhǔn)測(cè)試集COCO validation set上,達(dá)到 71mAP的精度(比 OpenPose 相對(duì)提升17%,Mask-RCNN相對(duì)提升8%),同時(shí),速度達(dá)到了20FPS(比 OpenPose 相對(duì)提高66%,Mask-RCNN相對(duì)提高300%)。
AlphaPose系統(tǒng),是基于上海交大MVIG組提出的 RMPE 二步法框架(ICCV 2017論文)構(gòu)建的,相比其他開(kāi)源系統(tǒng)在準(zhǔn)確率有很大提高,比OpenPose相對(duì)提高17%,Mask-RCNN相對(duì)提高8.2%。
升級(jí)后,各個(gè)開(kāi)源框架在COCO-Validation上性能,時(shí)間在單卡1080ti GPU測(cè)出指標(biāo)如下:
圖像分類(lèi)
計(jì)算機(jī)在圖像分類(lèi)任務(wù)上的精度早已超越了人類(lèi),因此當(dāng)前圖像分類(lèi)精度的最好成績(jī),往往是其他研究的副產(chǎn)物。ICLR 2017,谷歌大腦 Barret Zoph 和 Quoc V. Le 發(fā)表了“Neural Architecture Search with Reinforcement Learning”,他們用強(qiáng)化學(xué)習(xí)自動(dòng)搜索神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最終AI自己設(shè)計(jì)出的模型,在 CIFAR-10數(shù)據(jù)集上做圖像分類(lèi)取得了96.35%的精度。
或許令人意外,圖像分類(lèi)目前最好結(jié)果是Facebook AI Research的Benjamin Graham在他2015年Arxiv論文“Fractional Max-Pooling”中得到的,經(jīng)過(guò)100次測(cè)試后在CIFAR-10上誤差僅為3.47%。這篇論文提出了一種新的fractional max-pooling方法,降低了各種數(shù)據(jù)集上的過(guò)擬合。
圖像生成
說(shuō)到圖像生成,那自然就是生成對(duì)抗網(wǎng)絡(luò)(GAN)。
GAN在今年不斷發(fā)展,今年ICLR DeepMind 提出的 BigGAN,可謂當(dāng)前最強(qiáng)圖像生成模型,在128x128分辨率的ImageNet上訓(xùn)練,BigGAN的Inception 分?jǐn)?shù)(IS)可以達(dá)到 166.3 ,F(xiàn)rechet Inception 距離(FID)9.6。
關(guān)于BigGAN更詳細(xì)的介紹看這里。
未來(lái)GAN還能提升到什么程度,值得期待!
圖像分割
是的,圖像分割王者是何愷明等人2017年提出的Mask-RCNN,mAP值26.2。
2018年8月,密歇根大學(xué)和谷歌大腦的研究人員合作,提出了一種圖像語(yǔ)義分層處理框架,可以實(shí)現(xiàn)像素級(jí)別的圖像語(yǔ)義理解和操縱,在圖像中任意添加、改變、移動(dòng)對(duì)象,并與原圖渾然一體,實(shí)現(xiàn)真正的“毫無(wú)PS痕跡”。
雖然相關(guān)論文還未經(jīng)過(guò)同行評(píng)議,但是根據(jù)上述研究人員在Arxiv論文匯報(bào)的結(jié)果,他們?cè)趫D像分割上更勝一籌。
自然語(yǔ)言處理
分類(lèi)/語(yǔ)義相似度/語(yǔ)法/電影評(píng)論/語(yǔ)義等價(jià)/問(wèn)答/實(shí)體識(shí)別
BERT這個(gè)名字近來(lái)在NLP領(lǐng)域可謂是紅紅火火。
10月13日,谷歌AI團(tuán)隊(duì)新發(fā)布的BERT模型,在機(jī)器閱讀理解頂級(jí)水平測(cè)試SQuAD1.1中表現(xiàn)出驚人的成績(jī):全部?jī)蓚€(gè)衡量指標(biāo)上全面超越人類(lèi)!并且還在11種不同NLP測(cè)試中創(chuàng)出最佳成績(jī),包括將GLUE基準(zhǔn)推至80.4%(絕對(duì)改進(jìn)7.6%),MultiNLI準(zhǔn)確度達(dá)到86.7% (絕對(duì)改進(jìn)率5.6%)等。
谷歌團(tuán)隊(duì)的Thang Luong直接定義:BERT模型開(kāi)啟了NLP的新時(shí)代!
BERT的新語(yǔ)言表示模型,它代表Transformer的雙向編碼器表示。與最近的其他語(yǔ)言表示模型不同,BERT旨在通過(guò)聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示。因此,預(yù)訓(xùn)練的BERT表示可以通過(guò)一個(gè)額外的輸出層進(jìn)行微調(diào),適用于廣泛任務(wù)的最先進(jìn)模型的構(gòu)建。
如前文所述,BERT在11項(xiàng)NLP任務(wù)中刷新了性能表現(xiàn)記錄!在此舉出其中一項(xiàng)結(jié)果。
GLUE測(cè)試結(jié)果,由GLUE評(píng)估服務(wù)器給出。每個(gè)任務(wù)下方的數(shù)字表示訓(xùn)練樣例的數(shù)量?!捌骄币粰谥械臄?shù)據(jù)與GLUE官方評(píng)分稍有不同,因?yàn)槲覀兣懦擞袉?wèn)題的WNLI集。BERT 和OpenAI GPT的結(jié)果是單模型、單任務(wù)下的數(shù)據(jù)。所有結(jié)果來(lái)自https://gluebenchmark.com/leaderboard和https://blog.openai.com/language-unsupervised/
SQuAD 結(jié)果。BERT 集成是使用不同預(yù)訓(xùn)練檢查點(diǎn)和微調(diào)種子(fine-tuning seed)的 7x 系統(tǒng)。
CoNLL-2003 命名實(shí)體識(shí)別結(jié)果。超參數(shù)由開(kāi)發(fā)集選擇,得出的開(kāi)發(fā)和測(cè)試分?jǐn)?shù)是使用這些超參數(shù)進(jìn)行五次隨機(jī)重啟的平均值。
總體而言,BERT模型在NLP領(lǐng)域中的多項(xiàng)任務(wù)取得目前最佳效果,包括
分類(lèi)、語(yǔ)義相似度、語(yǔ)法、電影評(píng)論、語(yǔ)義等價(jià)、問(wèn)答、實(shí)體識(shí)別等等。
常識(shí)推理
在常識(shí)推理方面(Commensense Inference),目前取得最先進(jìn)水平的是Antonio Lieto等人于2017年發(fā)布的文章:Dual PECCS: a cognitive system for conceptual representation and categorization。
當(dāng)然,該篇文章的結(jié)果在概念分類(lèi)準(zhǔn)確率(Concept Categorization Accuracy)上目前最佳,為89;但在Dev和Test準(zhǔn)確率方面,目前依舊BERT模型結(jié)果最佳,分別為86.6和86.3。
機(jī)器翻譯
在機(jī)器翻譯任務(wù)中(Machine Translation),目前取得最佳結(jié)果來(lái)自于Zhen Yang等人于今年4月在Arxiv上發(fā)布的文章:
該文章的算法主要結(jié)合了Transformer+BR-CSGAN,在BLEU上取得的評(píng)分結(jié)果為43.01,為目前最佳結(jié)果。
自然語(yǔ)言推斷
在自然語(yǔ)言推斷(Natural Language Inference)任務(wù)中,目前最佳結(jié)果來(lái)自于Yichen Gong等人于今年5月在Arxiv上發(fā)布的文章:
該論文采用的算法是DIIN,在準(zhǔn)確率方面目前為89.84,目前處于最佳水平。
以上是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)領(lǐng)域的最新發(fā)展情況。想要了解AI其它領(lǐng)域中各任務(wù)目前取得的最佳結(jié)果可以參考如下鏈接:
https://www.stateoftheart.ai/
-
人工智能
+關(guān)注
關(guān)注
1805文章
48898瀏覽量
247846 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46665 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
628瀏覽量
14083
原文標(biāo)題:2018,一文看盡AI發(fā)展真相(上)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論