2016年是人工智能崛起的一年,隨著人臉識(shí)別、駕駛輔助等人工智能應(yīng)用的普及,眾多互聯(lián)網(wǎng)(Google、Facebook、百度等)和半導(dǎo)體巨頭(Nvidia,Qualcomm,Intel等)都相繼在人工智能領(lǐng)域布局發(fā)力。自然地,在2017年CES展最受人關(guān)注的熱點(diǎn)當(dāng)然也是人工智能。在各類(lèi)人工智能應(yīng)用層出不窮時(shí),我們也應(yīng)當(dāng)注意到站在這些應(yīng)用背后,以低廉價(jià)格提供應(yīng)用運(yùn)行平臺(tái)以加速人工智能普及的恰恰是半導(dǎo)體廠商。今天,我們來(lái)盤(pán)點(diǎn)一下各大半導(dǎo)體廠商在CES展上的表現(xiàn)。
1. 高通
高通毫無(wú)疑問(wèn)是移動(dòng)端芯片的主導(dǎo)者。高通此次在CES上發(fā)布的產(chǎn)品主要是驍龍835 SoC。驍龍835 SoC使用三星10nm工藝制造,搭載了8核心Kyro 280處理器(包括峰值主頻可達(dá) 2.45GHz 的 4 顆高性能核心,以及峰值主頻可達(dá) 1.9GHz 的 4 顆低功耗核心)。
除了處理器之外,驍龍835還包含了X16 LTE Modem,Adreno GPU,Hexagon DSP,Spectra ISP等等核心模塊。其中,和人工智能關(guān)系最密切的當(dāng)屬Hexagon DSP和Adreno GPU。
目前,在移動(dòng)端的深度學(xué)習(xí)應(yīng)用越來(lái)越多。例如最近風(fēng)靡一時(shí)的風(fēng)格遷移App(將一張圖片變成另一張圖片的風(fēng)格)。
在移動(dòng)端的深度學(xué)習(xí)應(yīng)用中,往往對(duì)于計(jì)算的精度要求不高,使用定點(diǎn)數(shù)計(jì)算也可滿(mǎn)足大部分應(yīng)用的需求。驍龍系列中的Hexagon DSP就能高效率地完成定點(diǎn)數(shù)運(yùn)算,然而在之前的版本中,DSP對(duì)于深度學(xué)習(xí)應(yīng)用并不友好,開(kāi)發(fā)者想要調(diào)用DSP完成深度學(xué)習(xí)中的定點(diǎn)數(shù)運(yùn)算并不容易。針對(duì)這一點(diǎn),高通在逐漸加強(qiáng)DSP對(duì)于深度學(xué)習(xí)應(yīng)用的支持。在驍龍835中,對(duì)具有 Hexagon 向量擴(kuò)展(HVX)特性的 Hexagon DSP 進(jìn)一步增強(qiáng),包括了對(duì)定制神經(jīng)網(wǎng)絡(luò)層更好的支持。
另外,Adreno GPU是驍龍SoC中可以實(shí)現(xiàn)SIMD(單指令流多數(shù)據(jù)流)高效率并行計(jì)算的模塊。GPU的SIMD特性使得其可以高效完成深度學(xué)習(xí)計(jì)算,但是需要提供給深度學(xué)習(xí)開(kāi)發(fā)者一套完善的編程接口。Nvidia的編程接口是CUDA,憑借其易用性成為了深度學(xué)習(xí)開(kāi)發(fā)者首選的開(kāi)發(fā)語(yǔ)言之一。在非Nvidia的GPU中,類(lèi)似CUDA的接口是OpenCL。這次驍龍835中的Adreno GPU可以完美支持OpenCL 2.0,對(duì)于想要借助高通SoC中GPU進(jìn)行深度學(xué)習(xí)計(jì)算的開(kāi)發(fā)者是個(gè)好消息。
最后,高通升級(jí)了包含了升級(jí)過(guò)的神經(jīng)處理引擎軟件框架,其中增加了對(duì) Google TensorFlow 的支持,以及對(duì)驍龍異構(gòu)核心的功耗與性能的優(yōu)化。這進(jìn)一步使得深度學(xué)習(xí)開(kāi)發(fā)者可以更高效地利用高通驍龍SoC的計(jì)算能力完成不同的應(yīng)用。
點(diǎn)評(píng)
高通作為一個(gè)通信行業(yè)起家的半導(dǎo)體巨頭,此次CES上仍然以無(wú)線通訊為主要戰(zhàn)略重點(diǎn),其在自動(dòng)駕駛方面的布局也主要在車(chē)聯(lián)網(wǎng)方面而非人工智能運(yùn)算。不過(guò)隨著人工智能漸漸向移動(dòng)(嵌入式)端靠攏,高通也在驍龍SoC中逐漸增加對(duì)深度學(xué)習(xí)的支持。這次驍龍SoC中對(duì)深度學(xué)習(xí)的支持主要體現(xiàn)在指令級(jí)以及應(yīng)用框架上,即可以讓開(kāi)發(fā)者更高效地利用現(xiàn)有SoC資源完成深度學(xué)習(xí)計(jì)算。高通的專(zhuān)用的深度學(xué)習(xí)硬件(如加速器模塊)在實(shí)驗(yàn)性質(zhì)的Zeroth之后尚無(wú)下文,可見(jiàn)高通對(duì)于深度學(xué)習(xí)的投入尚屬保守,這也給其他專(zhuān)注于嵌入式深度學(xué)習(xí)硬件的廠商一個(gè)超越的機(jī)會(huì)。
2.Intel
之前的Intel已經(jīng)錯(cuò)失了移動(dòng)設(shè)備的機(jī)會(huì),這次Intel不愿意再次錯(cuò)過(guò)人工智能。在本屆CES,Intel發(fā)布了GO平臺(tái),顯示了其在自動(dòng)駕駛領(lǐng)域的決心。GO平臺(tái)包括了車(chē)聯(lián)網(wǎng)、車(chē)內(nèi)運(yùn)算與云端計(jì)算服務(wù)。在車(chē)內(nèi)運(yùn)算,Intel將使用符合汽車(chē)電子標(biāo)準(zhǔn)的Atom和Xeon CPU,并配合Altera最新的FPGA技術(shù)。在云端,Intel GO將提供包括高效能Intel Xeon處理器、Intel Arria 10 FPGA、SSD以及Intel Nervana平臺(tái)在內(nèi)的眾多技術(shù),建構(gòu)出強(qiáng)大的主機(jī)與深度學(xué)習(xí)訓(xùn)練與模擬基礎(chǔ)設(shè)施,滿(mǎn)足自動(dòng)駕駛產(chǎn)業(yè)的需求。另外,Intel還發(fā)布了針對(duì)GO平臺(tái)的SDK,讓開(kāi)發(fā)者可以充分利用GO平臺(tái)的計(jì)算能力。
無(wú)人駕駛是英特爾聚焦的重要領(lǐng)域之一。2016年底,英特爾將汽車(chē)團(tuán)隊(duì)從物聯(lián)網(wǎng)事業(yè)部剝離,單獨(dú)成立自動(dòng)駕駛事業(yè)部。更重要的是,去年Intel與寶馬及Mobileye達(dá)成聯(lián)盟,計(jì)劃在2021年前推出無(wú)人駕駛汽車(chē)。在這項(xiàng)結(jié)盟合作中,BMW集團(tuán)將負(fù)責(zé)駕駛操控與動(dòng)力機(jī)件,以及評(píng)測(cè)整體功能安全性,包括設(shè)定高效能模擬引擎、整體零組件整合、生產(chǎn)原型車(chē)款。Intel GO平臺(tái)為各種關(guān)鍵功能提供可擴(kuò)充的開(kāi)發(fā)與運(yùn)算平臺(tái),包括感測(cè)器融合、駕駛策略、環(huán)境建模、路徑規(guī)劃、以及決策制定。Mobileye貢獻(xiàn)其EyeQ 5專(zhuān)利高效能電腦視覺(jué)處理器,提供汽車(chē)等級(jí)的功能安全性以及低功耗的表現(xiàn)。EyeQ 5負(fù)責(zé)處理與轉(zhuǎn)譯360度環(huán)景視覺(jué)感測(cè)器以及地域性的資料。Mobileye更將進(jìn)一步與BMW集團(tuán)合作,著手開(kāi)發(fā)感測(cè)器融合解決方案,匯集視覺(jué)、雷達(dá)、光達(dá)感測(cè)器搜集到的資料,針對(duì)車(chē)輛周?chē)h(huán)境建立一個(gè)完整模型,結(jié)合其人工智能算法,讓汽車(chē)能安全應(yīng)付各種復(fù)雜的駕駛情境。
在本屆CES,寶馬、Intel和Mobileye聯(lián)盟在展前發(fā)布會(huì)上宣布,大約40輛寶馬無(wú)人駕駛汽車(chē)將于2017年下半年開(kāi)始路測(cè)。這是三家公司攜手實(shí)現(xiàn)無(wú)人駕駛目標(biāo),所邁出的重要一步。三家公司披露,這些BMW 7系列汽車(chē)將采用英特爾和Mobileye的技術(shù),從美國(guó)和歐洲開(kāi)始全球路測(cè)之旅。
點(diǎn)評(píng)
Intel對(duì)于人工智能的投入目前主要顯示在云端,其收購(gòu)的Altera FPGA和Nervana已經(jīng)在為Intel的云端人工智能業(yè)務(wù)提供強(qiáng)大的性能。在無(wú)人駕駛方面,Intel與BMW、Mobileye組成的聯(lián)盟各司其職,Intel負(fù)責(zé)計(jì)算平臺(tái),Mobileye負(fù)責(zé)算法、環(huán)境感知和大數(shù)據(jù)采集,而B(niǎo)MW則負(fù)責(zé)汽車(chē)。Intel在移動(dòng)端人工智能領(lǐng)域還是很低調(diào),但去年收購(gòu)Movidius動(dòng)作讓我們相信Intel正在這一方面積極布局,不久的將來(lái)一定會(huì)有更大的作為。
3.Nvidia
借著人工智能的風(fēng)頭,Nvidia的股價(jià)在去年飛升三倍有余,令人驚嘆。今年CES更是請(qǐng)Nvidia的黃仁勛作為開(kāi)幕前夜最重頭的專(zhuān)場(chǎng)演講的嘉賓。毫無(wú)疑問(wèn)Nvidia已經(jīng)成為了本屆CES的焦點(diǎn)。今年CES展上,Nvidia發(fā)布的產(chǎn)品中有兩款與人工智能相關(guān),一款是用于家庭物聯(lián)網(wǎng)的Shield+Spot,另一款是車(chē)載人工智能平臺(tái)Xavier。
首先我們來(lái)看一下Shield+Spot。Shield是Nvidia于幾年前發(fā)布的游戲主機(jī),而這次在CES發(fā)布的則是最新版Shield。新Shield除了擁有常規(guī)的游戲和互聯(lián)網(wǎng)視頻播放功能外,最大的亮點(diǎn)是引入了Google助手。Google助手可以通過(guò)語(yǔ)音識(shí)別完成用戶(hù)的各種指令,如在CES演講的演示視頻中,就出現(xiàn)了用戶(hù)通過(guò)與Google助手語(yǔ)音交談從而讓Shield播放視頻,展示照片等。
然而,Nvidia對(duì)Shield的野心遠(yuǎn)不止“支持語(yǔ)音交互的智能機(jī)頂盒”,而是智能家庭中心。為了讓Shield能接收用戶(hù)從家里任何地方發(fā)出的語(yǔ)音指令,黃仁勛在發(fā)布新Shield的同時(shí)還展示了與新Shield搭配使用的Nvidia Spot。Nvidia Spot是經(jīng)過(guò)特別設(shè)計(jì)的麥克風(fēng),可以放置在家里的任何地方,并且通過(guò)局域網(wǎng)與Shield連接起來(lái),把用戶(hù)的語(yǔ)音指令傳輸?shù)絊hield。
同時(shí),在Nvidia的計(jì)劃中,Shield可以控制的也遠(yuǎn)遠(yuǎn)不止電視機(jī),而是可以控制各種智能家電(如Nest的產(chǎn)品)。這樣,在Nvidia提供的智能家庭方案中,Nvidia Spot作為用戶(hù)指令的接收者遍布家的每一個(gè)角落,用戶(hù)在任何地方下的語(yǔ)音指令通過(guò)Spot傳回物聯(lián)網(wǎng)中心節(jié)點(diǎn)Shield,而Shield則根據(jù)指令來(lái)控制家庭的智能家電,如打開(kāi)空調(diào),啟動(dòng)掃地機(jī)器人等等。
Nvidia發(fā)布會(huì)第二個(gè)重頭戲是Xavier。是Nvidia預(yù)期在2017年正式發(fā)售的車(chē)載超級(jí)計(jì)算機(jī)模組。Xavier包含了擁有512 CUDA核的Volta GPU,8核心的Nvidia定制ARM64 CPU。最令業(yè)界震驚的,可謂是其性能:在峰值性能達(dá)到30TOPS的情況下,僅僅消耗30W!也就是說(shuō),其能量效率達(dá)到了1TOPS/W。相形之下,2017年發(fā)布在半導(dǎo)體領(lǐng)域最頂級(jí)會(huì)議ISSCC Deep Learning Processor Session的第一篇paper,ST最頂尖的深度學(xué)習(xí)專(zhuān)用ASIC也僅僅實(shí)現(xiàn)了2.9TOPS/W。ST的深度學(xué)習(xí)加速器是專(zhuān)為深度學(xué)習(xí)開(kāi)發(fā),一般而言只能做深度學(xué)習(xí)計(jì)算;而Xavier是一款通用的計(jì)算平臺(tái),1TOPS/W的性能除了可以計(jì)算深度學(xué)習(xí)外還可以做其他計(jì)算,因此通用性遠(yuǎn)好于ASIC。通常專(zhuān)用的ASIC的能量效率應(yīng)當(dāng)比通用計(jì)算平臺(tái)好一個(gè)數(shù)量級(jí)左右,而現(xiàn)在這個(gè)差距被縮小到了3倍不到,可見(jiàn)Xavier性能之強(qiáng)大。在性能相差不大的情況下,大多數(shù)人都會(huì)選擇通用計(jì)算平臺(tái)而非ASIC,因此相信從事深度學(xué)習(xí)加速器ASIC研發(fā)的工程師們看到Xavier這個(gè)指標(biāo)真的是壓力很大。
另一個(gè)有趣的細(xì)節(jié)是,Xavier的性能并沒(méi)有用常規(guī)GPU的FLOPS(每秒浮點(diǎn)運(yùn)算量)做單位,而是OPS(每秒定點(diǎn)數(shù)運(yùn)算量)。在往常的GPU中,深度學(xué)習(xí)計(jì)算通常用浮點(diǎn)數(shù)運(yùn)算來(lái)完成,這樣的做法在保證計(jì)算精度的同時(shí)卻損失了計(jì)算速度,因此深度學(xué)習(xí)硬件的一個(gè)很熱門(mén)的方向就是如何用定點(diǎn)數(shù)運(yùn)算來(lái)代替浮點(diǎn)數(shù)運(yùn)算,在保證計(jì)算精度損失可控的情況下大幅提升速度。Nvidia在Pascal GPU上已經(jīng)做了一些對(duì)于定點(diǎn)數(shù)計(jì)算的支持,而根據(jù)CES的主題演講透露出的蛛絲馬跡,下一代Volta GPU上想必會(huì)加強(qiáng)對(duì)定點(diǎn)數(shù)運(yùn)算的支持。而Nvidia作為深度學(xué)習(xí)硬件領(lǐng)域的絕對(duì)統(tǒng)治者,其對(duì)于定點(diǎn)數(shù)運(yùn)算的大力支持又會(huì)倒逼深度學(xué)習(xí)算法開(kāi)發(fā)者加強(qiáng)對(duì)于使用定點(diǎn)數(shù)的深度學(xué)習(xí)框架的開(kāi)發(fā)。在可預(yù)計(jì)的將來(lái),使用定點(diǎn)數(shù)的深度學(xué)習(xí)網(wǎng)絡(luò)將會(huì)變得越來(lái)越流行。
Xavier的性能和功耗都完美符合無(wú)人駕駛市場(chǎng)的需求,而無(wú)人駕駛是Nvidia在人工智能市場(chǎng)布局的重中之重。黃仁勛提到,目前的運(yùn)輸市場(chǎng)規(guī)??蛇_(dá)一萬(wàn)億美元,全球共有十億量跑在路上的汽車(chē),而汽車(chē)運(yùn)輸市場(chǎng)又是一個(gè)損耗嚴(yán)重的市場(chǎng),主因就是人類(lèi)駕駛員容易犯錯(cuò)。一旦駕駛員犯錯(cuò),車(chē)禍帶來(lái)的損失非常大。如果用人工智能幫助駕駛,那么這些損耗可以被大大降低。
Nvidia還發(fā)布了配合Xavier的無(wú)人駕駛和協(xié)同駕駛應(yīng)用。在無(wú)人駕駛方面,Nvidia發(fā)布了搭載BB2無(wú)人駕駛車(chē),BB2目前能實(shí)現(xiàn)根據(jù)路況自動(dòng)變道,減速轉(zhuǎn)彎,避讓行人等等。Nvidia與奧迪合作,預(yù)期在2020年實(shí)現(xiàn)第四級(jí)無(wú)人駕駛(即僅僅在極少情況下需要人工干預(yù)的自動(dòng)駕駛系統(tǒng))。
在協(xié)同駕駛方面,Nvidia發(fā)布了四項(xiàng)技術(shù),包括面部識(shí)別,頭部追蹤,視線追蹤以及讀唇技術(shù)。面部識(shí)別首先可以通過(guò)深度學(xué)習(xí)判斷駕駛員的表情從而進(jìn)一步判斷駕駛員的情緒狀況,在發(fā)現(xiàn)情緒不穩(wěn)時(shí)提醒駕駛員即使休息調(diào)整情緒以避免發(fā)生沖動(dòng)駕駛。頭部追蹤和視線追蹤可以幫助協(xié)同駕駛系統(tǒng)判斷駕駛員注意力是否集中,并在駕駛員分神時(shí)及時(shí)提醒。讀唇技術(shù)則可以在環(huán)境較吵鬧的情況下根據(jù)駕駛員嘴唇的動(dòng)作判斷其發(fā)出的語(yǔ)音指令并予以執(zhí)行。根據(jù)黃仁勛的解釋?zhuān)琋vidia正在和英國(guó)牛津大學(xué)LipNet團(tuán)隊(duì)合作研發(fā)用于讀唇的深度學(xué)習(xí)網(wǎng)絡(luò)模型,目前該模型已經(jīng)能達(dá)到93.4%的正確率,可望很快就能用在真正的汽車(chē)中。最后,協(xié)同駕駛系統(tǒng)還能為駕駛行為打分,在督促駕駛員安全駕駛的同時(shí)也能夠成為保險(xiǎn)公司制定保費(fèi)的依據(jù)。
點(diǎn)評(píng)
有意思的是,在CES上Nvidia并沒(méi)有像AMD一樣發(fā)布GPU,而是直接發(fā)布應(yīng)用平臺(tái),可見(jiàn)Nvidia對(duì)自己的角色定位已經(jīng)從原來(lái)的半導(dǎo)體廠商慢慢轉(zhuǎn)型到人工智能平臺(tái)提供商。另外,如果說(shuō)高通的芯片主要定位在移動(dòng)端,Intel的芯片主要服務(wù)于云服務(wù)器端,那么Nvidia的產(chǎn)品則是介于高通和Intel之間,服務(wù)于車(chē)載以及家用端。
在數(shù)據(jù)量巨大的數(shù)據(jù)中心,Nvidia的GPU是服務(wù)器不可或缺的一部分,但是Nvidia自己的服務(wù)器目前還在試水階段,因此在大數(shù)據(jù)人工智能市場(chǎng)Nvidia提供的是硬件而非平臺(tái)。在另一個(gè)極端,即數(shù)據(jù)量不大,對(duì)運(yùn)算能力要求不高但是對(duì)功耗有極大限制的嵌入式深度學(xué)習(xí)領(lǐng)域,Nvidia基于GPU的人工智能平臺(tái)一方面功耗太大,另一方面過(guò)高的計(jì)算能力反而導(dǎo)致成本過(guò)高,因此無(wú)法與ASIC(如高通的SoC)抗衡。而在ADAS與家用電器市場(chǎng),Nvidia的人工智能平臺(tái)無(wú)論計(jì)算能力(10-100TOPS)還是功耗(10-100W)都能完美地符合要求,因此Nvidia主打自動(dòng)駕駛與家用物聯(lián)網(wǎng)中心并不奇怪。
4.中國(guó)廠商
在本屆CES上,中國(guó)廠商展出的人工智能相關(guān)產(chǎn)品主要還是使用國(guó)外半導(dǎo)體廠商的芯片并進(jìn)一步開(kāi)發(fā),例如地平線基于Intel開(kāi)發(fā)的駕駛輔助(ADAS)技術(shù),以及大疆的無(wú)人機(jī)。
目前,中國(guó)在人工智能專(zhuān)用芯片方面相對(duì)國(guó)際先進(jìn)水平并不落后。中科院寒武紀(jì)的技術(shù)在獲得國(guó)際學(xué)術(shù)界和業(yè)界的極大認(rèn)可,在2016年的ISCA(國(guó)際計(jì)算機(jī)架構(gòu)大會(huì))發(fā)表的論文總評(píng)分排名第一?;谄浼夹g(shù)開(kāi)發(fā)的系列芯片已經(jīng)經(jīng)過(guò)流片驗(yàn)證,目前正在積極進(jìn)入商業(yè)化軌道。深鑒科技則專(zhuān)注于神經(jīng)網(wǎng)絡(luò)壓縮,其深度學(xué)習(xí)處理器架構(gòu)(DPU)也得到了國(guó)際認(rèn)可,去年下半年剛剛在HotChips發(fā)布了Aristole(用于卷積神經(jīng)網(wǎng)絡(luò))和Descartes(用于語(yǔ)音識(shí)別)的加速器。
寒武紀(jì)芯片
深鑒發(fā)布的DPU架構(gòu)
除此之外,華為、大疆等公司也在積極開(kāi)發(fā)人工智能方面的硬件。人工智能專(zhuān)用硬件對(duì)于國(guó)內(nèi)外而言處于相近的起跑線,加上國(guó)內(nèi)廠商相對(duì)國(guó)外半導(dǎo)體巨頭而言包袱比較少,因此國(guó)內(nèi)廠商有超越國(guó)外巨頭的機(jī)會(huì)。然而,國(guó)內(nèi)的人工智能芯片廠商不能只開(kāi)發(fā)深度學(xué)習(xí)加速器,而必須要提供整套解決方案才能有足夠競(jìng)爭(zhēng)力。中國(guó)半導(dǎo)體廠商在這方面還任重而道遠(yuǎn)。
評(píng)論