在萬(wàn)物互聯(lián)大背景下,預(yù)計(jì)未來(lái)將有數(shù)以百億的智能設(shè)備連接至互聯(lián)網(wǎng)。思科公司最新數(shù)據(jù)顯示,到 2021 年在全球 271 億連接設(shè)備中,物聯(lián)網(wǎng)設(shè)備將占據(jù)連接主導(dǎo)地位。這一趨勢(shì)無(wú)疑推動(dòng)了物聯(lián)網(wǎng)向各行各業(yè)滲透,并將開(kāi)啟一個(gè)“萬(wàn)物皆有智能”的新型社會(huì),人們能夠享受到更加智慧的生活。在這個(gè)大連接、大智能的時(shí)代中,具有人工智能要素的芯片需求廣闊,依靠人工智能芯片構(gòu)建數(shù)據(jù)中心,為實(shí)現(xiàn)萬(wàn)物互聯(lián)和人工智能提供基礎(chǔ)計(jì)算環(huán)境,包括英偉達(dá)在內(nèi)的芯片廠商快速崛起,圍繞人工智能芯片領(lǐng)域的創(chuàng)新企業(yè)也倍受資本支持,讓芯片廠商成為這個(gè)時(shí)代最大受益者。與此同時(shí),作為產(chǎn)業(yè)制高點(diǎn),人工智能芯片可應(yīng)用范圍廣,如智能手機(jī)、醫(yī)療健康、金融、零售等,發(fā)展空間巨大。2017 年 9 月初,華為公司在柏林 IFA2017新品發(fā)布會(huì)上發(fā)布了全球首款人工智能移動(dòng)芯片“麒麟 970”,該芯片是全球首款內(nèi)置神經(jīng)元網(wǎng)絡(luò)單元的人工智能處理器(NPU),至此拉開(kāi)了人工智能芯片在移動(dòng)終端領(lǐng)域滲透的序幕。
一、人工智能芯片的發(fā)展綜述
(一)概念與范疇
根據(jù)清華大學(xué)魏少軍教授的觀點(diǎn),將“人工智能”劃分為三個(gè)層次:第一個(gè)層次是應(yīng)用(即:能體現(xiàn)深度學(xué)習(xí)和機(jī)器學(xué)習(xí)功能的應(yīng)用);第二個(gè)層次是方法(即:人工智能的算法);第三個(gè)層次是工具(即:開(kāi)發(fā)工具和芯片)。因此,人工智能芯片是實(shí)現(xiàn)人工智能的根本因素。
我們對(duì)人工智能芯片進(jìn)行了定義:從廣義上講,能運(yùn)行人工智能算法的芯片稱(chēng)為人工智能芯片;從狹義上講,人工智能芯片是專(zhuān)門(mén)針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片。
(二)分類(lèi)
深度學(xué)習(xí)的搭建,可分為訓(xùn)練(Training)和推理(Inference)兩個(gè)環(huán)節(jié):
1、訓(xùn)練
通過(guò)大量的數(shù)據(jù)輸入,或采取增強(qiáng)學(xué)習(xí)等非監(jiān)督學(xué)習(xí)方法,訓(xùn)練出一個(gè)復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練過(guò)程由于涉及海量的訓(xùn)練數(shù)據(jù)(大數(shù)據(jù))和復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),需要的計(jì)算規(guī)模非常龐大,通常需要GPU集群訓(xùn)練幾天甚至數(shù)周的時(shí)間,在訓(xùn)練環(huán)節(jié)GPU目前暫時(shí)扮演著難以輕易替代的角色。
2、推斷
指利用訓(xùn)練好的模型,使用新的數(shù)據(jù)去“推斷”出各種結(jié)論。雖然推斷環(huán)節(jié)的計(jì)算量相比訓(xùn)練環(huán)節(jié)少,但仍然涉及大量的矩陣運(yùn)算。在推斷環(huán)節(jié),除了使用CPU或GPU進(jìn)行運(yùn)算外,FPGA以及ASIC均能發(fā)揮作用。
二、人工智能芯片的生態(tài)環(huán)境
(一)算法層面:機(jī)器學(xué)習(xí)算法不斷成熟
自20世紀(jì)80年代起,機(jī)器學(xué)習(xí)算法開(kāi)始快速發(fā)展,包括決策樹(shù)學(xué)習(xí)、推導(dǎo)邏輯規(guī)劃、強(qiáng)化學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)等在內(nèi)的多種機(jī)器學(xué)習(xí)算法現(xiàn)已被廣泛應(yīng)用于網(wǎng)絡(luò)搜索、垃圾郵件過(guò)濾、推薦系統(tǒng)、網(wǎng)頁(yè)搜索排序、廣告投放等領(lǐng)域。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一種技術(shù)手段,近
年來(lái)取得重大突破,因此掀起了人工智能新一輪的發(fā)展熱潮。
深度學(xué)習(xí)本質(zhì)上就是利用深度神經(jīng)網(wǎng)絡(luò)處理海量數(shù)據(jù),其優(yōu)勢(shì)在于利用海量數(shù)據(jù)讓神經(jīng)網(wǎng)絡(luò)自己學(xué)習(xí)如何抓取特征,進(jìn)而提高算法性能,加快了人工智能大規(guī)模商業(yè)化步伐。2016年,谷歌的圍棋人工智能程序AlphaGo以4:1大比分戰(zhàn)勝韓國(guó)頂尖棋手李世石,讓世界震驚。
隨后僅僅一年的時(shí)間,谷歌又推出新程序AlphaGo Zero,可以不依靠人類(lèi)指導(dǎo)和經(jīng)驗(yàn),僅憑自身算法強(qiáng)化學(xué)習(xí),就以100:0的戰(zhàn)績(jī)擊敗了AlphaGo。同時(shí)新版對(duì)計(jì)算力的消耗也大幅降低,相比于舊版的多臺(tái)機(jī)器和48個(gè)TPU,新版只用了一臺(tái)機(jī)器和4個(gè)TPU。由此可以看出,深度學(xué)習(xí)算法的不斷成熟,以及迭代速度的加快,為人工智能硬件環(huán)境的提升和完善提供了支撐條件。
(二)數(shù)據(jù)層面:結(jié)構(gòu)性數(shù)據(jù)
獲取能力不斷提升以往數(shù)據(jù)收集終端和場(chǎng)景缺失,缺少易于處理的結(jié)構(gòu)化數(shù)據(jù),使得數(shù)據(jù)樣本非常稀缺,達(dá)不到有效的訓(xùn)練目的,現(xiàn)在智能手機(jī)、可穿戴設(shè)備、智能汽車(chē)等智能終端的
快速發(fā)展使得數(shù)據(jù)的感知、獲取、分析及存儲(chǔ)能力都在不斷提升。數(shù)據(jù)感應(yīng)能力提升。隨著傳感器種類(lèi)的不斷豐富以及物聯(lián)網(wǎng)體系的建立,使得可獲取的數(shù)據(jù)越來(lái)越多。據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Gartner統(tǒng)計(jì)和預(yù)測(cè),2017年全球物聯(lián)網(wǎng)設(shè)備數(shù)量達(dá)到84億,同比增長(zhǎng)31%;到
2020年,物聯(lián)網(wǎng)設(shè)備總規(guī)模進(jìn)一步提升,數(shù)量將達(dá)到204億,較2017年增長(zhǎng)超過(guò)142%。
網(wǎng)絡(luò)傳輸能力不斷提升。隨著通信技術(shù)的發(fā)展,有線網(wǎng)絡(luò)從電纜傳輸?shù)焦饫w傳輸,無(wú)線網(wǎng)絡(luò)從2G/3G到4G/5G,均帶來(lái)了傳輸速度的提升。另一方面?zhèn)鬏敿軜?gòu)的變革帶來(lái)傳輸能
力飛躍。集中式存儲(chǔ)使得內(nèi)存成為數(shù)據(jù)傳輸?shù)钠款i之一,而分布式網(wǎng)絡(luò)傳輸架構(gòu)的出現(xiàn),產(chǎn)生了分布式隊(duì)列技術(shù),如Kafka,拓寬了傳輸?shù)耐ǖ溃沟脗鬏斈芰Υ蠓嵘?/p>
(三)計(jì)算能力:摩爾定律無(wú)法支撐數(shù)據(jù)量爆發(fā)增長(zhǎng)
人工智能的基礎(chǔ)是針對(duì)海量數(shù)據(jù)的深度學(xué)習(xí),無(wú)論是無(wú)人駕駛,還是圖像識(shí)別、語(yǔ)音識(shí)別等,系統(tǒng)底層架構(gòu)都是基于大數(shù)據(jù)的邏輯算法。根據(jù)IDC研究報(bào)告,全球數(shù)據(jù)總量正呈指數(shù)級(jí)增長(zhǎng),從2003年的5EB,到2016年12ZB,預(yù)計(jì)于2020年達(dá)到44ZB。然而,現(xiàn)有硬件算力遠(yuǎn)
無(wú)法匹配大數(shù)據(jù)的高速增長(zhǎng),計(jì)算能力已成為限制人工智能發(fā)展的主要瓶頸。
目前提升計(jì)算能力主要有三條發(fā)展路徑。一是持續(xù)強(qiáng)化CPU處理能力。然而,隨著CPU特征尺寸不斷逼近物理極限,新世代產(chǎn)品研發(fā)成本越來(lái)越高,2016年英特爾宣布停用“Tick-Tock”處理器研發(fā)模式,研發(fā)周期將從2年周期向3年期轉(zhuǎn)變。摩爾定律正逐步失效,CPU處理能力升級(jí)速度遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)增長(zhǎng)速度,已無(wú)法支撐人工智能海量數(shù)據(jù)的并行計(jì)算。二是采用CPU+X的異構(gòu)計(jì)算模式。短期來(lái)看,異構(gòu)計(jì)算的方式已基本滿(mǎn)足人們對(duì)處理器更快速、更高效、更方便的使用要求,但如果讓處理器可以達(dá)到模擬人腦神經(jīng)元和腦電信號(hào)脈沖這樣復(fù)雜的結(jié)構(gòu),就必須突破現(xiàn)有馮諾依曼的體系結(jié)構(gòu)框架,使計(jì)算能力實(shí)現(xiàn)質(zhì)的飛躍?;谏鲜鲈?,提升算力的根本方法在于采取非馮諾依曼架構(gòu)的處理器。例如,類(lèi)腦計(jì)算機(jī)通過(guò)模仿人類(lèi)大腦的工作機(jī)制,進(jìn)而徹底打破了馮諾依曼體系的發(fā)展瓶頸。
三、人工智能芯片的主要技 術(shù)路線
(一)基于FPGA技術(shù)
1、概述
FPGA(Field Programmable Gate Array)是在可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的半定制電路,通過(guò)將門(mén)電路與存儲(chǔ)器有機(jī)結(jié)合,并設(shè)計(jì)門(mén)電路間互聯(lián),進(jìn)而達(dá)到定制目的。FPGA由于是非馮諾依曼架構(gòu),使得其在運(yùn)算單元和存儲(chǔ)單元間的信息交換量大幅降低,因此具有流水處理和響應(yīng)迅速的特點(diǎn)。FPGA芯片行業(yè)的生產(chǎn)廠商較多,其中Xilinx(賽靈思)、Altera(阿
爾特拉)、Lattice(萊迪思)和Microsemi(美高森美)4家美國(guó)企業(yè)握有大部分FPGA專(zhuān)利,且壟斷98%以上的市場(chǎng)份額。其中Xilinx和Altera分別占比49%和39%,剩余2家占比12%。如今國(guó)際半導(dǎo)體巨頭看好基于FPGA的人工智能芯片應(yīng)用前景,紛紛布局基于FPGA的人工智能芯片,例如,英特爾收購(gòu)了Altera;IBM與Xilinx合作等等。國(guó)內(nèi)研發(fā)FPGA產(chǎn)品的公司主要有紫光國(guó)芯、深鑒科技、廣東高云、上海安路、西安智多晶和上海遨格芯等。
2、主要優(yōu)勢(shì)
FPGA適用于快速變化的人工智能領(lǐng)域。FPGA兼容了PLD和通用門(mén)陣列的優(yōu)點(diǎn),可實(shí)現(xiàn)較大規(guī)模的電路。目前人工智能算法的更新迭代速度很快,通用化邏輯芯片更能適應(yīng)變化迅速的人工智能領(lǐng)域。
理論上分析,F(xiàn)PGA可以實(shí)現(xiàn)任意ASIC和DSP的邏輯功能。在實(shí)際應(yīng)用中,開(kāi)發(fā)人員可通過(guò)FPGA的軟件來(lái)修改芯片,而不是替換和重新設(shè)計(jì)芯片?,F(xiàn)有FPGA軟件也可通過(guò)因特網(wǎng)進(jìn)行遠(yuǎn)程升級(jí)。這將極大的方便人員在人工智能領(lǐng)域進(jìn)行自由開(kāi)發(fā)、調(diào)試和升級(jí)換代。
FPGA的開(kāi)發(fā)周期短,研發(fā)費(fèi)用低,有利于更早占據(jù)市場(chǎng)。由于FPGA的開(kāi)發(fā)流程,不涉及布線、掩模和流片等步驟,使得開(kāi)發(fā)周期縮減,一款產(chǎn)品的平均設(shè)計(jì)周期大約在7個(gè)月到12個(gè)月之間。FPGA產(chǎn)品的全球最大廠商Xilinx認(rèn)為,更快的研發(fā)速度,可以更早的占據(jù)市
場(chǎng)。如果產(chǎn)品晚上市6個(gè)月,5年內(nèi)將會(huì)少33%的利潤(rùn),晚上市4周約等于損失了14%的市場(chǎng)份額。因此,基于FPGA的人工智能芯片可以快速占領(lǐng)市場(chǎng)。同時(shí), FPGA的商業(yè)模式
與GPU、ASIC略有不同,眾多的客戶(hù)會(huì)共同分擔(dān)FPGA芯片的研發(fā)費(fèi)用(NRE),從而降低研發(fā)成本。所以FPGA可以采用最先進(jìn)的工藝,不斷降低產(chǎn)品的功耗,增加晶體管的數(shù)量,從而提升了FPGA在人工智能市場(chǎng)上的競(jìng)爭(zhēng)力。伴隨著人工智能芯片NRE費(fèi)用的指數(shù)級(jí)上升,基于FPGA開(kāi)發(fā)設(shè)計(jì)新一代人工智能產(chǎn)品的優(yōu)勢(shì)會(huì)更加明顯。FPGA并行計(jì)算效率高,整數(shù)
運(yùn)算能力出眾。FPGA率先使用最先進(jìn)工藝,單個(gè)計(jì)算單元的計(jì)算頻率突破500MHz。在某些應(yīng)用場(chǎng)景下,大量低速并行單元的計(jì)算效率要高于少量高速串行單元。同時(shí),F(xiàn)PGA芯片的整數(shù)運(yùn)算效率大大超過(guò)CPU。在當(dāng)前人工智能的企業(yè)級(jí)應(yīng)用中,F(xiàn)PGA占據(jù)了主導(dǎo)地位,如:圖像識(shí)別、卷積神經(jīng)網(wǎng)絡(luò)算法、安全控制、壓縮算法等。
3、主要劣勢(shì)
FPGA芯片中包含大量的邏輯器件與陣列,其批量生產(chǎn)成本高、產(chǎn)品功耗大和編程設(shè)計(jì)較難,使其應(yīng)用領(lǐng)域受到局限。批量生產(chǎn)成本高。由于FPGA流片成本高昂,實(shí)現(xiàn)同樣的人工智能
應(yīng)用,制作FPGA芯片的成本可能會(huì)超過(guò)ASIC的成本10倍以上。如果在流片量高于5萬(wàn)片的人工智能終端產(chǎn)品等領(lǐng)域,如:車(chē)載、手機(jī)、音箱、機(jī)器人等,生產(chǎn)成本將十分高昂。
產(chǎn)品功耗大。為適應(yīng)下游用戶(hù)復(fù)雜多樣的需求和應(yīng)用,F(xiàn)PGA的門(mén)電路集成度往往很高,然而具體到某一應(yīng)用,冗余的門(mén)電路會(huì)提升 FPGA 的功耗。然而在功耗敏感的領(lǐng)域中,這是非常致命的缺陷。
例如,無(wú)人駕駛的汽車(chē)?yán)脠D像視覺(jué)技術(shù)和深度學(xué)習(xí)技術(shù),實(shí)時(shí)分析周?chē)h(huán)境,每小時(shí)處理的數(shù)據(jù)量接近3TB,汽車(chē)本身無(wú)法承受,基于FPGA的智能芯片所產(chǎn)生的耗電量。編程設(shè)計(jì)難。在FPGA編程設(shè)計(jì)時(shí),要考慮諸多因素,例如:應(yīng)用場(chǎng)景多樣性、復(fù)雜性和運(yùn)行效
率。這些因素導(dǎo)致軟件開(kāi)發(fā)工作十分復(fù)雜,需要投入大量研發(fā)人員,例如:Xilinx公司的員工中,60%-70%的研發(fā)人員,在進(jìn)行軟件開(kāi)發(fā)工作。
4、應(yīng)用場(chǎng)景
基于FPGA芯片的通用性,使其在人工智能的多個(gè)領(lǐng)域具有豐富的應(yīng)用前景,例如:云端服務(wù)器、智能醫(yī)療、智能交通、智能家居、無(wú)線/有限通訊、航空、國(guó)防等領(lǐng)域。這些領(lǐng)域的共同特點(diǎn)是,對(duì)設(shè)備的功耗要求不高。人工智能的云端設(shè)備。人工智能深度學(xué)習(xí)算法包括訓(xùn)練和推斷兩個(gè)截然不同的環(huán)節(jié)。訓(xùn)練環(huán)節(jié)需參考海量數(shù)據(jù),必需在云端執(zhí)行。推斷環(huán)節(jié)可云端或終端均可完成。因此發(fā)展云端設(shè)備要比終端設(shè)備更為重要。由于FPGA具有動(dòng)態(tài)可重配、
性能功耗比高等多項(xiàng)優(yōu)點(diǎn),所以,全球7大超級(jí)數(shù)據(jù)計(jì)算中心,包括IBM、Facebook、微軟、AWS,以及BAT都采用了基于FPGA的云端數(shù)據(jù)服務(wù)器。在新一代人工智能云端設(shè)備的布局上,中美兩國(guó)齊頭并進(jìn)。
圖像識(shí)別技術(shù)。人工智能技術(shù)在圖像識(shí)別領(lǐng)域日臻完善,可以實(shí)時(shí)地感知探測(cè)器周?chē)沫h(huán)境細(xì)節(jié),得到更加清晰的圖像信息,進(jìn)一步可以輔助人類(lèi)完成一系列的任務(wù)。無(wú)論是分布式智能傳感器,還是集中多傳感器融合系統(tǒng),又或是高度集成的域控制器,均可通過(guò)擴(kuò)展FPGA的器件選擇,來(lái)滿(mǎn)足處理需求并達(dá)到目標(biāo)成本。Xilinx公司開(kāi)發(fā)的XA產(chǎn)品系列,以及SoC/MPSoC可創(chuàng)建高度差異化的汽車(chē)駕駛員輔助系統(tǒng)(ADAS,主要包括行車(chē)記錄儀、測(cè)距儀、雷達(dá)、傳感器、GPS、等設(shè)備)。浙江大學(xué)數(shù)理學(xué)院,與浙江德尚韻興圖像科技有限公司合
作,研發(fā)了一款基于Altera公司的人工智能FPGA芯片的超聲醫(yī)學(xué)影像智能診斷系統(tǒng),DE超聲機(jī)器人。語(yǔ)音識(shí)別技術(shù)。FPGA芯片已在人工智能的語(yǔ)音識(shí)別領(lǐng)域得到廣泛應(yīng)用。國(guó)際上,微軟、谷歌、蘋(píng)果、亞馬遜等跨國(guó)企業(yè),紛紛推出了語(yǔ)音識(shí)別產(chǎn)品。國(guó)內(nèi),北京深鑒
科技有限公司采用LSTM方案,進(jìn)行語(yǔ)音識(shí)別,結(jié)合深度壓縮算法,使得經(jīng)過(guò)壓縮的網(wǎng)絡(luò),在FPGA上實(shí)現(xiàn)超越Pascal Titan X GPU一個(gè)數(shù)量級(jí)的能效比。
-
FPGA
+關(guān)注
關(guān)注
1645文章
22050瀏覽量
618499 -
芯片
+關(guān)注
關(guān)注
460文章
52520瀏覽量
440952 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279949
原文標(biāo)題:精華 | 人工智能芯片技術(shù)路線剖析---FPGA
文章出處:【微信號(hào):wc_ysj,微信公眾號(hào):旺材芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論