眾所周知,人工智能的三大基礎(chǔ)要素是數(shù)據(jù)、算法和算力,而這三大要素的核心就是AI芯片技術(shù)。隨著各項基于AIGC前沿科技的廣泛應用,AI對于算力的要求開始不斷地快速攀升。特別是深度學習成為當前AI研究和運用的主流方式,目前通用的CPU可以拿來執(zhí)行AI的算法。但是因為內(nèi)部有大量的非運算邏輯,而這些指令級對于目前的AI算法來說是完全用不上的,所以CPU并不能達到最高的運算效率。因此,具有海量并行計算能力并且能夠加速AI計算的AI芯片應運而生。
什么是AI芯片
從廣義上講,只要能夠進行人工智能算法或者面向AI計算應用的芯片都叫做AI芯片。但是,通常意義上的AI芯片指的是針對人工智能算法做了特殊加速設計的芯片。他們的目的就是為了更高效地執(zhí)行AI算法。
AI芯片的發(fā)展歷程
從圖靈的論文《計算機器與智能》和圖靈測試,到最初的神經(jīng)元模擬單元感知機,再到現(xiàn)在多達上百層的深度神經(jīng)網(wǎng)絡,人類對人工智能的探索從來都沒有停止過。上世紀80年代,多層神經(jīng)網(wǎng)絡和反向傳播算法的出現(xiàn)給人工智能行業(yè)點燃了新的火花。1989年,貝爾實驗室成功利用了反向傳播算法在多層神經(jīng)網(wǎng)絡開發(fā)了一個手寫郵編識別器。1998年,兩位人工智能科學家楊立坤和約書亞·本杰奧發(fā)表了手寫識別神經(jīng)網(wǎng)絡和反向傳播優(yōu)化相關(guān)的論文,開創(chuàng)了卷積神經(jīng)網(wǎng)絡的時代。此后,人工智能陷入了長時間的發(fā)展沉寂階段,直到1997年IBM的深藍戰(zhàn)勝了國際象棋大師,和2011年IBM的沃森智能系統(tǒng)在《危險邊緣》節(jié)目中勝出,人工智能才又一次被人們所關(guān)注。2016年,阿爾法狗擊敗了韓國圍棋九段的職業(yè)選手,就標志著人工智能的又一波高潮。從基礎(chǔ)算法、底層硬件和工具框架到實際的應用場景,現(xiàn)階段的人工智能領(lǐng)域已經(jīng)全面開花。作為人工智能核心的底層硬件,AI芯片同樣也經(jīng)歷了多次的起伏和波折??傮w來看,AI芯片的發(fā)展前后經(jīng)歷了四次大的變化。
2007年以前,AI芯片產(chǎn)業(yè)一直沒有發(fā)展成為成熟的產(chǎn)業(yè),同時由于當時的算法、數(shù)據(jù)量等因素,這個階段的AI芯片并沒有特別強烈的市場需求,通用的CPU芯片即可滿足應用需求。隨著高清視頻、VR、AR、游戲等行業(yè)的發(fā)展,GPU產(chǎn)品得到了快速的突破,同時人們發(fā)現(xiàn)GPU的并行計算特性恰好適應人工智能算法及大數(shù)據(jù)并行計算的需求。如GPU比之前傳統(tǒng)的CPU在深度學習算法的運算上可以提升幾十倍的效率,因此開始嘗試使用GPU進行人工智能計算。進入2010年后,云計算開始廣泛推廣,人工智能的研究人員通過云計算借助大量的CPU和GPU進行混合運算,進一步推進了AI芯片的深入應用,從而催生了各類AI芯片的研發(fā)和應用。人工智能對于計算能力的要求在不斷地提升,進入2015年后,GPU性能功耗比不高的特點使其在工作適用場合受到多種限制,業(yè)界開始研發(fā)針對人工智能的專用芯片,以其通過更好的硬件和芯片架構(gòu)在計算效率、能耗比等性能上得到進一步的提升。
AI芯片的分類
首先,從AI芯片的功能來看,AI實現(xiàn)包括兩個環(huán)節(jié):訓練和推理。
所以根據(jù)承擔的任務不同,AI芯片可以分為基于構(gòu)建神經(jīng)網(wǎng)絡模型的訓練芯片,和利用神經(jīng)網(wǎng)絡模型進行推理預測的推理芯片。訓練環(huán)節(jié)通常需要通過大量的數(shù)據(jù)輸入,訓練出一個復雜的深度神經(jīng)網(wǎng)絡模型。訓練過程由于涉及海量的訓練數(shù)據(jù)和復雜的深度神經(jīng)網(wǎng)絡結(jié)構(gòu),運算量非常巨大,需要龐大的計算規(guī)模。對于處理器的計算能力、精度、可擴展性的性能要求非常高。比如英偉達的H100,基于FP16的算力達到了2000TOPS,即每秒可以進行2,000萬億次的操作。而推理則是利用訓練好的模型,使用新的數(shù)據(jù)去推理出各種結(jié)論。這個環(huán)節(jié)的計算量相對于訓練環(huán)節(jié)就少很多,但是仍然會涉及到大量的矩陣運算。比如英偉達的T4,基于INT8的算力為1,300TOPS。因此,訓練芯片注重絕對的計算能力,而推理芯片更注重的是綜合指標,單位能耗、算力、延時等各項成本都需要考慮。
從AI芯片的應用場景來看,也可以分為兩大類:服務器端和移動端,也可以說是云端和終端。
服務器端,從剛剛提到的訓練階段,由于數(shù)據(jù)量和運算量巨大,單一的處理器幾乎不可能獨立完成一個模型的訓練過程,因此訓練環(huán)節(jié)只能在云端實現(xiàn)。而推理階段,由于訓練出來的深度神經(jīng)網(wǎng)絡模型仍然非常復雜,推理過程仍然屬于計算密集型和存儲密集型,同樣可以選擇部署在服務器端。移動端,如手機、智能家居、無人駕駛,移動端AI芯片在設計思路上與服務器端的AI芯片有著本質(zhì)的區(qū)別。首先,它們對計算的能效要求非常之高;其次,在智能駕駛等實時性要求很高的場合,推理過程必須在設備本身完成,因此要求移動設備具備足夠的推理能力。而某些場合還會有低功耗、低延遲、低成本的要求,從而要求移動端的AI芯片更是多種多樣??偟膩碚f,服務器端AI芯片的特點是性能強大,并且能夠支持大量運算;而移動端的AI芯片特點是體積小、耗電少,并且有很快的計算效率。
最后,還可以從技術(shù)架構(gòu)來劃分,比如GPU、FPGA、ASIC和類腦芯片。
GPU:傳統(tǒng)的CPU之所以不適合人工智能算法的執(zhí)行,主要原因是在于計算指令遵循著串行執(zhí)行的,沒有辦法發(fā)揮出芯片的全部潛力。CPU大部分面積為控制器和寄存器,而GPU擁有更多的邏輯運算單元,用于數(shù)據(jù)處理。這樣的結(jié)構(gòu)適合對于密集型數(shù)據(jù)進行并行計算,程序在GPU系統(tǒng)上運行速度相較于單行的CPU往往提升幾十倍甚至上千倍。但是,GPU也有一定的局限性:深度學習算法分為訓練和推斷兩個部分,GPU平臺在算法訓練上是非常高效,但是在推斷中,由于單項輸入進行處理的時候并行計算的優(yōu)勢不能完全發(fā)揮出來。此外,GPU無法單獨工作,必須由CPU進行控制調(diào)用才能工作,而且功耗比較高。
FPGA:FPGA全稱現(xiàn)場可編程門陣列,與GPU不同的是,F(xiàn)PGA同時擁有硬件流水線并行和數(shù)據(jù)并行處理能力,適用于以硬件流水線方式處理一條數(shù)據(jù),且整體運算性更高。因此,常用于深度學習算法中的推斷階段。不過,F(xiàn)PGA通過硬件的配置實現(xiàn)軟件算法,因此在實現(xiàn)復雜算法方面有一定的難度。相比于CPU,F(xiàn)PGA因為沒有數(shù)據(jù)和指令存儲和讀取的功能,速度會變得更快,而功耗會更低。那么它的劣勢就是價格比較高,編程相對復雜,而且整體運算能力不是很高。
ASIC:ASIC是專用集成電路,是專用的定制芯片,即是為實現(xiàn)特定要求而定制的芯片。定制的特性有助于提高ASIC的性能功耗比,缺點是電路設計需要定制,相對開發(fā)周期長,功能難以擴展。但在功耗、可靠性、集成度等方面都有優(yōu)勢,尤其在要求高性能、低功耗的移動端體現(xiàn)非常明顯。因此在深度學習算法穩(wěn)定后,AI芯片可以采用ASIC設計方法進行全面定制,使性能、功耗和面積等指標面向深度學習的算法做到最優(yōu)。
神經(jīng)擬態(tài)芯片,也就是類腦芯片。神經(jīng)擬態(tài)計算是模擬生物神經(jīng)網(wǎng)絡的計算機制,神經(jīng)擬態(tài)計算是從結(jié)構(gòu)層面去逼近大腦。這種芯片把定制化的數(shù)字處理內(nèi)核當作神經(jīng)元,把內(nèi)存作為突觸。其邏輯結(jié)構(gòu)與傳統(tǒng)的馮·諾依曼結(jié)構(gòu)完全不同,它的內(nèi)存、CPU和通信部件完全是集成在一起,因此信息的處理在本地進行,克服了傳統(tǒng)計算機的內(nèi)存和CPU之間的速度瓶頸問題。同時,神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他的神經(jīng)元發(fā)過來的脈沖,那么這些神經(jīng)元就會同時做出反應和動作。
AI芯片的發(fā)展
AI芯片的發(fā)展向著更低功耗、更接近人腦、更靠近邊緣的方向發(fā)展?,F(xiàn)在用于深度學習的AI芯片,為了實現(xiàn)深度學習的龐大乘積累加運算和實現(xiàn)計算的高性能,芯片面積越做越大,帶來了成本和散熱等問題。AI芯片編程的成熟度和芯片的安全以及神經(jīng)網(wǎng)絡的穩(wěn)定性等問題也都未能得到很好的解決。因此在現(xiàn)有的基礎(chǔ)上進行改進和完善此類芯片,仍然是當前的主要研究方向。最終,AI芯片將進一步提高智能,向著更接近人腦的高度智能方向不斷發(fā)展,并且向著邊緣逐步移動,以獲得更低的能耗。AI芯片的發(fā)展,計算范式隨著創(chuàng)新方向以及硬件實現(xiàn),AI硬件加速技術(shù)已經(jīng)逐漸走向成熟。未來可能會有更多的創(chuàng)業(yè)會來自電路和器件級技術(shù)的結(jié)合,比如存內(nèi)計算、類腦計算,或者是針對特殊的計算模式或者是新模型,還會有稀疏化計算和近似計算。關(guān)于深度計算的研究,也將持續(xù)進行。
為搭建汽車芯片產(chǎn)業(yè)上下游聯(lián)動發(fā)展的平臺,上海市集成電路行業(yè)協(xié)會、上海市交通電子行業(yè)協(xié)會依托上海汽車芯片產(chǎn)業(yè)聯(lián)盟、ATC汽車技術(shù)平臺,并聯(lián)合江、浙、皖三地半導體行業(yè)協(xié)會等單位,定于11月12-13日在上海舉辦“2024汽車與新能源芯片生態(tài)大會暨第四屆長三角汽車芯片對接交流會”,本屆峰會將重點討論:芯片平臺的搭建和設計,車載芯片在自動駕駛、智能座艙、車載網(wǎng)絡、新能源三電等等的需求及應用案例,最新芯片設計、安全、測試、封裝測試及三代半材料工藝等等熱點技術(shù)問題深入探討,共同交流!同時建立一個您與終端用戶、行業(yè)專家、上下游產(chǎn)業(yè)鏈技術(shù)與項目交流的絕佳平臺
審核編輯 黃宇
-
算法
+關(guān)注
關(guān)注
23文章
4709瀏覽量
95358 -
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249360 -
AI芯片
+關(guān)注
關(guān)注
17文章
1983瀏覽量
35904
發(fā)布評論請先 登錄
評論