后摩智能發(fā)布了首款存算一體芯片——鴻途 H30,最高物理算力 256TOPS,功耗僅為 35W,碾壓國(guó)內(nèi)一眾智駕芯片。
存儲(chǔ)一體?還首款?
不僅是后摩智能,包括英特爾、SK 海力士、IBM、美光、三星、臺(tái)積電、阿里、九天睿芯、恒爍股份、億鑄科技、千芯科技、蘋芯科技、知存科技、智芯科技等在內(nèi),無(wú)論是國(guó)際大廠還是初創(chuàng)企業(yè)都紛紛扎堆涌入這個(gè)領(lǐng)域。
不禁要問(wèn),讓各大芯片廠商打雞血的存儲(chǔ)一體是個(gè)什么東西,下面我們存算一體技術(shù)是什么,為什么這么火爆。
01存算一體是什么
目前市面上的芯片都是基于馮諾依曼架構(gòu),其特點(diǎn)是處理單元和存儲(chǔ)單元分離,各不相干,需要運(yùn)算的時(shí)候,計(jì)算單元再?gòu)拇鎯?chǔ)單元讀取數(shù)據(jù)進(jìn)行處理,處理完再還回去。
而存算一體則是把存儲(chǔ)單元和處理單元合二為一,把數(shù)據(jù)和計(jì)算融合在同一片區(qū)中,這樣處理的好處在于可以直接利用存儲(chǔ)器進(jìn)行數(shù)據(jù)處理,從根本上消除馮諾依曼架構(gòu)計(jì)算存儲(chǔ)分離的問(wèn)題,尤其特別適用于現(xiàn)代大數(shù)據(jù)大規(guī)模并行的應(yīng)用場(chǎng)景。
實(shí)際上存儲(chǔ)一體并不是近年來(lái)被提出的新概念,最早可追溯至上個(gè)世紀(jì) 70 年代,只是受限于當(dāng)時(shí)的芯片制造技術(shù)和算力需求,存算一體僅僅停留在理論研究上,一直到了大數(shù)據(jù)、人工智能時(shí)代,巨大的算力需求才為存算一體提供了新的發(fā)展動(dòng)力。
比如中國(guó)國(guó)防科大、中科曙光和國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心計(jì)劃推出首臺(tái) E 級(jí)超算,但想要研制這種級(jí)別的超算,科學(xué)家首先面臨的巨大挑戰(zhàn)就是功耗過(guò)高問(wèn)題,以現(xiàn)有的技術(shù)研制 E 級(jí)超算功率高達(dá)千兆瓦,需要一個(gè)專門的核電站才能滿足耗電量,而其中 50% 以上的電量都要被用來(lái)消耗進(jìn)行數(shù)據(jù)搬運(yùn)。
本質(zhì)上就是馮諾依曼架構(gòu)的處理和存儲(chǔ)分離的缺陷所致,因此存算一體被當(dāng)作全村的希望。
02存算一體的優(yōu)勢(shì)
由于把存儲(chǔ)計(jì)算合二為一,去掉了中間傳輸路徑,所以可以大幅減少數(shù)據(jù)搬運(yùn),消過(guò)程中不必要的延遲和功耗,能耗可降至 1/10-1/100,能效可提升 10-100TOPS/W
因?yàn)榇鎯?chǔ)一體是以存儲(chǔ)器為介質(zhì),在里面加入計(jì)算單元,所以可以直接利用存儲(chǔ)單元進(jìn)行邏輯計(jì)算提升算力。(等效于在面積不變的情況下規(guī)?;黾佑?jì)算核心數(shù)),在特定區(qū)域可提供 1000TOPS 以上的算力
不依賴制程工藝,因?yàn)榇鎯?chǔ)一體基于全新架構(gòu)開發(fā),可以打破摩爾定律的限制,所以不受先進(jìn)制程工藝限制。比如鴻途 H30 就是基于 12nm 制程工藝打造,在 Int8 數(shù)據(jù)精度下實(shí)現(xiàn)高達(dá) 256TOPS 的物理算力,功耗不超過(guò) 35W。
如果在傳統(tǒng)的馮·諾依曼架構(gòu)下采用相同工藝,能效比多在 2TOPS/W,某國(guó)際巨頭芯片基于 8nm 工藝,如果二者用同一工藝,存算一體架構(gòu)的芯片處理效率優(yōu)勢(shì)將會(huì)更加明顯。
存算一體超越馮諾依曼架構(gòu),該架構(gòu)可徹底消除數(shù)據(jù)搬運(yùn)過(guò)程中的延遲和功耗,是一種真正意義上的處理存儲(chǔ)相融合,所以二者完全耦合,可以開發(fā)更細(xì)粒度的并行性,從而獲得更高的性能和能效,明顯超越現(xiàn)有的 ASIC 芯片。
存算一體架構(gòu)無(wú)論是制程、功耗、成本還是算力,相比傳統(tǒng)架構(gòu)都有明顯優(yōu)勢(shì),可以說(shuō)完全就是為人工智能時(shí)代而生,但前途有多光明,道路就有多曲折,存算一體技術(shù)研發(fā)的困難也是相當(dāng)巨大。
03存算一體的挑戰(zhàn)
傳統(tǒng)架構(gòu)是計(jì)算和存儲(chǔ)相分離,現(xiàn)在兩者要合二為一,這就對(duì)存儲(chǔ)器本身和存算一體的設(shè)計(jì)提出更高的要求,是需要技術(shù)人員從頭探索的新領(lǐng)域。
隨著以后數(shù)據(jù)量不斷增大,在全新架構(gòu)下,計(jì)算、功耗、通信三方面都要重新變革,對(duì)制造工藝都提出更高要求。
為了保持梯度計(jì)算的保真性和權(quán)重更新,現(xiàn)在市面上的AI芯片大都在 16bit 精度以上,而作為首款存算一體芯片的鴻途 H30 只有 8bit,還難以和傳統(tǒng)芯片媲美,即便是在 PCM 存儲(chǔ)器上有十多年的 IBM,也只是發(fā)布了 8bit 精度的模擬芯片,而其他大廠如微軟、英特爾、美光等則是投資創(chuàng)業(yè)公司。
由于存算一體是把計(jì)算和數(shù)據(jù)高度耦合,因此一旦其中一方出問(wèn)題,另一方幾乎也會(huì)遭到極大影響,這都是需要處理的難題。
總而言之,存算一體是一條全新的、沒(méi)有現(xiàn)成方法可以參考的、還需要解決傳統(tǒng)架構(gòu)遺留問(wèn)題的艱難道路。
可即便優(yōu)勢(shì)明顯,但存算一體難度這么大,為什么各路大廠還要紛紛打雞血參戰(zhàn),傳統(tǒng)芯片架構(gòu)技術(shù)成熟、產(chǎn)品可靠,創(chuàng)業(yè)公司也就算了,但為什么傳統(tǒng)廠商也來(lái)趟這趟回水,傳統(tǒng)芯片架構(gòu)沒(méi)路可走了嗎,下面就要說(shuō)說(shuō)傳統(tǒng)架構(gòu)的問(wèn)題了。
04傳統(tǒng)芯片架構(gòu)的「原罪」
文章開頭提到過(guò),傳統(tǒng)芯片都是基于馮諾依曼架構(gòu)開發(fā),這種架構(gòu)的特點(diǎn)是處理和存儲(chǔ)兩部分是分開的,通過(guò)數(shù)據(jù)總線進(jìn)行數(shù)據(jù)連接傳輸,而且是以處理為主,存儲(chǔ)主要起到輔助作用,處理器先要把存儲(chǔ)器里的數(shù)據(jù)搬運(yùn)出來(lái)才能處理,處理完再丟回去。
但隨著芯片技術(shù)的飛速發(fā)展,處理器的性能不斷飆升,而存儲(chǔ)器的性能卻在龜速前進(jìn),兩者的性能差距越來(lái)越大,存儲(chǔ)器的讀寫速度遠(yuǎn)遠(yuǎn)跟不上處理器的處理速度,導(dǎo)致芯片在運(yùn)行的時(shí)候,大部分算力都被搬運(yùn)數(shù)據(jù)的過(guò)程消耗掉了,只有小部分算力被有效利用。
就相當(dāng)于一個(gè)極度口渴的人拿著一瓶水,瓶子的瓶體直徑有 1 米,但瓶口直徑只有 1 厘米,那種感覺(jué)各位感受下,所以逐漸就形成了業(yè)界普遍流傳的存儲(chǔ)墻,嚴(yán)重制約芯片綜合性能的提升。
有算力的地方就有功耗,正如上文所說(shuō),基于馮諾依曼架構(gòu)開發(fā)的芯片在處理數(shù)據(jù)的過(guò)程中,處理器先要通過(guò)數(shù)據(jù)總線把存儲(chǔ)器中的數(shù)據(jù)搬運(yùn)出來(lái),處理完成后在搬運(yùn)回去,整個(gè)搬運(yùn)過(guò)程所消耗的功耗是浮點(diǎn)運(yùn)算的 4-1000 倍左右。
雖然半導(dǎo)體工藝一直在進(jìn)步,芯片的總體功耗在下降,但馮諾依曼架構(gòu)天然的缺陷難以改變,數(shù)據(jù)搬運(yùn)的功耗比只會(huì)越來(lái)越大,整個(gè)過(guò)程的無(wú)用能耗能占到 60%-90%,能效之低,令人發(fā)指,因此又形成了功耗墻,兩面墻就這樣死死壓制著芯片性能的提升。
另外,根據(jù)咨詢公司評(píng)估,晶圓廠每一代工藝的建設(shè)資金都在急劇增加,還不說(shuō)技術(shù)專利和人才問(wèn)題,只是建造一個(gè) 5nm 晶圓廠,就需要 160 億美元,光是資金就嚇退所有人。
為了打破馮諾依曼架構(gòu)的瓶頸,降低處理和存儲(chǔ)二者搬運(yùn)過(guò)程帶來(lái)的高損耗,學(xué)術(shù)界和產(chǎn)業(yè)界嘗試了各種方法,大體可分為兩類:
近存儲(chǔ)計(jì)算
核心思想就是設(shè)計(jì)芯片的時(shí)候,把處理單元和存儲(chǔ)單元兩塊區(qū)域盡可能的拉近距離,縮短路徑,從而降低數(shù)據(jù)搬運(yùn)過(guò)程中的算力損耗和功耗,目前市面上的主要技術(shù)路徑是多級(jí)緩存和高密度片上存儲(chǔ)。
光互連、2D/3D堆疊和高速帶寬數(shù)據(jù)通信
2D/3D堆疊技術(shù)是將多個(gè)芯片堆疊在一起,通過(guò)增大處理單元和存儲(chǔ)單元之間的并行寬度提高傳輸速度。
高速帶寬數(shù)據(jù)通信主要就是通過(guò)提高通信帶寬降低數(shù)據(jù)搬運(yùn)過(guò)程的損耗。
因?yàn)轳T諾依曼架構(gòu)的天然缺陷依舊存在,所以上面兩種方案并沒(méi)有從根本上解決數(shù)據(jù)存儲(chǔ)和處理的搬運(yùn)損耗問(wèn)題,到了大數(shù)據(jù)、人工智能時(shí)代,海量的數(shù)據(jù)處理讓這些問(wèn)題暴露的更加徹底,產(chǎn)業(yè)界和學(xué)術(shù)界都迫切希望找到一種能徹底解決該問(wèn)題的方案,就是存算一體。
綜上所述,就是傳統(tǒng)的馮諾依曼架構(gòu)缺陷導(dǎo)致自我消耗、限制太大,無(wú)法滿足算力需求,再加上摩爾定律逼近極限、晶圓廠建設(shè)又是個(gè)吞金獸,成本巨大,幾乎死路一條,各大廠商只能押注存算一體。
簡(jiǎn)單來(lái)說(shuō),從馮諾依曼架構(gòu)到存算一體架構(gòu),指導(dǎo)思想就是停止內(nèi)耗,一致對(duì)外。
05存算一體技術(shù)發(fā)展路線
雖然存儲(chǔ)一體已經(jīng)成為目前業(yè)界發(fā)展共識(shí),但由于各個(gè)技術(shù)廠商的技術(shù)、發(fā)展方向、商業(yè)模式等條件不同,因此發(fā)展出了四種路徑。
查存計(jì)算
目前 GPU 芯片中對(duì)復(fù)雜函數(shù)的處理就是用了這種方法,主要通過(guò)在存儲(chǔ)單元內(nèi)部查表完成處理任務(wù),技術(shù)成熟穩(wěn)定。
近存計(jì)算
國(guó)外的典型代表便是 AMD 的 ZEN 系列 CPU,國(guó)內(nèi)阿里巴巴基于 DRAM 的 3D 堆疊技術(shù)芯片也是這個(gè)路線,主要通過(guò)在存儲(chǔ)區(qū)域外部的獨(dú)立處理單元完成操作,這種架構(gòu)的代際升級(jí)成本較低,特別適合傳統(tǒng)芯片廠商過(guò)渡。
存內(nèi)計(jì)算
主要在存儲(chǔ)單元內(nèi)部加入獨(dú)立計(jì)算單元完成數(shù)據(jù)處理操作,計(jì)算方式可以是數(shù)字也可以是模擬,一般用于固定場(chǎng)景的算法計(jì)算,上文提到的鴻途 H30 便屬于這種。
存內(nèi)邏輯
這是目前存算一體的最新架構(gòu),主要在存儲(chǔ)區(qū)域加入計(jì)算邏輯,直接進(jìn)行數(shù)據(jù)計(jì)算,這種架構(gòu)數(shù)據(jù)傳輸路徑最短,真正做到存算一體,能滿足大模型的計(jì)算需求,代表廠商有 TSMC 和千芯科技。
由于存算一體芯片都是基于存儲(chǔ)器介質(zhì)開發(fā),而存儲(chǔ)器可分為易失性和非易失性兩種,所以又有數(shù)字計(jì)算和模擬計(jì)算兩種方向。
基于易失性的數(shù)字計(jì)算存儲(chǔ)器,主要有 SRAM 和 DRAM。
SRAM 和 DRAM 技術(shù)工藝成熟,是目前存儲(chǔ)器的主流,因此很多廠商都基于兩者展開存算一體技術(shù)研究,具有高性能和高精度優(yōu)點(diǎn),也有很好的抗噪聲能力和可靠性。
基于非易失性的模擬計(jì)算存儲(chǔ)器,主要有閃存 Flash、相變存儲(chǔ)器 PCM、阻變存儲(chǔ)器 RRAM/憶阻器 ReRAM。
這些新型存儲(chǔ)器在近年來(lái)取得了較快的發(fā)展,具有存儲(chǔ)密度大、并行度高優(yōu)點(diǎn)、對(duì)存儲(chǔ)和計(jì)算具備天然的融合性,但對(duì)環(huán)境噪聲和溫度比較敏感,但由于工藝尚不成熟,距離真正落地還有一段距離。
數(shù)字存算一體適合大算力高能效的應(yīng)用場(chǎng)景,模擬存算一體適合小算力、不需要非常強(qiáng)的可靠性的民用場(chǎng)景。
一句話概括,未來(lái)很長(zhǎng)一段時(shí)間內(nèi),SRAM 和 DRAM 都是存算一體芯片的主流選擇。
寫在最后
存算一體已經(jīng)被業(yè)界普遍確定為下一代人工智能芯片技術(shù)發(fā)展方向,由于是全新的技術(shù)方向,目前國(guó)內(nèi)外廠商都處于剛起步階段,沒(méi)有成熟方法可以借用,而且該技術(shù)依賴于存儲(chǔ)器的不斷流片積累經(jīng)驗(yàn),需要技術(shù)團(tuán)隊(duì)有充分的量產(chǎn)經(jīng)驗(yàn)和技術(shù)認(rèn)知,還需要大量資金,行業(yè)壁壘很高。
目前各大廠商根據(jù)自身情況,主要有兩種發(fā)展思路:
從小算力入手,比如從 1TOPS 開始,先解決音頻類、健康類這些低功耗的應(yīng)用場(chǎng)景,掌握芯片商業(yè)化后的性能和功耗問(wèn)題,然后在進(jìn)入大算力領(lǐng)域。
直接發(fā)展大算力,提供大于 100TOPS 的高性價(jià)比產(chǎn)品,應(yīng)用于智能駕駛、云計(jì)算、機(jī)器人等領(lǐng)域。
隨著現(xiàn)在各種大模型、自動(dòng)駕駛、云計(jì)算等 AI 技術(shù)的加速落地,對(duì)大算力需求迫切增加,即使技術(shù)有很多困難,但巨大的市場(chǎng)需求一定會(huì)倒逼技術(shù)突破,成為繼 CPU、GPU 架構(gòu)之后的另一主流架構(gòu)。
審核編輯:湯梓紅
-
處理器
+關(guān)注
關(guān)注
68文章
19894瀏覽量
235187 -
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7651瀏覽量
167388 -
sram
+關(guān)注
關(guān)注
6文章
786瀏覽量
115957 -
美光
+關(guān)注
關(guān)注
5文章
727瀏覽量
52392 -
存算一體
+關(guān)注
關(guān)注
0文章
109瀏覽量
4663
原文標(biāo)題:存算一體技術(shù)發(fā)展路線
文章出處:【微信號(hào):nev360,微信公眾號(hào):焉知新能源汽車】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
存算一體大算力AI芯片將逐漸走向落地應(yīng)用
比存算一體更進(jìn)一步,“感存算一體化”前景如何?
2PFLOPS,存算一體迎來(lái)新的卷王
探索存內(nèi)計(jì)算—基于 SRAM 的存內(nèi)計(jì)算與基于 MRAM 的存算一體的探究

ReRAM存算一體AI大算力芯片的獨(dú)特優(yōu)勢(shì)
存算一體技術(shù)路線如何選

2023年存算一體是芯片設(shè)計(jì)的技術(shù)趨勢(shì)
關(guān)于存算一體,我們和ChatGPT聊了聊
特斯拉的下一代AI芯片:存算一體
ChatGPT開啟大模型“軍備賽”,存算一體開啟算力新篇章

如何選擇存儲(chǔ)器類型 存算一體芯片發(fā)展趨勢(shì)

存算一體芯片新突破!清華大學(xué)研制出首顆存算一體芯片
淺談為AI大算力而生的存算-體芯片

評(píng)論