?? ??目前 AI 大模型的算力水平顯著供不應(yīng)求。以 Open AI 的算力基礎(chǔ)設(shè)施為例,芯片層面 GPGPU 的需求最為直接受益,其次是 CPU、AI 推理芯片、FPGA 等。AI 服務(wù)器市場(chǎng)的擴(kuò)容,同步帶動(dòng)高速網(wǎng)卡、HBM、DRAM、NAND、PCB 等需求提升。同時(shí),圍繞解決大算力場(chǎng)景下 GPU“功耗墻、內(nèi)存墻”問(wèn)題的相關(guān)技術(shù)不斷升級(jí),如存算一體、硅光/CPO 產(chǎn)業(yè)化進(jìn)程有望提速。
1.“內(nèi)存墻”、“功耗墻”等掣肘 AI 的算力發(fā)展
“存”“算”性能失配,內(nèi)存墻導(dǎo)致訪存時(shí)延高,效率低。內(nèi)存墻,指內(nèi)存的容量或傳輸帶寬有限而嚴(yán)重限制 CPU 性能發(fā)揮的現(xiàn)象。內(nèi)存的性能指標(biāo)主要有“帶寬”(Bandwidth)和“等待時(shí)間”(Latency)。近 20 年間,運(yùn)算設(shè)備的算力提高了 90000 倍,提升非???。雖然存儲(chǔ)器從 DDR 發(fā)展到 GDDR6x,能夠用于顯卡、游戲終端和高性能運(yùn)算,接口標(biāo)準(zhǔn)也從 PCIe1.0a 升級(jí)到 NVLink3.0,但是通訊帶寬的增長(zhǎng)只有 30 倍,和算力相比提高幅度非常緩慢。
馮諾依曼架構(gòu)下,數(shù)據(jù)傳輸導(dǎo)致嚴(yán)重的功耗損失。馮·諾依曼架構(gòu)要求數(shù)據(jù)在存儲(chǔ)器單元和處理單元之間不斷地“讀寫”,這樣數(shù)據(jù)在兩者之間來(lái)回傳輸就會(huì)消耗很多的傳輸功耗。根據(jù)英特爾的研究表明,當(dāng)半導(dǎo)體工藝達(dá)到 7nm 時(shí),數(shù)據(jù)搬運(yùn)功耗高達(dá) 35pJ/bit,占總功耗的63.7%。數(shù)據(jù)傳輸造成的功耗損失越來(lái)越嚴(yán)重,限制了芯片發(fā)展的速度和效率,形成了“功耗墻”問(wèn)題。
AI 模型參數(shù)量極速擴(kuò)大,GPU 內(nèi)存增長(zhǎng)速度捉襟見(jiàn)肘。在 GPT-2 之前的模型時(shí)代,GPU 內(nèi)存還能滿足 AI 大模型的需求。近年來(lái),隨著 Transformer 模型的大規(guī)模發(fā)展和應(yīng)用,模型大小每?jī)赡昶骄鲩L(zhǎng)了 240 倍。GPT-3 等大模型的參數(shù)增長(zhǎng)已經(jīng)超過(guò)了 GPU 內(nèi)存的增長(zhǎng)。傳統(tǒng)的設(shè)計(jì)趨勢(shì)已經(jīng)不適應(yīng)當(dāng)前的需求,芯片內(nèi)部、芯片之間或 AI 加速器之間的通信成為了 AI訓(xùn)練的瓶頸。AI 訓(xùn)練不可避免地遇到了“內(nèi)存墻”問(wèn)題。
AI 模型運(yùn)算量增長(zhǎng)速度不斷加快,推動(dòng)硬件算力增長(zhǎng)。預(yù)訓(xùn)練技術(shù)的進(jìn)步導(dǎo)致了各領(lǐng)域模型計(jì)算量的快速增長(zhǎng),大約每?jī)赡昃鸵黾?15 倍。而 Transformer 類模型的運(yùn)算量更是每?jī)赡昃鸵黾?750 倍。這種近乎指數(shù)的增長(zhǎng)趨勢(shì)促使 AI 硬件的研發(fā)方向發(fā)生變化,需要更高的峰值算力。
當(dāng)前的研究為了實(shí)現(xiàn)更高的算力,甚至不惜簡(jiǎn)化或者優(yōu)化其他部分組件,例如內(nèi)存的分層架構(gòu),將 DRAM 容量用于需要高性能訪問(wèn)的熱數(shù)據(jù),將容量層用于處理需要大容量但性能要求不那么高的任務(wù),以適應(yīng)不同的數(shù)據(jù)類型、用例、技術(shù)需求和預(yù)算限制,適用于 AI、ML 和 HPC 等眾多應(yīng)用場(chǎng)景,能幫助企業(yè)以經(jīng)濟(jì)高效的方式滿足內(nèi)存需求。
2.“內(nèi)存墻”、“功耗墻”等問(wèn)題解決路徑
2.2.1.存算一體技術(shù):以 SRAM、RRAM 為主的新架構(gòu),大算力領(lǐng)域優(yōu)勢(shì)大存算一體在存儲(chǔ)器中嵌入計(jì)算能力,以新的運(yùn)算架構(gòu)進(jìn)行乘加運(yùn)算。存算一體是一種以數(shù)據(jù)為中心的非馮諾依曼架構(gòu),它將存儲(chǔ)功能和計(jì)算功能有機(jī)結(jié)合起來(lái),直接在存儲(chǔ)單元中處理數(shù)據(jù)。存算一體通過(guò)改造“讀”電路的存內(nèi)計(jì)算架構(gòu),可以直接從“讀”電路中得到運(yùn)算結(jié)果,并將結(jié)果“寫”回存儲(chǔ)器的目標(biāo)地址,避免了在存儲(chǔ)單元和計(jì)算單元之間頻繁地轉(zhuǎn)移數(shù)據(jù)。存算一體減少了不必要的數(shù)據(jù)搬移造成的開(kāi)銷,不僅大幅降低了功耗(降至 1/10~1/100),還可以利用存儲(chǔ)單元進(jìn)行邏輯計(jì)算提高算力,顯著提升計(jì)算效率。它不僅適用于 AI 計(jì)算,也適用于感存算一體芯片和類腦芯片,是未來(lái)大數(shù)據(jù)計(jì)算芯片架構(gòu)的主流方向。
存算一體技術(shù)可分為查存計(jì)算、近存計(jì)算、存內(nèi)計(jì)算和存內(nèi)邏輯,提供多種方式解決內(nèi)存墻問(wèn)題。
查存計(jì)算:早期技術(shù),在存儲(chǔ)芯片內(nèi)部查表來(lái)完成計(jì)算操作。
近存計(jì)算:早已成熟,計(jì)算操作由位于存儲(chǔ)區(qū)域外部的獨(dú)立計(jì)算芯片/模塊完成。典型代表是 AMD 的 Zen 系列 CPU,以及封裝 HBM 內(nèi)存(包括三星的 HBM-PIM)與計(jì)算模組(裸Die)的芯片。
存內(nèi)計(jì)算:計(jì)算操作由位于存儲(chǔ)芯片/區(qū)域內(nèi)部的獨(dú)立計(jì)算單元完成,存儲(chǔ)和計(jì)算可以是模擬或數(shù)字的。典型代表是 Mythic、千芯科技、閃億、知存、九天睿芯等。
存內(nèi)邏輯:通過(guò)在內(nèi)部存儲(chǔ)中添加計(jì)算邏輯,直接在內(nèi)部存儲(chǔ)執(zhí)行數(shù)據(jù)計(jì)算。典型代表包括 TSMC(在 2021 ISSCC 發(fā)表論文)和千芯科技。
SRAM、RRAM 是存算一體介質(zhì)的主流研究方向。存算一體的成熟存儲(chǔ)器有幾種,比如 NOR FLASH、SRAM、DRAM、RRAM、MRAM 等 NVRAM。
FLASH 是非易失性存儲(chǔ),成本低,可靠性高,但制程有瓶頸。
SRAM 速度快,能效比高,在存內(nèi)邏輯技術(shù)發(fā)展后有高能效和高精度的特點(diǎn)。
DRAM 容量大,成本低,但速度慢,需要不斷刷新電力。
新型存儲(chǔ)器 PCAM、MRAM、RRAM 和 FRAM 也適用于存算一體。其中 RRAM 在神經(jīng)網(wǎng)絡(luò)計(jì)算中有優(yōu)勢(shì),是下一代存算一體介質(zhì)的主流方向之一。除了 SRAM 之外,RRAM 也是未來(lái)發(fā)展最快的新型存儲(chǔ)器之一,它結(jié)構(gòu)簡(jiǎn)單,速度高,但材料不穩(wěn)定,工藝還需 2-5 年才能成熟。
存算一體有著廣泛的應(yīng)用場(chǎng)景,在不同大小設(shè)備上均有需求。
從技術(shù)領(lǐng)域來(lái)看,存算一體可以應(yīng)用于:
(1)AI 和大數(shù)據(jù)計(jì)算:將 AI 計(jì)算中大量乘加計(jì)算的權(quán)重部分存在存儲(chǔ)單元中,從而在讀取的同時(shí)進(jìn)行數(shù)據(jù)輸入和計(jì)算處理,在存儲(chǔ)陣列中完成卷積運(yùn)算。
(2)感存算一體:集傳感、儲(chǔ)存和運(yùn)算為一體構(gòu)建感存算一體架構(gòu),在傳感器自身包含的 AI存算一體芯片上運(yùn)算,來(lái)實(shí)現(xiàn)零延時(shí)和超低功耗的智能視覺(jué)處理能力。
(3)類腦計(jì)算:使計(jì)算機(jī)像人腦一樣將存儲(chǔ)和計(jì)算合二為一,從而高速處理信息。存算一體天然是將存儲(chǔ)和計(jì)算結(jié)合在一起的技術(shù),是未來(lái)類腦計(jì)算的首選和產(chǎn)品快速落地的關(guān)鍵。
從應(yīng)用場(chǎng)景來(lái)分,存算一體可以適用于各類人工智能場(chǎng)景和元宇宙計(jì)算,如可穿戴設(shè)備、移動(dòng)終端、智能駕駛、數(shù)據(jù)中心等。
(1)針對(duì)端側(cè)的可穿戴等小設(shè)備,對(duì)成本、功耗、時(shí)延難度很敏感。端側(cè)競(jìng)品眾多,應(yīng)用場(chǎng)景碎片化,面臨成本與功效的難題。存算一體技術(shù)在端側(cè)的競(jìng)爭(zhēng)力影響約占 30%。(例如 arm占 30%,降噪或 ISP 占 40%,AI 加速能力只占 30%)
(2)針對(duì)云計(jì)算和邊緣計(jì)算的大算力設(shè)備,是存算一體芯片的優(yōu)勢(shì)領(lǐng)域。存算一體在大算力領(lǐng)域的競(jìng)爭(zhēng)力影響約占 90%。
傳統(tǒng)存儲(chǔ)大廠紛紛入局,新興公司不斷涌現(xiàn)。
(1)國(guó)外方面,三星電子在多個(gè)技術(shù)路線進(jìn)行嘗試,發(fā)布新型 HBM-PIM(存內(nèi)計(jì)算)芯片、全球首個(gè)基于 MRAM(磁性隨機(jī)存儲(chǔ)器)的存內(nèi)計(jì)算研究等。臺(tái)積電在 ISSCC 2021 上提出基于數(shù)字改良的 SRAM 設(shè)計(jì)存內(nèi)計(jì)算方案。英特爾也早早提出近內(nèi)存計(jì)算戰(zhàn)略,將數(shù)據(jù)在存儲(chǔ)層級(jí)向上移動(dòng),使其更接近處理單元進(jìn)行計(jì)算。
(2)國(guó)內(nèi)方面,阿里達(dá)摩院成功研發(fā)全球首款基于 DRAM 的 3D 鍵合堆疊存算一體芯片,可突破馮·諾依曼架構(gòu)的性能瓶頸。千芯科技是可重構(gòu)存算一體 AI 芯片的領(lǐng)導(dǎo)者和先驅(qū),核心產(chǎn)品包括高算力低功耗的存算一體 AI 芯片/IP 核(支持多領(lǐng)域多模態(tài)人工智能算法)。 ?
編輯:黃飛
?
評(píng)論