一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SRAM存算一體芯片的研究現(xiàn)狀和發(fā)展趨勢

sakobpqhz ? 來源:半導(dǎo)體行業(yè)觀察 ? 2024-01-02 11:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能時代對計算芯片的算力和能效都提出了極高要求。存算一體芯片技術(shù)被認為是有望解決處理器芯片“存儲墻”瓶頸,大幅提升人工智能算力能效和算力密度的關(guān)鍵技術(shù)和重要解決方案。SRAM存算一體芯片技術(shù)由于其在兼容性、魯棒性、靈活性等方面的優(yōu)勢,已經(jīng)得到多個旗艦公司的認可和相關(guān)領(lǐng)域的產(chǎn)業(yè)布局。本文回顧SRAM存算一體芯片領(lǐng)域近年來的研究現(xiàn)狀和發(fā)展趨勢,分析并總結(jié)了該領(lǐng)域未來的研究需求,凝練關(guān)鍵科學(xué)問題并進一步探討前沿研究方向。

01. 引言

近年來人工智能算法不斷發(fā)展,以ChatGPT為代表的大模型更是進一步為科學(xué)、技術(shù)和社會帶來令人振奮的機遇。人工智能作為戰(zhàn)略性通用技術(shù),催生了諸多的新興行業(yè)與應(yīng)用,如自然語言處理、視頻智能處理、人臉識別、無人駕駛等,吸引了眾多研究機構(gòu)及產(chǎn)業(yè)界的高度關(guān)注和廣泛參與。人工智能的成功不僅得益于算法理論的創(chuàng)新,更依賴于處理器芯片飛速提升的運算和存儲能力,從而使得在更大規(guī)模的數(shù)據(jù)集上設(shè)計更復(fù)雜、更精準的神經(jīng)網(wǎng)絡(luò)成為可能。今年10月17日,美國商務(wù)部工業(yè)安全局(BIS)公布最新半導(dǎo)體管制規(guī)則,在“計算性能”限制的基礎(chǔ)上新增對芯片“性能密度”的參數(shù)限制,將芯片總體算力和算力密度的重要性提升到新的高度。高算力和高算力密度芯片作為數(shù)字經(jīng)濟時代新的核心生產(chǎn)力,對推動科技進步、行業(yè)數(shù)字化轉(zhuǎn)型以及經(jīng)濟社會發(fā)展發(fā)揮重要作用。

根據(jù)計算架構(gòu)區(qū)分,人工智能芯片的技術(shù)路線主要有傳統(tǒng)的馮諾依曼架構(gòu)和新興非馮計算架構(gòu)?;隈T諾依曼架構(gòu)的人工智能處理器又分為通用計算架構(gòu)和專用計算架構(gòu)兩類。通用計算架構(gòu)是指采用傳統(tǒng)通用計算芯片實現(xiàn)人工智能算法,如CPUGPU等。大量實驗和測試結(jié)果已表明傳統(tǒng)的通用芯片已無法滿足應(yīng)用場景對高能效和高有效算力的嚴苛要求。專用計算架構(gòu)是指專門針對神經(jīng)網(wǎng)絡(luò)等人工智能算法定制的專用處理器,其典型代表如 美國麻省理工Eyeriss芯片、谷歌張量處理器TPU芯片等。然而,目前的人工智能芯片的發(fā)展仍面臨著一系列挑戰(zhàn)和限制。人工智能模型的推理和訓(xùn)練均需要大量的計算和數(shù)據(jù)移動,大量的數(shù)據(jù)需要在計算單元和存儲單元之間頻繁流動,傳統(tǒng)馮諾依曼架構(gòu)的“存儲墻”問題日益成為該計算架構(gòu)的發(fā)展瓶頸。隨著神經(jīng)網(wǎng)絡(luò)應(yīng)用規(guī)??焖僭鲩L,最先進的AI芯片使用近存計算技術(shù)以緩解“存儲墻”瓶頸。例如采用三維堆疊的HBM和2.5D的Chiplet集成方式以提升芯片外部至芯片內(nèi)部的數(shù)據(jù)帶寬,同時節(jié)約數(shù)據(jù)搬運的能量消耗。NorthPole采用分布式片上存儲的近存計算,將片上存儲均等分布于所有計算陣列中,依靠龐大的片上存儲系統(tǒng)部署整個網(wǎng)絡(luò),避免芯片外部與芯片內(nèi)部的數(shù)據(jù)交互。然而220MB的片上存儲依然無法滿足大模型需求,同時龐大的片上存儲將會產(chǎn)生額外的芯片面積代價。

針對傳統(tǒng)馮諾依曼計算架構(gòu)面臨的“存儲墻”瓶頸,存算一體這種新興計算架構(gòu)旨在把傳統(tǒng)以計算為中心的架構(gòu)轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心的架構(gòu),減少或避免數(shù)據(jù)搬移,從而消除傳統(tǒng)馮·諾依曼結(jié)構(gòu)架構(gòu)面臨的“存儲墻”瓶頸。存算一體作為一種新興計算范式,其核心思想就是將計算操作與數(shù)據(jù)訪存過程結(jié)合在一起,從而提高計算性能和效率。根據(jù)存儲墻的介質(zhì)不同,常見用于存算一體架構(gòu)的存儲技術(shù)路線包括RRAM、SRAM、Flash等,各條技術(shù)路線均有各自獨特的優(yōu)勢和待解決問題。目前,多個國際芯片產(chǎn)業(yè)巨頭已經(jīng)在存算一體計算芯片領(lǐng)域進行研發(fā)布局,并且在ISSCC等旗艦會議發(fā)表多個標志性芯片,并逐漸形成有望解決人工智能計算能效的重要解決方案。基于國產(chǎn)工藝的SRAM存算一體芯片設(shè)計技術(shù),有望在同等工藝上可大幅提升計算芯片的“性能密度”,從而大幅提升單位面積下的有效計算性能。

2023年9月,國家自然科學(xué)基金委員會組織第347期雙清論壇(青年)組織集成電路領(lǐng)域青年專家學(xué)者探討我國集成電路領(lǐng)域存在的關(guān)鍵問題和未來發(fā)展方向。存算一體芯片技術(shù)作為人工智能芯片的重要技術(shù)路線,已得到國內(nèi)外工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注和重視。本文結(jié)合國家重大戰(zhàn)略需求和學(xué)科發(fā)展前沿,總結(jié)當(dāng)前存算一體芯片的發(fā)展情況,凝練SRAM存算一體芯片的關(guān)鍵科學(xué)問題,進而提出創(chuàng)新技術(shù)路線,支撐我國的人工智能發(fā)展戰(zhàn)略,為基于國產(chǎn)現(xiàn)有先進工藝的人工智能芯片突破“性能密度(算力密度)”瓶頸,提供一整套創(chuàng)新解決方案。

02. 研究背景與意義

人工智能是未來信息技術(shù)領(lǐng)域的國家戰(zhàn)略競爭焦點。隨著計算機技術(shù)的飛速發(fā)展和計算能力的提高,人工智能開始取得突破性的進展。特別是在機器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域,通過利用大數(shù)據(jù)和強大的算法,使得計算機可以從數(shù)據(jù)中學(xué)習(xí)和自主推理。同時,云計算和大數(shù)據(jù)技術(shù)的興起為人工智能的應(yīng)用提供了強大的支持。在應(yīng)用層面,人工智能技術(shù)已經(jīng)在多個領(lǐng)域取得了重大突破,在無人駕駛、智慧安防、人臉識別、智能制造等多個領(lǐng)域帶來了顛覆性的進步。此外,通用大模型和行業(yè)大模型成為了目前人工智能算法的一個重要發(fā)展趨勢。硬件技術(shù)的進步是人工智能發(fā)展的重要推動力,人工智能芯片是人工智能產(chǎn)業(yè)物理基礎(chǔ)和關(guān)鍵核心技術(shù)。圖形處理器GPU和專用人工智能芯片極大地提高了計算速度和效率,加速了深度學(xué)習(xí)和人工智能算法的應(yīng)用。而大模型對數(shù)據(jù)量、硬件算力極高的要求,更是給人工智能芯片提出了新的挑戰(zhàn)。

傳統(tǒng)技術(shù)路線帶來的算力提升,與智能應(yīng)用需求之間的算力缺口鴻溝呈指數(shù)擴大態(tài)勢。以數(shù)據(jù)中心算力需求為例,IDC預(yù)測未來五年全球算力規(guī)模將以超過50%的速度增長,到2025年整體規(guī)模將達到3300EFlops。2025年全球物聯(lián)網(wǎng)設(shè)備數(shù)將超過400億臺,產(chǎn)生數(shù)據(jù)量接近80ZB,數(shù)據(jù)中心處理量超過50%以上。此外,大模型的算力需求更是呈指數(shù)增長,而芯片算力則是呈線性增長。根據(jù)目前的芯片算力和GPT-4的訓(xùn)練需求推算,最快的加速器單芯片運行GPT-4模型訓(xùn)練任務(wù)需要3.17年。

爆炸式指數(shù)增長的海量數(shù)據(jù)導(dǎo)致云端和邊緣端處理的能量消耗呈爆炸式指數(shù)增長態(tài)勢,傳統(tǒng)計算芯片的功耗增長難以為繼,難以滿足大規(guī)模人工智能的計算需求。隨著芯片集成度的提升和信息技術(shù)的發(fā)展,到2030年,數(shù)據(jù)量將達到612ZB,是2020年的13倍,對能耗的需求指數(shù)上升,按目前能耗需求推斷,至2030年,能耗將占世界總電力能源的21%?;谠屑夹g(shù)路線的芯片面臨著能效瓶頸,能耗成為未來增長的天花板。此外,高能耗帶來的散熱問題,大大提升了板級設(shè)計難度以及數(shù)據(jù)中心運營成本。因此,急需高能效的革新技術(shù)以應(yīng)對智能應(yīng)用的功耗瓶頸問題。

03. SRAM存算一體芯片研究現(xiàn)狀與發(fā)展趨勢

3.1技術(shù)原理

以神經(jīng)網(wǎng)絡(luò)為代表的人工智能算法涉及到各種張量和向量計算,其中最具代表性的算子為矩陣向量乘法,這些算子通常具有數(shù)據(jù)量大、計算量大、并行度要求高的特點。傳統(tǒng)處理器在執(zhí)行人工智能算法時,由于存儲和計算分離,在存儲器與運算器之間存在大量的數(shù)據(jù)搬運,造成巨大的功耗和延時開銷,導(dǎo)致數(shù)據(jù)搬運的功耗遠遠高于計算功耗,成為了馮諾依曼架構(gòu)加速器的發(fā)展瓶頸。如圖1所示,存算一體技術(shù)的核心思想是將存儲器與運算器融合在一起,通過將相對固定的權(quán)重數(shù)據(jù)存放在存儲器中,把輸入特征向量廣播輸入到陣列中,實現(xiàn)在存儲器內(nèi)部執(zhí)行矩陣向量乘法計算,在完成高并行數(shù)據(jù)訪問和計算的同時有效避免了大量權(quán)重數(shù)據(jù)的搬運,從而達到提高運算速度與能量效率的目的,因此存算一體非常適合用來加速人工智能算法中的矩陣和向量運算。

基于當(dāng)前不同的存儲器件類型,存在多種存算一體技術(shù)路線,包括易失性存儲器SRAM、DRAM,以及非易失性存儲器MRAM、PCM、RRAM、Flash等。SRAM與CMOS邏輯工藝兼容,操作電壓低,讀寫速度快,沒有耐久性限制,DRAM利用電容存儲電荷的方式如1T1C結(jié)構(gòu)來保存數(shù)據(jù),能夠獲得較高的存儲密度。非易失性存儲器技術(shù)方案由于具有存儲密度較高且掉電數(shù)據(jù)不丟失的特點,在對待機功耗或成本更為敏感的應(yīng)用場景中具備較大的發(fā)展?jié)摿?,其中MRAM和PCM的耐久性較好,可擦寫次數(shù)分別超過了百萬億次和十億次,MRAM與RRAM的制備能夠兼容CMOS后道工藝,工藝可演進性較好,目前在臺積電等工藝廠商的40nm、22nm等先進節(jié)點已經(jīng)逐步開始研發(fā)和量產(chǎn),NAND Flash則可以通過三維堆疊的方式不斷增加堆疊層數(shù)來提高存儲密度。從計算方式的角度看,由于MRAM、PCM和RRAM的開關(guān)比較低,導(dǎo)致本征計算精度不高,因此在對計算精度要求較高的場景下不適合采用模擬計算方案;而SRAM、DRAM和Flash可以實現(xiàn)較高的開關(guān)比,因此計算方式的選擇較為靈活。

wKgZomWTfYuAF4zjAAKUABmok4c288.png

圖1 SRAM存算一體電路示意圖

3.2SRAM存算一體芯片研究現(xiàn)狀

基于SRAM的存算一體技術(shù)起步相對較晚,密歇根大學(xué)和北海道大學(xué)分別于2017年在VLSI會議上,發(fā)表了基于SRAM的存算一體芯片,這也是最早一批在集成電路方向發(fā)表的基于SRAM的存算一體芯片論文。此后,基于SRAM的存算一體芯片發(fā)展迅猛,從2018年開始,ISSCC會議開始設(shè)立存算一體相關(guān)的會議議題,投稿與發(fā)表數(shù)逐年增長,計算方式從模擬計算轉(zhuǎn)向數(shù)字與模擬計算并存,所支持的計算精度也從一開始只能支持二值化精度到現(xiàn)在能支持浮點精度。

近年來,國內(nèi)外學(xué)術(shù)界和工業(yè)界已經(jīng)有多個單位在集成電路領(lǐng)域旗艦會議發(fā)表了基于SRAM的存算一體芯片的相關(guān)研究成果。臺積電在2021年至2023年的ISSCC會議上分別展示了他們在22nm、5nm以及4nm工藝節(jié)點上設(shè)計的數(shù)字域存算一體宏,在加法器樹的面積和性能優(yōu)化、存儲和計算單元設(shè)計、陣列版圖的布線規(guī)劃和改進、基于多閾值電壓平衡漏電和延遲的設(shè)計等方面取得了重要進展。在2023年的ISSCC和VLSI會議上,聯(lián)發(fā)科分別介紹了他們在12nm工藝節(jié)點上的模擬域和數(shù)字域存算一體宏設(shè)計,分別實現(xiàn)了對PVT不敏感的高魯棒性和高識別率的電容型存算一體陣列,以及基于緊湊型SRAM單元的無能效損失和低峰值電流的高性能數(shù)字域存算一體陣列。此外,英特爾實驗室和意法半導(dǎo)體也在SRAM存算一體領(lǐng)域的研究做出了一些探索和嘗試,表明各大國際芯片設(shè)計和制造廠商已經(jīng)開始布局基于SRAM的存算一體計算IP的技術(shù)研發(fā)。

相較于工業(yè)界偏向穩(wěn)定性、魯棒性和靈活性的實用性探索,學(xué)術(shù)界關(guān)于SRAM存算一體技術(shù)的研究更加注重于嘗試針對各種不同應(yīng)用需求提出新的可能的解決思路和方案。在2023年ISSCC會議上,北京大學(xué)介紹了在22nm工藝節(jié)點上設(shè)計的差值求和的模擬域存算一體芯片,目的是解決邊緣端AI場景中存在大量不變的冗余數(shù)據(jù)信息所導(dǎo)致的計算功耗浪費問題;東南大學(xué)則針對高精度、片上訓(xùn)練等需求以及邊緣端深度可分離卷積神經(jīng)網(wǎng)絡(luò)的加速效率問題,在28nm工藝節(jié)點上分別設(shè)計了兩款數(shù)字域浮點存算一體芯片和基于水平權(quán)重移位與垂直輸入移位的模擬域存算一體芯片;此外,北京清華大學(xué)和臺灣清華大學(xué)等高校也在該領(lǐng)域深耕多年,在國際會議上持續(xù)發(fā)表了一系列研究成果。

綜上所述,相較于其他新型非易失性存儲器,基于SRAM的存算一體技術(shù)路線盡管起步較晚,但憑借其工藝兼容性、設(shè)計靈活性、電路可靠性等優(yōu)勢,近五年發(fā)展十分迅猛,在學(xué)術(shù)界不斷嘗試和探索的過程中逐漸引起工業(yè)界的重點關(guān)注,在AI算法愈發(fā)向更大模型演進使得硬件算力和功耗愈發(fā)受到重視的今天,基于SRAM的存算一體技術(shù)展現(xiàn)出了強勁的性能優(yōu)勢和應(yīng)用潛力,使得多個國際芯片巨頭開始在該領(lǐng)域進行研發(fā)和產(chǎn)業(yè)布局。

3.3SRAM存算一體芯片發(fā)展趨勢與挑戰(zhàn)

SRAM存算一體技術(shù)由于具備工藝成熟度高和強魯棒性的優(yōu)勢,已經(jīng)成為當(dāng)前主流存算一體解決方案之一。SRAM存算一體從早期的模擬域計算,逐漸發(fā)展到現(xiàn)在的能夠支持無精度損失的數(shù)字域計算,支持更復(fù)雜的算法模型和與算法一致的量化方案,提供更高的魯棒性和更低的設(shè)計復(fù)雜度;從早期較為落后的工藝節(jié)點,發(fā)展到現(xiàn)在能夠采用先進的5nm及以下的設(shè)計方案,使得算力密度和能效享受到極大的工藝微縮帶來的性能紅利;從早期只能支持低精度數(shù)據(jù)格式,逐步發(fā)展為支持INT8/INT16以及BF16等更高精度的數(shù)據(jù)格式;從早期的只能支持神經(jīng)網(wǎng)絡(luò)推斷功能,發(fā)展至同時支持網(wǎng)絡(luò)訓(xùn)練和推斷的訓(xùn)推一體化;從單存算一體宏陣列IP設(shè)計發(fā)展至多陣列集成的SoC實現(xiàn);以及從支持簡單全連接、卷積等單一算子,逐漸演變?yōu)橹С侄喾N、多類型的張量計算算子,SRAM存算一體技術(shù)正向著更高精度、更高性能、更低功耗、更高的系統(tǒng)復(fù)雜度發(fā)展。

SRAM存算一體盡管具有工藝成熟度高、易于集成等優(yōu)勢,但目前仍舊面臨著包括單元電路設(shè)計、可靠性、利用率、計算架構(gòu)、計算完備性、軟件生態(tài)等關(guān)鍵問題和挑戰(zhàn)。

單元電路設(shè)計:以往的存算分離架構(gòu)使得單元設(shè)計可以針對各自不同的需求,分別采用面向高密度存儲單元的push rule和面向邏輯單元的logic rule指導(dǎo)其電路設(shè)計和工藝制造;而存算融合的新型電路架構(gòu)使得存儲單元和計算單元緊密結(jié)合,如何兼顧存儲效率和計算效率對存算單元電路設(shè)計提出了新的挑戰(zhàn)。

可靠性:大規(guī)模高密度高并行計算使得電路可靠性和魯棒性問題進一步凸顯,成為走向應(yīng)用的一大障礙。例如,由于較高的計算密度和并行度,陣列在運行過程中會出現(xiàn)較高的瞬態(tài)峰值電流,對IR-drop、電源串?dāng)_、響應(yīng)速度等電源穩(wěn)定性問題提出了挑戰(zhàn);此外,兼顧存儲和計算的可測性設(shè)計目前也欠缺較為成熟的解決方案。

利用率:算子種類和大小各不相同,面對真實應(yīng)用中靈活多變的算子需求,在一個固定大小的存算一體陣列上部署神經(jīng)網(wǎng)絡(luò)計算可能會造成計算資源利用率顯著降低,導(dǎo)致無法充分發(fā)揮SRAM存算一體技術(shù)在算力密度、能效等方面帶來的性能優(yōu)勢。

計算架構(gòu):由于在執(zhí)行神經(jīng)網(wǎng)絡(luò)計算時,盡管權(quán)重數(shù)據(jù)已經(jīng)被存放在存算一體陣列中,但輸入數(shù)據(jù)、輸出數(shù)據(jù)以及中間計算結(jié)果的存儲仍然需要依賴片上緩存,使得有限的片上緩存容量可能會成為新的系統(tǒng)瓶頸,導(dǎo)致片外訪存開銷顯著增加。

計算完備性:盡管存算一體針對張量運算能夠顯著提高算力密度和能效,但真實應(yīng)用場景中一個完整的AI業(yè)務(wù)依然需要標量和矢量計算以及非線性計算,這對基于SRAM存算一體的AI加速器的計算完備性提出了新的需求。

軟件生態(tài):NVIDIA公司的CUDA 生態(tài)主導(dǎo)著目前絕大部分的AI應(yīng)用開發(fā),使得GPU占據(jù)了大部分AI加速器市場。因此除了底層電路的優(yōu)化和性能提升以外,為了實現(xiàn)存算一體技術(shù)落地同樣需要與之配套的編譯器及工具鏈,從而打破以CUDA為主導(dǎo)的軟件生態(tài),構(gòu)建出新的能夠兼容基于SRAM存算一體異構(gòu)處理器的軟件開發(fā)環(huán)境。

04. SRAM存算一體芯片的創(chuàng)新路線

SRAM存算一體技術(shù)的發(fā)展涉及電路、架構(gòu)、系統(tǒng)、軟硬件協(xié)同以及生態(tài)系統(tǒng)等多個層級。開展跨層級深入研究和全面布局,對于探索SRAM存算一體技術(shù)發(fā)展路線,實現(xiàn)引領(lǐng)性突破至關(guān)重要。在該領(lǐng)域的研究不僅是為人工智能大模型、科學(xué)計算等戰(zhàn)略性新應(yīng)用提供足夠的計算能力,還旨在突破硬件算力和能效方面的瓶頸,為未來的科技創(chuàng)新提供堅實的基礎(chǔ)支撐。基于前沿SRAM存算一體技術(shù)的相關(guān)進展,本文總結(jié)SRAM存算一體芯片在電路、架構(gòu)、系統(tǒng)、軟硬件協(xié)同、生態(tài)等各個層級的創(chuàng)新技術(shù)路線。

在電路層級,我們提出研究發(fā)展先進工藝的SRAM存算一體以及可靠性與可測性設(shè)計,充分挖掘先進節(jié)點工藝所帶來的性能紅利。通過探索現(xiàn)代工藝技術(shù)潛力并基于DTCO(Design Technology Co-optimization)的設(shè)計工藝協(xié)同優(yōu)化設(shè)計思想,實現(xiàn)存儲和計算的高度集成,為計算領(lǐng)域帶來重大突破。在先進工藝的基礎(chǔ)上,研究人員基于更小的晶體管尺寸和更高的集成度,設(shè)計并改進能夠?qū)崿F(xiàn)存儲單元與邏輯單元緊湊堆疊的更高密度的SRAM存算單元。這種緊湊性帶來的優(yōu)勢在于可以在更小的空間內(nèi)容納更多的存儲和計算資源,從而大幅度提升芯片的整體性能。同時,先進工藝所帶來的低功耗特性也可以有效降低設(shè)備的能耗。其次,可靠性和可測性的設(shè)計是確保存算單元工作強魯棒的關(guān)鍵。通過引入先進的自診斷和錯誤校正技術(shù),在硬件層面實現(xiàn)對存算單元的實時監(jiān)測和修復(fù),提高了計算系統(tǒng)的穩(wěn)定性,增加設(shè)備壽命。

在架構(gòu)層級,我們提出基于異構(gòu)SRAM存算一體的前沿處理器架構(gòu)。探索通過異構(gòu)架構(gòu)設(shè)計滿足多樣的算子計算需求,通過緊耦合不同類型的計算引擎,包括基于ALU的標量計算單元、基于PE的向量計算單元、基于SRAM存算一體的張量計算單元等。標量計算單元適用于處理單一數(shù)據(jù)元素的計算,向量計算單元則擅長處理大規(guī)模數(shù)據(jù)的并行計算,而張量計算單元則專門用于高維度數(shù)據(jù)的復(fù)雜運算。這種多樣性的計算引擎緊密結(jié)合,為各種復(fù)雜任務(wù)提供高效靈活的計算支持,從而提高了計算系統(tǒng)的適應(yīng)性和性能。此外,異構(gòu)SRAM存算一體架構(gòu)還具有較高的能效和節(jié)能優(yōu)勢,由不同類型的計算引擎在同一芯片上協(xié)同工作,減少了數(shù)據(jù)傳輸和處理過程中的能量損耗,提高了整體的能源利用率。

在系統(tǒng)層級,我們提出研究發(fā)展基于3D堆疊集成的SRAM存內(nèi)計算與DRAM近存計算混合的前沿計算系統(tǒng)。基于硅通孔、銅銅混合鍵合等先進封裝技術(shù),可實現(xiàn)高密度、大容量DRAM存儲芯片和高算力SRAM存內(nèi)計算芯片之間的垂直多層 3D異質(zhì)集成,能有效緩解計算芯片與片外存儲之間的數(shù)據(jù)帶寬瓶頸,解決當(dāng)前SRAM存算一體芯片片上存儲容量有限的問題,滿足AI大模型對高帶寬通信和大容量存儲的需求。3D堆疊技術(shù)還可以使得不同層級的存儲,特別是大容量的片外HBM DRAM,和SRAM存算一體計算引擎之間的數(shù)據(jù)通路大幅縮短,從而實現(xiàn)近存計算系統(tǒng),有效降低路徑上的負載電容,加速數(shù)據(jù)的讀寫速度。此外,減少負載電容也可以降低數(shù)據(jù)傳輸過程中的能耗,從而使得系統(tǒng)在執(zhí)行計算任務(wù)時能夠更高效地利用能源。

在軟硬件協(xié)同層級,我們提出研究發(fā)展基于多層次抽象建模的跨層次聯(lián)合仿真、基于STCO(System Technology Co-optimization)的系統(tǒng)工藝協(xié)同優(yōu)化和驗證的新方法及SRAM存算一體自動化編譯EDA工具。通過跨層次聯(lián)合仿真與優(yōu)化,設(shè)計者可以在早期階段就發(fā)現(xiàn)系統(tǒng)層面的問題,提前進行優(yōu)化和調(diào)整,從而節(jié)省了后期修復(fù)問題的成本和時間。通過全面考慮硬件和軟件之間的相互影響,設(shè)計者可以更好地平衡系統(tǒng)的性能、功耗和面積等PPA指標。研發(fā)SRAM存算一體宏的硬件編譯器EDA工具,用戶可以根據(jù)應(yīng)用需求配置SRAM存算一體宏的陣列尺寸、計算精度、存儲計算資源比例等關(guān)鍵參數(shù),在給定工藝下自動化生成所需的SRAM存算一體宏的行為級模型、電路原理圖和物理版圖等,從而實現(xiàn)SRAM存算一體宏的快速開發(fā)和應(yīng)用部署。在驗證方面,跨層次的驗證方法允許設(shè)計者同時驗證硬件和軟件之間的交互,確保它們在系統(tǒng)層面的一致性。通過聯(lián)合驗證,可以提前發(fā)現(xiàn)硬件和軟件之間的兼容性問題,提高系統(tǒng)的可靠性和穩(wěn)定性。為了支持跨層次設(shè)計方法,相關(guān)的EDA工具也需要不斷創(chuàng)新,這些工具旨在提供全面的性能分析和優(yōu)化功能,幫助設(shè)計者快速找到系統(tǒng)的性能瓶頸,并提供自動化的優(yōu)化建議。

在生態(tài)層級,我們提出研究發(fā)展開源硬件與SRAM存算一體軟件生態(tài)的融合,旨在解決計算完備性難題和突破CUDA生態(tài)。以RISC-V為代表的開源硬件設(shè)計方法,為開發(fā)者提供了一個開放、透明的硬件基礎(chǔ),根據(jù)具體需求定制指令集滿足各種不同應(yīng)用場景的需求。借助開源的硬件與軟件開發(fā)生態(tài),支撐SRAM存算一體架構(gòu)依托全球開發(fā)者社區(qū)的力量,促進硬件設(shè)計和軟件開發(fā)之間的緊密合作。此外,該軟硬件生態(tài)的結(jié)合與探索也在CUDA之外提供了其他可能的路徑,從而為計算生態(tài)系統(tǒng)帶來了更大的多樣性和創(chuàng)新性。

SRAM存算一體的創(chuàng)新技術(shù)路線和布局涉及多個關(guān)鍵層級,需要在電路、架構(gòu)、系統(tǒng)、軟硬件協(xié)同和生態(tài)層級上進行深入、細致的研究。只有在各個層級的協(xié)同下,SRAM存算一體芯片才能真正地實現(xiàn)性能優(yōu)化、功耗控制、穩(wěn)定性提升以及開放性拓展,為未來計算領(lǐng)域帶來創(chuàng)新和突破。

05. 總結(jié)與建議

存算一體芯片技術(shù)是在人工智能時代的關(guān)鍵芯片技術(shù)之一。本文通過總結(jié)SRAM存算一體芯片研究的需求與現(xiàn)狀、關(guān)鍵問題和挑戰(zhàn)、創(chuàng)新技術(shù)路線等,認為SRAM存算一體芯片是符合國家戰(zhàn)略需求的關(guān)鍵技術(shù),有望在同等工藝上可大幅提升計算芯片的“性能密度”,提升單位面積下的有效計算性能。針對SRAM存算一體芯片的技術(shù)特點,需要從電路到生態(tài)等多層級的跨層次布局與發(fā)展,建議設(shè)立面向存算一體的研究計劃,同時布局新型存儲器和SRAM存算一體;在發(fā)展戰(zhàn)略中覆蓋器件、電路、陣列、架構(gòu)、軟硬件協(xié)同、生態(tài)等環(huán)節(jié),縱向多環(huán)節(jié)協(xié)同創(chuàng)新,避免各環(huán)節(jié)之間的割裂;最后,以主流應(yīng)用,牽引主流賽道的技術(shù)路線創(chuàng)新,為國家戰(zhàn)略做支撐和服務(wù)。

作者團隊介紹:

本文作者為北京大學(xué)集成電路學(xué)院葉樂教授,國家杰青。北京大學(xué)黃如院士-葉樂教授團隊在AI及存算一體、高精度/高能效模擬信號鏈、低功耗電路及架構(gòu)等方向上處于學(xué)科前沿水平,在有集成電路設(shè)計奧林匹克之稱的ISSCC上連續(xù)發(fā)表了9篇ISSCC成果,近3年獲得的榮譽包括2篇ISSCC論文被遴選為Highlight亮點論文、ISSCC 2021年度最佳芯片展示獎(國內(nèi)首次)、2021年度中國半導(dǎo)體十大研究進展等。2023年ISSCC中,課題組首次提出了基于差值求和的SRAM存內(nèi)計算(ΔΣCIM)陣列電路,大幅減少了對數(shù)值不變輸入特征的冗余操作,可使存內(nèi)計算陣列能耗減少35.8%,該工作已在22nm工藝下進行了流片驗證。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19896

    瀏覽量

    235282
  • 芯片
    +關(guān)注

    關(guān)注

    460

    文章

    52520

    瀏覽量

    441033
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11080

    瀏覽量

    217114
  • sram
    +關(guān)注

    關(guān)注

    6

    文章

    786

    瀏覽量

    115971
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249577

原文標題:SRAM存算一體芯片研究:發(fā)展與挑戰(zhàn)

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    一體力AI芯片將逐漸走向落地應(yīng)用

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)前不久,后摩智能宣布,其自主研發(fā)的業(yè)內(nèi)首款一體力AI芯片成功點亮,并成功跑通智能駕駛算法模型。 ? 這
    的頭像 發(fā)表于 05-31 00:03 ?5524次閱讀

    探索內(nèi)計算—基于 SRAM內(nèi)計算與基于 MRAM 的一體的探究

    本文深入探討了基于SRAM和MRAM的一體技術(shù)在計算領(lǐng)域的應(yīng)用和發(fā)展。首先,介紹了基于SRAM
    的頭像 發(fā)表于 05-16 16:10 ?4295次閱讀
    探索<b class='flag-5'>存</b>內(nèi)計算—基于 <b class='flag-5'>SRAM</b> 的<b class='flag-5'>存</b>內(nèi)計算與基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>的探究

    一體技術(shù)路線如何選

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)過去幾年,越來越多企業(yè)加入到一體技術(shù)的研究中,如今,
    的頭像 發(fā)表于 06-21 09:27 ?4980次閱讀

    一體技術(shù)發(fā)展現(xiàn)狀和未來趨勢

    一體
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2023年04月25日 17:21:41

    無線傳感器網(wǎng)絡(luò)的研究現(xiàn)狀發(fā)展趨勢

    無線傳感器網(wǎng)絡(luò)的研究現(xiàn)狀發(fā)展趨勢
    發(fā)表于 08-15 13:00

    談?wù)剻C電一體化技術(shù)的現(xiàn)狀發(fā)展趨勢

    加工技術(shù)也在機電一體化中展露頭腳,出現(xiàn)了光機電一體化和微機電一體化等新分支;另方面對機電一體化系統(tǒng)的建模設(shè)計、分析和集成方法、機電
    發(fā)表于 10-16 11:16

    淺析機電一體化的發(fā)展趨勢

    相互配合有嚴格的要求,這就要求各種技術(shù)揚長避短,提高系統(tǒng)協(xié)調(diào)性。  二、研究現(xiàn)狀發(fā)展趨勢  1、研究現(xiàn)狀  自從我國實行改革開放以來,科技
    發(fā)表于 10-21 11:00

    2023年一體芯片設(shè)計的技術(shù)趨勢

    一體旨在計算單元與存儲單元融合,在實現(xiàn)數(shù)據(jù)存儲的同時直接進行計算,以消除數(shù)據(jù)搬移帶來的開銷,極大提升運算效率,以實現(xiàn)計算存儲的高效節(jié)能。
    的頭像 發(fā)表于 01-13 15:26 ?2612次閱讀

    基于3DIC架構(gòu)的一體芯片仿真解決方案

    數(shù)字經(jīng)濟已成為繼農(nóng)業(yè)經(jīng)濟、工業(yè)經(jīng)濟之后的主要經(jīng)濟形態(tài)。力作為數(shù)字經(jīng)濟的核心生產(chǎn)力,將直接影響數(shù)字經(jīng)濟發(fā)展的速度,決定社會智能的發(fā)展高度。
    的頭像 發(fā)表于 02-24 09:34 ?6337次閱讀

    巨頭紛紛布局一體,各種存儲介質(zhì)的優(yōu)勢分析

    一體正博得學(xué)界、產(chǎn)界等各路人馬的青睞,基于現(xiàn)有的技術(shù)、發(fā)展路徑以及應(yīng)用場景并結(jié)合業(yè)內(nèi)人士觀點,偲睿洞察認為,
    發(fā)表于 06-13 15:07 ?1189次閱讀
    巨頭紛紛布局<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>,各種存儲介質(zhì)的優(yōu)勢分析

    如何選擇存儲器類型 一體芯片發(fā)展趨勢

    般是20-100TOPS以上,因此不太好直接做大力的一體。而其他的存儲器,包括SRAM、RRAM等,現(xiàn)在已經(jīng)看到,有實際產(chǎn)品證明可以是
    發(fā)表于 09-06 12:40 ?1333次閱讀
    如何選擇存儲器類型 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b><b class='flag-5'>發(fā)展趨勢</b>

    一體芯片的技術(shù)壁壘

    作為后摩爾時代發(fā)展的必然趨勢,一體越來越受到行業(yè)的關(guān)注。在
    的頭像 發(fā)表于 09-22 14:16 ?1377次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>的技術(shù)壁壘

    一體芯片新突破!清華大學(xué)研制出首顆一體芯片

    這幾天清華大學(xué)又火出圈了。但這次并不是因為招生搶人和飯?zhí)茫乔迦A大學(xué)的芯片研發(fā)團隊研制出全球首顆全系統(tǒng)集成的一體芯片。這是我國、乃至全
    的頭像 發(fā)表于 10-11 14:39 ?1440次閱讀

    一體技術(shù)發(fā)展現(xiàn)狀和未來趨勢

    什么是一體   近計算: 主要是通過先進封裝等方式,拉近存儲和計算單元的距離。   內(nèi)計算: 就是把計算單元嵌入到內(nèi)存當(dāng)中,即在
    發(fā)表于 10-18 15:46 ?10次下載
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>技術(shù)<b class='flag-5'>發(fā)展現(xiàn)狀</b>和未來<b class='flag-5'>趨勢</b>

    乘用車一體化電池的發(fā)展現(xiàn)狀和未來趨勢

    佐思汽研發(fā)布《2024年乘用車CTP、CTC和CTB一體化電池行業(yè)研究報告》,對乘用車一體化電池發(fā)展現(xiàn)狀及主機廠、供應(yīng)商相關(guān)產(chǎn)品布局進行了梳理研究
    的頭像 發(fā)表于 01-10 14:06 ?2531次閱讀
    乘用車<b class='flag-5'>一體</b>化電池的<b class='flag-5'>發(fā)展現(xiàn)狀</b>和未來<b class='flag-5'>趨勢</b>