一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

存算一體+Chiplet能否應對AI大算力和高能耗的挑戰(zhàn)?

sakobpqhz ? 來源:算力基建 ? 2023-05-22 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01. AI大算力芯片的“出奇”想法

在最近由AspenCore主辦的2023中國IC領袖峰會上,中國半導體行業(yè)協(xié)會IC設計分會理事長魏少軍教授在《集成電路發(fā)展中的“正”與“奇”》的主題演講中提到,中國半導體產業(yè)的發(fā)展要在“守正”的市場發(fā)展道路上穩(wěn)步前行,同時也需要在新的賽道“出奇”。比如在高性能計算領域,在先進工藝、技術和芯片產品受到外界限制的情況下,我們如何利用國產工藝技術實現(xiàn)創(chuàng)新而跟全球高性能計算和AI發(fā)展保持同步甚至超越?更具體一點,就目前炒作火熱的AIGC大模型所需要的大算力AI芯片來說,能否利用我們現(xiàn)在可用的工藝和技術來開發(fā)在性能上可以跟英偉達GPGPU對標的AI芯片呢?一些“守正且出奇”的技術包括:軟件定義芯片、chiplet、3D堆疊和先進封裝、存算一體等。

自從OpenAI的ChatGPT于2022年11月推出以來,AIGC迅速在全球掀起一股熱潮。與OpenAI有深度合作的微軟在BING搜索方面有了明顯的收益,谷歌和百度等搜索引擎和互聯(lián)網巨頭紛紛發(fā)布各自的大語言模型(LLM)。在這些熱潮的背后是GPU芯片的瘋狂購買囤貨,因為訓練LLM需要龐大的算力支持。要支撐這類AI大模型的訓練和基于這些模型的AIGC應用,需要投入數(shù)十億美元的資金,同時還需要巨大的電力供應,因為算力強大的GPGPU耗電量也十分驚人。

據統(tǒng)計預測,全球算力需求呈現(xiàn)高速發(fā)展態(tài)勢。2021年,全球計算設備算力總規(guī)模達到615EFLOPS(每秒一百京次(=10^18)浮點運算);到2025年,全球算力規(guī)模將達6.8 ZFLOPS( 每秒十萬京(=10^21)次的浮點運算 ),與2020年相比提升30倍;到2030年,有望增至56ZFLOPS。算力翻倍時間在明顯縮短,大模型出現(xiàn)后,帶來了新的算力增長趨勢,平均算力翻倍時間約為9.9個月。

伴隨著算力的提升,數(shù)據中心和AI服務器的耗電量也大幅提升。2022年Intel第四代服務器處理器CPU功耗已突破350瓦,英偉達單GPU芯片功耗突破700瓦,AI集群算力密度普遍達到50kW/柜。根據ChatGPT在使用訪問階段所需算力和耗電費用估計,使用英偉達DGX A100服務器的標準機柜需要542臺(每臺機柜的功率為45.5kw),折算為每日電費大約4.7萬美元。

對國內AI應用企業(yè)來說,即便資金不是問題,能否購買到最先進的GPU芯片也是個大問題。即便部署了足夠的GPU和服務器機柜,日常運營的耗電成本也不容小覷。盡管最近兩年有不少國產GPU初創(chuàng)公司發(fā)布性能不錯的GPU芯片,但到目前為止還難以跟英偉達的GPU相提并論。面對算力和能耗這兩大挑戰(zhàn),國產AI芯片公司能否想出“出奇”之道?

02. “存算一體”沖破能耗墻

“存算一體”技術可以解決傳統(tǒng)馮諾伊曼架構處理器所面臨的三堵墻:存儲墻、能耗墻、編譯墻。存算一體架構沒有深度多層級存儲的概念,所有的計算都放在存儲器內實現(xiàn),這就從根本上消除了因為存算異構帶來的存儲墻及相應的額外開銷;存儲墻的消除可大量減少數(shù)據搬運,不但提升了數(shù)據傳輸和處理速度,而且能效比得以數(shù)倍提升,這意味著支持與傳統(tǒng)架構處理器同等算力所需的功耗可以大大降低;存儲和計算單元之間的調用和數(shù)據搬運需要復雜的編程模型,而存算一體的數(shù)據狀態(tài)都是編譯器可以感知的,因此編譯效率很高,可以繞開傳統(tǒng)架構的編譯墻(生態(tài)墻)。

在存算一體這一賽道上,最早是美國的Mythic公司在2010年左右推出了存算一體芯片,國內在2017年左右出現(xiàn)了存算一體技術路徑的創(chuàng)業(yè)團隊,到現(xiàn)在為止已有數(shù)家,比如知存科技、千芯科技、蘋芯科技、九天睿芯、后摩智能和億鑄科技等。但這些初創(chuàng)公司在存儲器的選擇上出現(xiàn)了三種主要方向,最早從傳統(tǒng)存儲器開始,如Flash,SRAM再到新型憶阻器ReRAM。算力也從微小算力(《1T)、500T到1P的大算力。存算一體最大的優(yōu)勢在于高能效比,但微小算力場景與大算力場景最大的應用區(qū)別是對計算精度要求的滿足及成本。這也決定著這些存算一體初創(chuàng)公司通向了不同的應用場景,比如九天睿芯的芯片產品主要面向小算力的邊緣和端側應用。而ChatGPT等大模型的出現(xiàn)勢必對AI大算力芯片提出新的要求。

基于“存算一體”架構開發(fā)的AI芯片在克服能耗挑戰(zhàn)方面有很大的潛力,但如何實現(xiàn)高性能和大算力呢?

存算一體+chiplet也許是一種可行的“出奇”之道。

03. ReRAM:材料、工藝和AI應用潛力

在傳統(tǒng)馮諾依曼計算架構中,占據主要地位的DRAM和Flash等傳統(tǒng)存儲技術面臨技術瓶頸,面對低功耗和高性能的需求,無法實現(xiàn)根本性的改善,而新型存儲技術成為業(yè)界重點布局與探索的方向。經過10多年的努力,MRAM(磁性存儲器)、PCRAM(相變存儲器)、FRAM(鐵電存儲器)和ReRAM(阻變存儲器)等新型存儲技術也逐步走出實驗室,進入試用甚至商用階段。

ReRAM(阻變存儲器,或憶阻器)是以非導性材料的電阻在外加電場作用下,在高阻態(tài)和低阻態(tài)之間實現(xiàn)可逆轉換為基礎的非易失性存儲器。ReRAM包括許多不同的技術類別,比如氧空穴存儲器(OxRAM)、導通橋聯(lián)存儲器(CBRAM)等。ReRAM的單元面積極小,可做到4F2,讀寫速度是NAND Flash的1000倍,同時功耗可降低10倍以上。

527c2256-f83f-11ed-90ce-dac502259ad0.jpg

導通橋聯(lián)CBRAM基本結構。(來源:Crossbar)

由于電阻切換機制基于金屬導絲,Crossbar ReRAM(CBRAM)單元非常穩(wěn)定,能夠承受從-40°C到125°C的溫度波動,寫周期為1M+,在85°C的溫度下可保存10年。從密度、能效比、成本、工藝制程和良率各方面綜合衡量,ReRAM存儲器在目前已有的新型存儲器中具備明顯優(yōu)勢。

基于導通橋聯(lián)的ReRAM具有高達1000倍的低/高阻態(tài)差異,使其不易受外界運行環(huán)境的干擾影響,具有很強的穩(wěn)定性。同時,以ReRAM組成的存算陣列單元因為阻態(tài)區(qū)分度大,所實現(xiàn)的存內計算可以更好地滿足大算力應用場景對算力、精度、能效比和可靠性的嚴格要求。

ReRAM以其密度增長空間大、生產工藝與CMOS兼容等優(yōu)勢,吸引了國內外眾多IP技術企業(yè)、大型晶圓代工廠、傳統(tǒng)存儲企業(yè)和半導體初創(chuàng)企業(yè)投入到其商業(yè)化進程中。目前,臺積電、聯(lián)電、Crossbar、昕原半導體、松下、東芝、索尼、美光、海力士和富士通等廠商都在積極開展ReRAM技術的研究和產業(yè)化推進。國內新型存儲器ReRAM的生產工藝及產線已經實現(xiàn)了規(guī)?;慨a商用。

基于ReRAM工藝的芯片主要用于存儲和存算一體兩個方面,其中采用”存算一體“結構和技術的AI芯片將有可能實現(xiàn)AI大算力突破,成為可以應對AIGC大算力挑戰(zhàn)的GPGPU有力競爭者,有望在AIoT、智能汽車、數(shù)據中心和高性能計算等方面獲得廣泛的應用。存算一體AI芯片初創(chuàng)公司億鑄科技基于憶阻器這種新型存儲器件,創(chuàng)新性地采用全數(shù)字化的實現(xiàn)方式,將存算一體架構應用于AI大算力芯片,從而讓存算一體真正在高精度、大算力AI方向實現(xiàn)商用落地。

04. 存算一體+Chiplet助力AI算力第二增長曲線

由于AI模型規(guī)模不斷擴大,用于深度學習的存內計算 (IMC) 單芯片方案在芯片面積、良率和片上互連成本等方面面臨著巨大挑戰(zhàn)。存算一體AI芯片能否借助芯粒(chiplet)和2.5D/3D堆疊封裝技術實現(xiàn)異構集成,從而形成大型計算系統(tǒng),提供超越單一架構IMC芯片的大型深度學習模型訓練和推理方案?

美國亞利桑那州立大學的學者于2021年發(fā)布了一種基于chiplet 的IMC架構基準測試仿真器SIAM,用于評估這種新型架構在AI大模型訓練上的潛力。SIAM集成了器件、電路、架構、片上網絡(NoC)、封裝網絡(NoP)和DRAM訪問模型,以實現(xiàn)一種端到端的高性能計算系統(tǒng)。SIAM 在支持深度神經網絡 (DNN) 方面具有可擴展性,可針對各種網絡結構和配置進行定制。其研究團隊通過使用 CIFAR-10、CIFAR-100 和 ImageNet 數(shù)據集對不同的先進DNN進行基準測試來展示SIAM的靈活性、可擴展性和仿真速度。據稱,相對于英偉達V100和T4 GPU,通過SIAM獲得的chiplet +IMC架構顯示ResNet-50在ImageNet數(shù)據集上的能效分別提高了130和72。

5287b332-f83f-11ed-90ce-dac502259ad0.jpg

SIAM采用基于chiplet的 IMC 架構。(來源:SIAM/GOKUL KRISHNAN)

上圖顯示了SIAM使用的基于同構chiplet的IMC架構。整個架構由一系列chiplet組成,其中包括IMC計算單元、全局累加器、全局緩沖區(qū)和DRAM。Chiplet陣列利用封裝上網絡(NoP)實現(xiàn)互聯(lián)。SIAM支持基于SRAM或RRAM的IMC Crossbar存算單元,這些存算單元陣列組成處理元素(PE);PE陣列又構成IMC Tile陣列,然后構成IMC chiplet。

盡管SIAM仿真器僅針對同質架構或定制架構,但為異構集成實現(xiàn)的存算一體+Chiplet架構提供了很有價值的設計思路。就存算一體、Chiplet和2.5D/3D先進封裝技術的發(fā)展而言,國內廠商跟國外同行基本處于同一起跑線上。在兼容CMOS的國產ReRAM工藝上,通過Chiplet和先進封裝集成IMC單元、GPU和CPU等不同工藝節(jié)點的處理單元,來實現(xiàn)大算力AI芯片以應對算力和功耗的挑戰(zhàn),看來是可行的。

有業(yè)界專家總結出AI算力增長的階段性曲線,自2018年至今的GPGPU和AI芯片算力增長屬于第一增長曲線階段。這一階段的參與者有英偉達和AMD等國際GPU巨頭,也有眾多國內廠商參與其中,包括百度昆侖芯、華為海思、天數(shù)智芯、寒武紀和壁仞科技等。這些公司所采用的晶圓工藝從14nm到5nm不等;算力從130T到485T;功耗從70W到150W。這一階段的AI芯片的共同點在于都是采用傳統(tǒng)的處理器架構,伴隨著算力的提升,功耗和成本也隨之上升。工藝節(jié)點到了5nm,一顆芯片的研發(fā)成本以億美元計算,不是每一家公司都能夠支撐得起的。即便有這個實力可以繼續(xù)支撐下去,但算力與功耗的矛盾也是難以解決的,因為處理器架構在本質上決定了其局限性。

52990de4-f83f-11ed-90ce-dac502259ad0.png

對于國內廠商來說,要在成熟工藝上以低成本實現(xiàn)500T以上的算力,就必須采用“出奇“的架構。存算一體+chiplet組合似乎是一種可行的實現(xiàn)方式,據稱億鑄科技正在這條路上探索,其第一代存算一體AI大算力商用芯片可實現(xiàn)單卡算力500T以上,功耗在75W以內。也許這將開啟AI算力第二增長曲線的序幕。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    52494

    瀏覽量

    440681
  • 集成電路
    +關注

    關注

    5424

    文章

    12055

    瀏覽量

    368399
  • AI
    AI
    +關注

    關注

    88

    文章

    35109

    瀏覽量

    279611
  • chiplet
    +關注

    關注

    6

    文章

    459

    瀏覽量

    12994

原文標題:存算一體+Chiplet能否應對AI大算力和高能耗的挑戰(zhàn)?

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一體AI芯片將逐漸走向落地應用

    電子發(fā)燒友網報道(文/李彎彎)前不久,后摩智能宣布,其自主研發(fā)的業(yè)內首款一體AI芯片成
    的頭像 發(fā)表于 05-31 00:03 ?5517次閱讀

    ReRAM一體AI芯片的獨特優(yōu)勢

    近幾年,隨著傳統(tǒng)馮·諾依曼結構的瓶頸逐漸顯現(xiàn),越來越多企業(yè)投身于一體芯片研發(fā)的浪潮中,試圖打破“墻”、“
    的頭像 發(fā)表于 06-20 08:00 ?4594次閱讀

    一體技術路線如何選

    電子發(fā)燒友網報道(文/李彎彎)過去幾年,越來越多企業(yè)加入到一體技術的研究中,如今,一體
    的頭像 發(fā)表于 06-21 09:27 ?4972次閱讀

    一體技術發(fā)展現(xiàn)狀和未來趨勢

    一體
    電子發(fā)燒友網官方
    發(fā)布于 :2023年04月25日 17:21:41

    億鑄科技發(fā)布基于ReRAM的全數(shù)字化一體AI芯片技術

    在剛剛結束的GTIC 2022全球AI芯片峰會存一體專題論壇上,億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬博士發(fā)表了題為“新動能——基于Re
    的頭像 發(fā)表于 09-01 11:50 ?3101次閱讀

    國產一體超速前進 一體架構有機會解決很多AI面臨的問題

    下,半導體愈來愈蹣跚的提升已經追不上狂奔的AI一體架構有機會讓
    的頭像 發(fā)表于 11-25 15:26 ?2477次閱讀

    基于憶阻器一體芯片的研究進展

    未來集成電路將通過計算范式、芯片架構和集成方法等創(chuàng)新,突破高發(fā)展瓶頸。具體創(chuàng)新方法為:Chiplet異質集成提高晶體管數(shù)量、
    的頭像 發(fā)表于 12-12 15:50 ?2243次閱讀

    基于憶阻器一體芯片研究進展、總結與展望

    未來集成電路將通過計算范式、芯片架構和集成方法等創(chuàng)新,突破高發(fā)展瓶頸。具體創(chuàng)新方法為:Chiplet異質集成提高晶體管數(shù)量、
    發(fā)表于 12-23 10:49 ?3023次閱讀

    基于3DIC架構的一體芯片仿真解決方案

    的“存儲墻”、“功耗墻”問題。一體將存儲與計算有機融合以其巨大的能效比提升潛力,有望成為數(shù)字經濟時代的先進生產。
    的頭像 發(fā)表于 02-24 09:34 ?6327次閱讀

    一體:內核架構創(chuàng)新,打破力能效極限

    在全球數(shù)據量呈指數(shù)級暴漲,相對于AI運算供不應求的現(xiàn)狀下,一體技術主要解決了高
    的頭像 發(fā)表于 06-25 14:23 ?1584次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>:內核架構創(chuàng)新,打破<b class='flag-5'>算</b>力能效極限

    ChatGPT開啟大模型“軍備賽”,一體開啟新篇章

    一體需求旺盛,有望推動下階段的人工智能發(fā)展,原因是我們認為現(xiàn)在
    發(fā)表于 07-06 10:20 ?604次閱讀
    ChatGPT開啟大模型“軍備賽”,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>開啟<b class='flag-5'>算</b><b class='flag-5'>力</b>新篇章

    Chiplet一體有什么聯(lián)系?

    Chiplet一體有什么聯(lián)系?? 從近些年來的發(fā)展趨勢來看,Chiplet
    的頭像 發(fā)表于 08-25 14:49 ?904次閱讀

    一體芯片的技術壁壘

    作為后摩爾時代發(fā)展的必然趨勢之,一體越來越受到行業(yè)的關注。在十問的前六問中,我們梳理了
    的頭像 發(fā)表于 09-22 14:16 ?1359次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>芯片的技術壁壘

    淺談為AI而生的-芯片

    大模型爆火之后,一體獲得了更多的關注與機會,其原因之是因為
    發(fā)表于 12-06 15:00 ?617次閱讀
    淺談為<b class='flag-5'>AI</b>大<b class='flag-5'>算</b><b class='flag-5'>力</b>而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-<b class='flag-5'>體</b>芯片

    一體架構創(chuàng)新助力國產大AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計算(HPC)應用論壇》上,億鑄科技高級副總裁徐芳發(fā)表了題為《一體架構創(chuàng)新助力國產大
    的頭像 發(fā)表于 10-23 14:48 ?862次閱讀