一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存內(nèi)計(jì)算對(duì)“存”的選擇

E4Life ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2022-12-13 00:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))無(wú)論是前段時(shí)間爆火的繪圖模型Stable Diffusion,還是大規(guī)模語(yǔ)言模型ChatGPT,AI無(wú)疑已經(jīng)成了新時(shí)代的自動(dòng)化工具,哪怕是在某些與認(rèn)知相關(guān)的任務(wù)上,也能通過(guò)深度學(xué)習(xí)實(shí)現(xiàn)高于人類的精度。

但正因我們提過(guò)多次的算力問(wèn)題,對(duì)于大型AI訓(xùn)練的計(jì)算要求已經(jīng)在每?jī)蓚€(gè)月翻倍了,別說(shuō)可持續(xù)能源供應(yīng)了,就連硬件的可持續(xù)都有些陷入停滯了。其實(shí)以目前各種模型的迭代速度來(lái)看,更高的運(yùn)算效率才是重中之重,畢竟這些模型并不需要每?jī)蓚€(gè)月就推陳出新。

深度學(xué)習(xí)還有哪些環(huán)節(jié)可以提升效率

我們先從深度學(xué)習(xí)運(yùn)算來(lái)看哪些算數(shù)運(yùn)算占比最高,根據(jù)IBM給出的統(tǒng)計(jì)數(shù)據(jù),無(wú)論是語(yǔ)音識(shí)別的RNN、語(yǔ)言模型DNN和視覺(jué)模型CNN,矩陣向量乘法都占據(jù)了運(yùn)算總數(shù)的70%到90%,所以打造一個(gè)矩陣矢量乘法加速器,是多數(shù)AI加速器的思路。
CleanShot 2022-12-12 at 17.15.13@2x
數(shù)據(jù)傳輸和運(yùn)算的功耗對(duì)比 / ISSCC

要考慮效率,我們就不能不談到功耗的問(wèn)題,如果只顧算力而不考慮功耗,任由龐大規(guī)模的GPU等硬件消耗能量不顧碳排放的話,也不符合全球當(dāng)下的節(jié)能減排趨勢(shì)。而在深度學(xué)習(xí)中,各種精度的加法乘法都會(huì)消耗能量,但這些運(yùn)算消耗的能量與傳統(tǒng)馮諾依曼結(jié)構(gòu)中數(shù)據(jù)移動(dòng)消耗的能量相比,就顯得微不足道了,尤其是從DRAM中讀寫(xiě)高精度數(shù)值時(shí),能耗差距甚至可以達(dá)到數(shù)十倍以上。

這還只是在數(shù)據(jù)中心場(chǎng)景中,如果我們放到邊緣來(lái)看,如今的移動(dòng)設(shè)備需要語(yǔ)音識(shí)別、圖像識(shí)別之類的各種深度學(xué)習(xí)應(yīng)用。所以提升這類設(shè)備的效率,才有可能在功耗和內(nèi)存都有所限制的嵌入式應(yīng)用中普及深度學(xué)習(xí)。

存內(nèi)計(jì)算的存儲(chǔ)選擇

為了減少數(shù)據(jù)移動(dòng)消耗的能量,提高M(jìn)VM的計(jì)算性能,存內(nèi)計(jì)算成了一個(gè)不錯(cuò)的選擇。存內(nèi)計(jì)算(IMC)是一項(xiàng)創(chuàng)新的計(jì)算方式,將特定的計(jì)算任務(wù)放到存儲(chǔ)設(shè)備中,并使用模擬或混合信號(hào)的計(jì)算技術(shù)。相較馮諾依曼結(jié)構(gòu)或近存計(jì)算來(lái)說(shuō),最大程度地減少了數(shù)據(jù)移動(dòng)。

而早期利用IMC進(jìn)行神經(jīng)網(wǎng)絡(luò)推理的測(cè)試結(jié)果證明,在軟硬件結(jié)合的情況下,可以得到優(yōu)秀的精度結(jié)果,而DAC、ADC、功能激活之類的數(shù)字操作則是通過(guò)片外的軟件或硬件來(lái)實(shí)現(xiàn)的。自那之后,各種使用SRAM、NOR Flash、RRAM、PCM和MRAM的單核或多核存內(nèi)計(jì)算芯片紛紛面世。

在對(duì)于正確存儲(chǔ)類型的選擇上,存內(nèi)計(jì)算必須面臨取舍的問(wèn)題,比如性能、密度、寫(xiě)入時(shí)間、寫(xiě)入功耗、穩(wěn)定性以及制造工藝上。性能自然就是直接影響到我們說(shuō)的TOPS算力以及效率,目前SRAM優(yōu)勢(shì)較大,密度則決定了裸片大小,同時(shí)也影響到了成本。

而在邊緣場(chǎng)景下,環(huán)境一致性往往不比數(shù)據(jù)中心,所以如果不能保證穩(wěn)定性的話,就會(huì)影響到存內(nèi)計(jì)算進(jìn)行深度學(xué)習(xí)的精度。最后的制造工藝不僅決定了這類存內(nèi)計(jì)算芯片能否量產(chǎn),是否存在供應(yīng)鏈危機(jī)或成本問(wèn)題,也決定了它有沒(méi)有繼續(xù)推進(jìn)的空間,比如目前工藝較為先進(jìn)的主要是PCM和SRAM,最高分別已經(jīng)到了14nm和12nm。

在2021年的VLSI技術(shù)大會(huì)上,IBM發(fā)表了一篇文章,講述了他們以14nm CMOS工藝打造的一個(gè)64核PCM模擬存內(nèi)計(jì)算芯片,HERMES。該芯片采用了后端集成的多層相變化內(nèi)存,由256個(gè)線性化的CCO ADC組成,可以在1GHz的工作頻率之上進(jìn)行精確的片上矩陣矢量乘法運(yùn)算。在深度學(xué)習(xí)的運(yùn)算測(cè)試中,HERMES獲得了10.5 TOPS/W的運(yùn)算效率以及1.59TOPS/mm2的性能密度。
IMG_256
Thetis Core芯片 / Axelera AI

而荷蘭初創(chuàng)企業(yè)Axelera AI則選了數(shù)字SRAM這一路線,他們?cè)谌ツ?2月成功流片第一代IMC芯片Thetis Core。Thetis Core的面積不到9mm2,卻可以在INT8精度下提供39.3TOPS的算力和14.1 TOPS/W的性能,甚至還可以超頻到48.16TOPS。但不少存內(nèi)計(jì)算芯片提到性能表現(xiàn)時(shí),往往都是指滿載的情況,正因如此,Thetis Core在低利用率下的效率表現(xiàn)才顯得無(wú)比亮眼。哪怕從100%利用率降低至25%的,該芯片也能展現(xiàn)13TOPS/W的效率,降幅只有7%左右。

小結(jié)

除了“存”以外,存內(nèi)計(jì)算在“算”上的選擇也不盡相同,比如進(jìn)行模擬或數(shù)字MAC運(yùn)算等等。從斯坦福大學(xué)教授Boris Murmann提出的觀點(diǎn)來(lái)看,在低精度下模擬運(yùn)算要比數(shù)字運(yùn)算更高效,但一旦精度拔高,比如8位以后,模擬計(jì)算的功耗就會(huì)成倍增加了??紤]到落地應(yīng)用較少,未來(lái)的存內(nèi)計(jì)算會(huì)更傾向于哪種形式仍有待觀察,但從存儲(chǔ)廠商、存算一體芯片廠商的動(dòng)向來(lái)看,這或許是存儲(chǔ)市場(chǎng)迎來(lái)又一輪爆發(fā)的絕佳機(jī)遇。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    “算平衡”有多重要?

    。而決定這種配合效率的關(guān)鍵指標(biāo),正是我們今天要聊的“算比”。什么是算比?算比=計(jì)算能力(如每秒浮點(diǎn)運(yùn)算次數(shù))÷存儲(chǔ)容量(如GB/TB),但更核心的是
    的頭像 發(fā)表于 07-11 14:06 ?87次閱讀
    “算<b class='flag-5'>存</b>平衡”有多重要?

    第二屆知科技杯華東高校內(nèi)計(jì)算創(chuàng)新應(yīng)用大賽正式啟動(dòng)

    在數(shù)字化浪潮席卷各行業(yè)的當(dāng)下,數(shù)據(jù)量呈爆炸式增長(zhǎng),算力需求也水漲船高。內(nèi)計(jì)算架構(gòu)作為創(chuàng)新解決方案,備受產(chǎn)學(xué)研各界關(guān)注。為推動(dòng)內(nèi)
    的頭像 發(fā)表于 05-06 17:51 ?440次閱讀

    專注內(nèi)計(jì)算的知科技榮獲2024全球(中國(guó))半導(dǎo)體市場(chǎng)年度最佳企業(yè)獎(jiǎng)

    在近日舉行的2024-2025全球半導(dǎo)體市場(chǎng)峰會(huì)上,知科技憑借在市場(chǎng)競(jìng)爭(zhēng)力及未來(lái)前景方面的卓越表現(xiàn),榮獲世界集成電路協(xié)會(huì)(World Integrated Circuit Association
    的頭像 發(fā)表于 12-11 17:33 ?2165次閱讀
    專注<b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計(jì)算</b>的知<b class='flag-5'>存</b>科技榮獲2024全球(中國(guó))半導(dǎo)體市場(chǎng)年度最佳企業(yè)獎(jiǎng)

    開(kāi)源芯片系列講座第24期:基于SRAM算的高效計(jì)算架構(gòu)

    鷺島論壇開(kāi)源芯片系列講座第24期「基于SRAM算的高效計(jì)算架構(gòu)」明晚(27日)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目基于SRAM算的高效計(jì)算架構(gòu)報(bào)告簡(jiǎn)介
    的頭像 發(fā)表于 11-27 01:05 ?846次閱讀
    開(kāi)源芯片系列講座第24期:基于SRAM<b class='flag-5'>存</b>算的高效<b class='flag-5'>計(jì)算</b>架構(gòu)

    科技啟動(dòng)首屆內(nèi)計(jì)算創(chuàng)新大賽

    內(nèi)計(jì)算作為一項(xiàng)打破“內(nèi)存墻”“功耗墻”的顛覆性技術(shù),消除了與算的界限,相比CPU或GPU能夠?qū)崿F(xiàn)更高計(jì)算并行度、更大專用算力,達(dá)成數(shù)量級(jí)
    的頭像 發(fā)表于 11-21 10:44 ?643次閱讀

    有單通道數(shù)據(jù)鎖模塊嗎?

    請(qǐng)問(wèn),有單通道數(shù)據(jù)鎖模塊嗎?應(yīng)用是系統(tǒng)網(wǎng)電斷電后,任然可以鎖數(shù)據(jù)狀態(tài)。要求鎖模塊能長(zhǎng)期單獨(dú)長(zhǎng)期供電。
    發(fā)表于 11-13 07:42

    科技芯片測(cè)試總部基地開(kāi)業(yè)

    近日,深圳市晶科技股份有限公司(簡(jiǎn)稱:晶科技)迎來(lái)又一重要里程碑。其全資子公司——中山晶技術(shù)有限公司,作為晶科技的存儲(chǔ)芯片測(cè)試總部基地,在中山市三鄉(xiāng)鎮(zhèn)盛大開(kāi)業(yè)。
    的頭像 發(fā)表于 10-29 17:01 ?907次閱讀

    D鎖器的基本實(shí)現(xiàn)

    在Verilog HDL中實(shí)現(xiàn)鎖器(Latch)通常涉及對(duì)硬件描述語(yǔ)言的基本理解,特別是關(guān)于信號(hào)如何根據(jù)控制信號(hào)的變化而保持或更新其值。鎖器與觸發(fā)器(Flip-Flop)的主要區(qū)別在于,鎖
    的頭像 發(fā)表于 08-30 10:45 ?1779次閱讀

    器的基本輸出時(shí)序

    在深入探討鎖器的輸出時(shí)序時(shí),我們需要詳細(xì)分析鎖器在不同控制信號(hào)下的行為表現(xiàn),特別是控制信號(hào)(如使能信號(hào)E)的電平變化如何影響數(shù)據(jù)輸入(D)到輸出(Q)的傳輸過(guò)程。以下是對(duì)鎖器輸出時(shí)序的詳細(xì)描述,旨在全面覆蓋其工作原理和時(shí)序
    的頭像 發(fā)表于 08-30 10:43 ?1160次閱讀

    d鎖器解決了sr鎖器的什么問(wèn)題

    D鎖器(Data Latch)和SR鎖器(Set-Reset Latch)是數(shù)字電路中常見(jiàn)的兩種存儲(chǔ)元件。它們?cè)跀?shù)字系統(tǒng)中扮演著重要的角色,用于存儲(chǔ)和傳遞信息。然而,這兩種鎖器在設(shè)計(jì)和應(yīng)用上
    的頭像 發(fā)表于 08-28 09:16 ?1166次閱讀

    常用的d鎖器型號(hào)有哪些

    D鎖器是一種常見(jiàn)的數(shù)字邏輯電路,用于存儲(chǔ)一個(gè)二進(jìn)制位的狀態(tài)。以下是一些常用的D鎖器型號(hào)及其特點(diǎn): 74LS74:這是一種低功耗的正觸發(fā)D鎖器,具有4個(gè)獨(dú)立的鎖器。它具有數(shù)據(jù)輸入
    的頭像 發(fā)表于 08-28 09:13 ?1917次閱讀

    rs鎖器和sr鎖器有什么區(qū)別嗎

    RS鎖器和SR鎖器是數(shù)字電路中兩種常見(jiàn)的存儲(chǔ)單元,它們?cè)诠δ芎蛻?yīng)用上有一些區(qū)別。 RS鎖器 RS鎖器,即Reset-Set鎖器,是
    的頭像 發(fā)表于 07-23 14:15 ?2313次閱讀

    器電路通過(guò)什么觸發(fā)的

    器(Latch)是一種在數(shù)字電路中廣泛使用的存儲(chǔ)元件,它能夠存儲(chǔ)一位二進(jìn)制信息。鎖器電路的觸發(fā)方式有很多種,包括同步觸發(fā)、邊沿觸發(fā)、電平觸發(fā)等。 一、鎖器的基本概念 鎖器是一
    的頭像 發(fā)表于 07-23 11:31 ?929次閱讀

    器電路中的中間是什么元件

    器電路概述 定義與功能 鎖器(Latch)是數(shù)字電路中的一種基本存儲(chǔ)元件,用于存儲(chǔ)一個(gè)位(1或0)的狀態(tài)。它能夠在特定輸入脈沖電平作用下改變狀態(tài),并保持該狀態(tài)直到下一個(gè)脈沖電平到來(lái)。鎖
    的頭像 發(fā)表于 07-23 11:29 ?710次閱讀

    器原態(tài)和新態(tài)的定義

    器(Latch)是一種存儲(chǔ)單元,用于存儲(chǔ)一位二進(jìn)制信息。在數(shù)字電路中,鎖器是一種基本的存儲(chǔ)元件,廣泛應(yīng)用于寄存器、計(jì)數(shù)器、觸發(fā)器等電路中。鎖器的原態(tài)和新態(tài)是描述鎖器狀態(tài)變化的
    的頭像 發(fā)表于 07-23 10:21 ?1201次閱讀