日本高清免费不卡一二三四,国产三级中文字幕

電子發(fā)燒友網(wǎng)報道（文/李彎彎）隨著技術(shù)的發(fā)展，現(xiàn)在計算的任務(wù)越來越復(fù)雜，需要的數(shù)據(jù)也越來越多，而在馮諾依曼架構(gòu)中，數(shù)據(jù)需要在存儲、內(nèi)存、緩存、計算單元中不斷搬運，造成大部分時間、帶寬、緩存、功耗都消耗在數(shù)據(jù)搬運上，而不是計算上，因此內(nèi)存墻都成了一個越來越嚴(yán)重的問題。

這種問題在人工智能計算中尤為明顯，知存科技創(chuàng)始人兼CEO王紹迪近日在某論壇分享到：“這種數(shù)據(jù)搬運消耗的功耗超過95%以上，帶寬也會達(dá)到80%以上，比如片上緩存，1MB的SRAM和8KB的SRAM在數(shù)據(jù)搬運上消耗的功耗相差10倍?！币虼藰I(yè)界都在思考減少內(nèi)存墻問題。

存算一體有效解決內(nèi)存墻問題

存算一體主要有近存計算和存內(nèi)計算。近存計算可以理解為通過先進封裝拉近存儲、內(nèi)存和計算單元的距離，比如SRAM，在馮諾依曼架構(gòu)中，很多時候SRAM用作緩存，多核共同使用，這樣緩存到每個核都有一定距離，數(shù)據(jù)搬運、訪問時間、功耗都會增加，王紹迪介紹：“近緩存計算把SRAM與計算單元合在一起，這個SRAM只供本地計算單元使用，數(shù)據(jù)訪問時間和帶寬都有很大提升?！?br />
存內(nèi)計算比近存計算更高效，同時也更難以實現(xiàn)，存內(nèi)計算一般是使用存儲的參數(shù)去完成計算，比如SRAM存內(nèi)計算，F(xiàn)lash存內(nèi)計算、以及RRAM存內(nèi)計算。存內(nèi)計算實際上是一個計算的模塊，而不再是存儲的模塊，實踐的方式是用存儲的參數(shù)去完成運算，從存儲器中讀出的數(shù)據(jù)是運算的結(jié)果，而不是存儲的數(shù)據(jù)。

在馮諾依曼架構(gòu)中，不管是做加法運算還是乘法運算，都需要把數(shù)據(jù)從存儲架構(gòu)中讀出來，包括緩存、內(nèi)存、以及片外的存儲，最終將數(shù)據(jù)讀到計算單元中完成運算。從緩存中讀取數(shù)據(jù)，要消耗運算幾倍、幾十倍、甚至幾百倍的功耗，從內(nèi)存讀取數(shù)據(jù)，搬運功耗是運算的近千倍，從外部的存儲讀取，達(dá)到上萬倍。

因此在數(shù)據(jù)量很大的計算中，馮諾依曼架構(gòu)的效率就會非常低，而存內(nèi)計算，存儲器中存儲了參數(shù)，被處理的數(shù)據(jù)作為輸入信號，被處理的信號流過存儲器中所有的參數(shù)，從存儲器中輸出的數(shù)據(jù)就是運算的結(jié)果。王紹迪表示，“存內(nèi)計算的優(yōu)勢在于，能夠?qū)⒋鎯ζ髦斜姸嗟拇鎯卧D(zhuǎn)化為運算單元，這樣能計算的并行度就會大幅提高，從原來幾十、幾百個并行，到存內(nèi)計算幾百萬、幾千萬、甚至幾億個乘加法的并行度，運算效率很高?！?br />
除了可以大規(guī)模并行運算，還可以很大程度節(jié)省數(shù)據(jù)帶寬。簡單來說，一個傳統(tǒng)的存儲器，多行多列，一次至多激活一行，讀取出一行的數(shù)據(jù)，而要把多行數(shù)據(jù)讀取出來，需要進行多個存儲器周期，分別激活每一行，讀出每一行的數(shù)據(jù)。而存內(nèi)計算可以同時把輸入數(shù)據(jù)給多行，同時多行的輸入數(shù)據(jù)與每一行的參數(shù)做乘法運算，在列的方向直接把運算的結(jié)果讀取出來，它是同時多行多列并行激活的方法。

現(xiàn)在的存內(nèi)計算可以做到千行千列同時開啟，使用效率比傳統(tǒng)存儲器提高近千倍，王紹迪談到：“整體來看，包括輸入輸出，存內(nèi)計算運算效率一般會有幾十倍的提升，而且提升倍數(shù)還一直在增加，存內(nèi)計算的發(fā)展速度很快，最近處于早期的快速發(fā)展階段，每年都有數(shù)倍性能的提升。”

知存科技WTM2101智能解決方案

知存科技目前在存內(nèi)計算領(lǐng)域較為領(lǐng)先，公司成立于2017年底，目前已經(jīng)推出兩款存算一體芯片，其中WTM1001已經(jīng)批量量產(chǎn)，WTM2101處于小批量階段，知存科技目前已經(jīng)完成五輪融資。

WTM2101是一款尺寸很小的SOC芯片，包括一個1.8MB存內(nèi)計算的Flash，該存儲模塊除了用于存內(nèi)計算，也可以用于普通的存儲。王紹迪介紹：“這款芯片的封裝很小，可以用在可穿戴設(shè)備中，目前計算的功耗非常低，比如如果做連續(xù)100個詞到300個詞的識別，功耗可以控制在1mA以內(nèi)，其中100個詞可以功耗可以到60微安。該芯片在運行語音識別、語音增強、物體識別、智能健康，以及其他的一些AI 算法上，可以把算力和效率提升20倍到50倍。”

另外WTM2101首次用了獨有的專利HPU，它是一個混合計算單元，實際上是把數(shù)字計算和模擬計算結(jié)合在一起，因為模擬計算有精度上限，為了提高精度，加了一個稀疏的計算單元，可以把存內(nèi)計算的精度進一步提高，最高提高4比特。

存內(nèi)計算未來的發(fā)展趨勢

隨著存內(nèi)計算的發(fā)展，未來的應(yīng)用場景也會越來越廣，當(dāng)前存內(nèi)計算主要應(yīng)用在端側(cè)，一是受精度的限制，8比特，二是受容量，在幾兆的級別，三是算力，基本在0.1T到1T的范圍。

不過未來一兩年將會發(fā)展到邊側(cè)，精度會提高到12比特，容量會達(dá)到16兆到64兆，算力也可以提升到最大32T，這樣可以覆蓋很多邊緣側(cè)的應(yīng)用需求。未來還會向云端發(fā)展，存內(nèi)計算精度會達(dá)到到16比特，容量會超過1000M，算力會達(dá)到256T到1024T。

存內(nèi)計算在云側(cè)、邊側(cè)、端側(cè)，存內(nèi)計算的優(yōu)勢各不相同，在端側(cè)，存內(nèi)計算在功耗的限制下可以提供大的算力，在邊緣側(cè)，在功耗、體積限制下也有很強的算力，在云端，可以提供更低成本的解決方案。

存內(nèi)計算現(xiàn)在處于一個很快的發(fā)展階段，未來幾年，每年都會有很快的迭代速度。早期，產(chǎn)業(yè)界對存內(nèi)計算的關(guān)注不多，投入也很少，最近存內(nèi)計算逐漸得到越來越多的關(guān)注，王紹迪認(rèn)為，未來五年存內(nèi)計算都會在處在非常快速的發(fā)展階段，在各種各樣的場景中，進行規(guī)?；穆涞貞?yīng)用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴