一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

請問一下DSP數(shù)學(xué)能否在AI領(lǐng)域戰(zhàn)勝GPU呢?

Astroys ? 來源:Astroys ? 2023-10-26 10:09 ? 次閱讀

AI芯片初創(chuàng)公司Lemurian Labs發(fā)明了一種專為AI加速設(shè)計的新型對數(shù)數(shù)字格式,并正在構(gòu)建一種芯片,利用它為數(shù)據(jù)中心AI工作負(fù)載服務(wù)。

Lemurian的CEO Jay Dawani說:“2018年,我正在為機(jī)器人訓(xùn)練模型,部分是卷積,部分是Transformer,部分是強(qiáng)化學(xué)習(xí)。在1萬個Nvidia V100 GPU上訓(xùn)練這個模型需要6個月時間……模型呈指數(shù)級增長,但很少有人有足夠的算力來嘗試訓(xùn)練,很多想法就這樣被放棄了。我試圖為那些有偉大想法但卻苦于沒有算力的普通的ML工程師構(gòu)建模型?!?

對Lemurian首款芯片的模擬顯示,根據(jù)H100最新的MLPerf推理基準(zhǔn)測試結(jié)果,Lemurian的新數(shù)字系統(tǒng)與專門設(shè)計的芯片相結(jié)合,其性能將優(yōu)于Nvidia的H100。在離線模式下,Lemurian芯片在MLPerf版本的GPT-J中每個芯片每秒可處理17.54次推理(Nvidia H100在離線模式下每秒可處理13.07次推理)。Dawani說,Lemurian的模擬結(jié)果可能在真實芯片性能的10%以內(nèi),但他的團(tuán)隊打算今后從軟件中榨取更多性能。他說,軟件優(yōu)化加上稀疏性可以將性能再提高3-5倍。

對數(shù)數(shù)字系統(tǒng)??

Lemurian的秘訣在于該公司提出的新數(shù)字格式,稱之為PAL(parallel adaptive logarithms)。

Dawani說:“作為一個行業(yè),我們開始急于采用8位整數(shù)量化,因為從硬件的角度來看,這是我們所擁有的最有效的東西。但從來沒有軟件工程師說過我想要8位整數(shù)!”

對于今天的LLM推理而言,INT8的精度已被證明是不夠的,業(yè)界已轉(zhuǎn)向FP8。但Dawani解釋說,AI工作負(fù)載的性質(zhì)意味著數(shù)字經(jīng)常處于亞正常范圍(接近零的區(qū)域),F(xiàn)P8可以表示的數(shù)字較少,因此精度較低。FP8在亞正常范圍內(nèi)的覆蓋率存在差距,這也是許多訓(xùn)練方案需要BF16和FP32等更高精度數(shù)據(jù)類型的原因。

5f6a7d50-73a0-11ee-939d-92fbcf53809c.jpg

比較各種數(shù)字格式的覆蓋范圍。與CFP8(configurable floating point 8)、INT8(integer 8)和現(xiàn)有LNS8(logarithmic number system 8)相比,Lemurian的8位對數(shù)數(shù)據(jù)類型PAL8在亞正常范圍的覆蓋率更高。

Dawani的聯(lián)合創(chuàng)始人Vassil Dimitrov提出了一個想法,即通過使用多基數(shù)和多指數(shù)來擴(kuò)展現(xiàn)有的LNS(logarithmic number system),該系統(tǒng)已在DSP中使用了幾十年。

Dawani說:“我們交錯表示多個指數(shù),以重現(xiàn)浮點的精度和范圍。這樣就能提供更好的覆蓋范圍……它自然而然地形成了一個錐形輪廓,在重要的地方,即在亞正常范圍內(nèi),具有非常高的精度帶?!? 這個精度帶可以進(jìn)行偏置,以覆蓋所需的區(qū)域,這與浮點運算的原理類似,但Dawani說,它允許對偏置進(jìn)行比浮點運算更精細(xì)的控制。

Lemurian開發(fā)了從PAL2到PAL64的PAL格式,其中14位格式與BF16相當(dāng)。與FP8相比,PAL8的精度提高了約一個比特,大小約為INT8的1.2倍。Dawani希望其它公司也能采用這些格式。

他說:“我希望更多的人使用它,因為我認(rèn)為是時候擺脫浮點運算了。PAL可以應(yīng)用于目前浮點運算的任何應(yīng)用,從DSP到HPC以及兩者之間,而不僅僅是AI,盡管這是我們目前的重點。我們更有可能與其它為這些應(yīng)用構(gòu)建芯片的公司合作,幫助他們采用我們的格式。”

對數(shù)加法器??

由于對數(shù)加法器簡化了乘法運算,因此在大部分為乘法運算的DSP工作負(fù)載中,對數(shù)加法器已使用了很長時間。LNS表示的兩個數(shù)的乘法就是這兩個對數(shù)的加法。然而,將兩個LNS數(shù)字相加卻比較困難。DSP傳統(tǒng)上使用LUT (large lookup table) 來實現(xiàn)加法運算,雖然效率相對較低,但如果所需的大部分運算都是乘法運算,這種方法已經(jīng)足夠好了。

對于AI工作負(fù)載來說,矩陣乘法需要乘法和加法。Dawani說,Lemurian的秘訣之一就是“在硬件上解決了對數(shù)加法”。

他說:“我們完全摒棄了LUT,創(chuàng)建了一個純對數(shù)加法器。我們有一個比浮點精確得多的精確加法器。我們?nèi)栽谶M(jìn)行更多優(yōu)化,看看能否使它更便宜、更快速。它的PPA(power, performance, area)已經(jīng)比FP8高出兩倍多?!? Lemurian已經(jīng)為這款加法器申請了多項專利。

他說:“DSP界以研究工作負(fù)載并從數(shù)值上理解它在尋找什么著稱,然后加以利用并將其轉(zhuǎn)化為芯片。這與我們正在做的事沒有什么不同。我們并沒有構(gòu)建一個只做一件事的ASIC,而是研究了整個神經(jīng)網(wǎng)絡(luò)空間的數(shù)值,并構(gòu)建了一個具有適度靈活性的特定領(lǐng)域架構(gòu)?!?

5f9296e6-73a0-11ee-939d-92fbcf53809c.jpg

Lemurian數(shù)據(jù)流架構(gòu)的高級視圖。該芯片是圍繞該公司的對數(shù)數(shù)字系統(tǒng)設(shè)計的。

軟件堆棧??

以高效的方式實現(xiàn)PAL格式需要硬件和軟件。

Dawani說:“我們花了很多心思去思考如何讓硬件更容易編程,因為除非你能首先提高工程師的生產(chǎn)力,否則任何架構(gòu)都不會成功。我寧愿有一個糟糕的硬件架構(gòu)和一個優(yōu)秀的軟件堆棧,而不是相反。”

他說,Lemurian在開始考慮硬件架構(gòu)之前,就已經(jīng)構(gòu)建了大約40%的編譯器。如今,Lemurian的軟件堆棧已經(jīng)開始運行,Dawani希望保持它的完全開放性,這樣用戶就可以編寫自己的內(nèi)核和融合程序。

軟件堆棧包括Lemurian的混合精度對數(shù)量化器Paladynn,它可以將浮點和整數(shù)工作負(fù)載映射到PAL格式,同時保持精度。

他說:“我們采用了神經(jīng)架構(gòu)搜索中的許多想法,并將其應(yīng)用于量化,因為我們想讓這部分變得簡單?!?/p>

Dawani說,雖然卷積神經(jīng)網(wǎng)絡(luò)的量化相對容易,但transformer卻并非如此。激活函數(shù)中存在異常值,需要更高的精度,因此transformer總體上可能需要更復(fù)雜的混合精度方法。不過,Dawani說,他正在關(guān)注多項研究工作,這些工作表明,到Lemurian的芯片上市時,transformer可能就不再流行了。

未來的AI工作負(fù)載可能會遵循Google的Gemini等公司設(shè)定的路徑,即運行非確定的步數(shù)。他說,這打破了大多數(shù)硬件和軟件堆棧的假設(shè)。

他說:“如果你事先不知道你的模型需要運行多少步,你該如何安排它,你需要在多少計算上安排它?你需要的是更動態(tài)的東西,這影響了我們的很多想法?!?/p>

該芯片將是一款300W的數(shù)據(jù)中心加速器,配備128GB HBM3,可提供3.5POPS的密集算力(稀疏性將稍后推出)??傮w而言,Dawani的目標(biāo)是打造一款性能優(yōu)于H100的芯片,并使其價格與Nvidia上一代A100相當(dāng)。目標(biāo)應(yīng)用包括內(nèi)部AI服務(wù)器(任何行業(yè))和一些二級或?qū)I(yè)云公司(非超大規(guī)模公司)。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    555

    文章

    8123

    瀏覽量

    354403
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    331

    瀏覽量

    24137
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    304

    瀏覽量

    6094
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1959

    瀏覽量

    35624

原文標(biāo)題:DSP數(shù)學(xué)能否在AI領(lǐng)域戰(zhàn)勝GPU?

文章出處:【微信號:Astroys,微信公眾號:Astroys】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    Frame-sync的傳送方式,ADS1274數(shù)據(jù)輸出引腳如何與DSP的McBSP接口連接?

    引腳?還想請問下,Frame-sync的傳送方式,ADS1274數(shù)據(jù)輸出引腳如何與DSP的McBSP接口連接
    發(fā)表于 02-07 06:58

    支付寶發(fā)布新AI視覺搜索“探一下

    支付寶近日正式推出了基于自研多模態(tài)大模型技術(shù)的新AI視覺搜索產(chǎn)品——“探一下”。這創(chuàng)新產(chǎn)品的問世,標(biāo)志著支付寶
    的頭像 發(fā)表于 12-31 10:49 ?432次閱讀

    GPU是如何訓(xùn)練AI大模型的

    AI模型的訓(xùn)練過程中,大量的計算工作集中矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解
    的頭像 發(fā)表于 12-19 17:54 ?555次閱讀

    使用 AMD Versal AI 引擎釋放 DSP 計算的潛力

    “Versal AI 引擎可以降低功耗預(yù)算的情況提高 DSP 計算密度,”高級產(chǎn)品營銷經(jīng)理 Udayan Sinha 表示。這種效率使 Versal
    的頭像 發(fā)表于 11-29 14:07 ?1028次閱讀

    請問一下ADS1118-Q1的內(nèi)部基準(zhǔn)電壓是多少

    請問一下ADS1118-Q1的內(nèi)部基準(zhǔn)電壓是多少? 謝 。
    發(fā)表于 11-26 06:25

    《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    線程調(diào)度,與Hopper架構(gòu)的細(xì)粒度同步機(jī)制,使得異構(gòu)計算場景的任務(wù)協(xié)同更加靈活。我的分布式訓(xùn)練實踐中,這些特性顯著提升了模型收斂速度。 張量處理器的設(shè)計是本書點睛之筆。從數(shù)學(xué)抽象來看,張量統(tǒng)
    發(fā)表于 11-24 17:12

    TX7316使用換能器的中心頻率45MHz,請問一下TX7316評估板可以使用嗎?

    TX7316使用換能器的中心頻率45MHz,請問一下TX7316評估板可以使用嗎?激勵電路能否激勵那么高頻率的換能器?謝謝
    發(fā)表于 11-21 07:39

    使用NDT2955代替2N6804,有沒有人幫忙分析一下無輸出的原因和能否替代?

    XTR111的應(yīng)用電路中,電路無輸出(圖1),我看到有人使用請問能否使用SS8550代替2N2907,使用BSP170P代替2N6804,請問能否
    發(fā)表于 11-10 17:01

    請問能否提供TLV320DAC3120 LINUX的驅(qū)動?

    請問能否提供TLV320DAC3120 LINUX的驅(qū)動,官網(wǎng)上也沒有提供的
    發(fā)表于 11-08 06:21

    AIC3262 CODEC能否安卓運用?

    我們有多路音頻混音應(yīng)用需求(雙路MIC. LINE IN, I2S 音源輸入,耳機(jī)輸出監(jiān)聽及混音后錄音),針對混音還有通過DSP 作混響, 10段EQ應(yīng)用, 該裝置需要在安卓環(huán)境運行。不知TI AIC3262 CODEC能否
    發(fā)表于 10-29 08:19

    RISC-VAI領(lǐng)域的發(fā)展前景怎么樣?

    隨著人工智能的不斷發(fā)展,現(xiàn)在的視覺機(jī)器人,無人駕駛等智能產(chǎn)品的不斷更新迭代,發(fā)現(xiàn)ARM占用很大的市場份額,推出的ARM Cortex M85性能也是杠杠的,不知道RISC-VAI領(lǐng)域有哪些參考方案?
    發(fā)表于 10-25 19:13

    請問LMH6552單電源供電情況,能否差分輸出?

    請問LMH6552單電源供電情況,能否差分輸出
    發(fā)表于 09-11 06:14

    TL084能否采用-5V和+ 32V的非對稱雙電源供電?

    看手冊雙電源最高支持到+-20V,單電源是4.5V到40V。請問一下能否采用-5V和+ 32V的非對稱雙電源供電?
    發(fā)表于 07-29 06:50

    為什么GPUAI如此重要?

    GPU人工智能中相當(dāng)于稀土金屬,甚至黃金,它們在當(dāng)今生成式人工智能時代中的作用不可或缺。那么,為什么GPU人工智能發(fā)展中如此重要?什么
    的頭像 發(fā)表于 05-17 08:27 ?1020次閱讀
    為什么<b class='flag-5'>GPU</b>對<b class='flag-5'>AI</b>如此重要?

    請問stm32f4的dsp庫里面fir函數(shù)如何使用?

    請問stm32f4 的dsp庫里面有好幾個關(guān)于fir的函數(shù),因為沒有源碼,我也沒有什么關(guān)于這個dsp函數(shù)的介紹,所以看不懂這些函數(shù)怎么用
    發(fā)表于 05-17 08:07