一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI推理帶火的ASIC,開(kāi)發(fā)成敗在此一舉!

Hobby觀(guān)察 ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:梁浩斌 ? 2025-03-03 00:13 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)去年年底,多家大廠(chǎng)爆出開(kāi)發(fā)數(shù)據(jù)中心ASIC芯片的消息,包括傳聞蘋(píng)果與博通合作開(kāi)發(fā)面向AI推理的ASIC,亞馬遜也在年底公布了其AIASIC的應(yīng)用實(shí)例,展示出ASIC的應(yīng)用性?xún)r(jià)比遠(yuǎn)超GPU,加上博通財(cái)報(bào)AI業(yè)務(wù)同比大增220%,掀起了AI推理端的ASIC熱潮。

那么ASIC跟傳統(tǒng)的GPU有哪些區(qū)別,開(kāi)發(fā)上又有哪些流程上的不同?

ASIC和GPU

通用GPU在設(shè)計(jì)之初就為了適配更多使用場(chǎng)景,在AI應(yīng)用上,GPU支持訓(xùn)練、推理、通用計(jì)算等全流程,以英偉達(dá)GPU為例,通過(guò)CUDA生態(tài),英偉達(dá)GPU能夠快速適配新的算法,比如從Transformer到CNN的遷移,只需要修改30%左右的代碼。

相比通用GPU,ASIC是專(zhuān)為滿(mǎn)足特定應(yīng)用而設(shè)計(jì)的芯片,針對(duì)特定應(yīng)用的特定算法進(jìn)行硬件級(jí)別的優(yōu)化,尤其在AI應(yīng)用中,比如運(yùn)行矩陣乘法、張量計(jì)算等任務(wù),能夠相比GPU效率更高。

比如谷歌TPU就是一款A(yù)SIC,采用脈動(dòng)陣列設(shè)計(jì),通過(guò)固化數(shù)據(jù)流水線(xiàn)減少內(nèi)存訪(fǎng)問(wèn)次數(shù),能效比達(dá)GPU的3.2倍。

相比之下GPU使用通用計(jì)算單元處理多種任務(wù),為了滿(mǎn)足不同類(lèi)型的計(jì)算需求,必然需要存在計(jì)算冗余。

GPU由于架構(gòu)的特性,一般會(huì)在AI計(jì)算中保留圖形渲染、視頻編解碼等功能模塊,但在AI計(jì)算中這些模塊大部分處于閑置狀態(tài)。有研究指出,英偉達(dá)H100GPU上有大約15%的晶體管是未在AI計(jì)算過(guò)程中被使用的。

同時(shí),在計(jì)算流程上,GPU在處理AI計(jì)算任務(wù)時(shí)是需要通過(guò)CUDA軟件棧進(jìn)行任務(wù)調(diào)度,比如矩陣乘法的運(yùn)行時(shí)需要經(jīng)過(guò)內(nèi)存加載、指令分發(fā)、TensorCore計(jì)算、結(jié)果回寫(xiě)等多個(gè)步驟。

而在ASIC上,可以通過(guò)硬件級(jí)的流水線(xiàn)固化數(shù)據(jù)流,能夠減少計(jì)算流程步驟,提高運(yùn)算效率。在減少計(jì)算流程的同時(shí),ASIC對(duì)內(nèi)存訪(fǎng)問(wèn)模式的優(yōu)化,還能有助于降低內(nèi)存控制器的功耗。

AI計(jì)算中,低精度是以損失部分準(zhǔn)確率為代價(jià),通過(guò)量化壓縮數(shù)據(jù)來(lái)提高推理速度。目前AI推理中INT8/FP16的精度,GPU一般支持FP32/FP64等高精度計(jì)算,在混合精度訓(xùn)練中,GPU還需要額外的顯存來(lái)轉(zhuǎn)換成低精度結(jié)果,同樣的芯片,在運(yùn)行高精度和低精度的算力也不同。

盡管精度的選擇本質(zhì)上是準(zhǔn)確性和效率的取舍,但AI推理等應(yīng)用中,對(duì)精度的需求并不需要極致的接近100%,但仍能保持較高的水準(zhǔn)。ASIC一般直接支持低精度計(jì)算,在AI計(jì)算時(shí)的效率能夠相比GPU大幅提高,但保持一定的準(zhǔn)確率。比如有數(shù)據(jù)顯示,TikTok的推薦算法系統(tǒng)采用INT8精度,但依然保持了接近99%的推薦準(zhǔn)確率。

所以,ASIC相比GPU,在硬件架構(gòu)上可以針對(duì)專(zhuān)有應(yīng)用進(jìn)行特定優(yōu)化,提高計(jì)算效率和降低功耗。在成本方面,ASIC在規(guī)模量產(chǎn)的情況下可以降至GPU的三分之一,但前期開(kāi)發(fā)成本仍不能忽視。

可能大家也發(fā)現(xiàn),目前定制開(kāi)發(fā)高算力ASIC的廠(chǎng)商,無(wú)一例外是云計(jì)算大廠(chǎng),本身公司業(yè)務(wù)就有極大規(guī)模的算力需求。ASIC定制費(fèi)用,主要是開(kāi)發(fā)過(guò)程中的一次性工程費(fèi)用,也被業(yè)內(nèi)稱(chēng)為NRE(Non-RecurringEngineering)。顧名思義,NRE費(fèi)用只需要支出一次,后續(xù)規(guī)模生產(chǎn)中不需要再增加這部分費(fèi)用。

NRE費(fèi)用中,包含芯片設(shè)計(jì)的成本,比如研發(fā)人員薪酬、EDA工具授權(quán)費(fèi)等,這與芯片使用的制程工藝、芯片本身的復(fù)雜程度相關(guān);然后是版圖設(shè)計(jì)成本,其實(shí)這里的概念跟芯片設(shè)計(jì)的成本類(lèi)似,主要是涉及芯片的物理布局設(shè)計(jì),需要特定的研發(fā)人員和軟件支持;再是IP授權(quán)費(fèi)用,一般是一些通用的IP,比如CPUIP、內(nèi)存控制器、接口IP等。

以定制一款采用5nm制程的ASIC為例,NRE費(fèi)用可以高達(dá)1億至2億美元。然而一旦能夠大規(guī)模出貨,NRE費(fèi)用就可以很大程度上被攤薄。

此前有業(yè)內(nèi)人士分析,中等復(fù)雜程度的ASIC盈虧平衡點(diǎn)在10萬(wàn)片左右,這對(duì)于很多廠(chǎng)商來(lái)說(shuō)已經(jīng)是遙不可及。

ASIC開(kāi)發(fā)流程

在開(kāi)發(fā)ASIC時(shí),最關(guān)鍵的是以算法架構(gòu)為主導(dǎo),圍繞這一方面去進(jìn)行其他工作。

首先是進(jìn)行需求定義,要明確ASIC的目標(biāo)場(chǎng)景是什么,比如推理還是訓(xùn)練?端側(cè)還是云端?用到CNN還是Transformer?在AI領(lǐng)域,定制ASIC的往往是云計(jì)算大廠(chǎng),這些廠(chǎng)商一般會(huì)有頂尖的架構(gòu)師去進(jìn)行充分考慮,未來(lái)可能的應(yīng)用、效率、成本、技術(shù)可行性等都會(huì)包含在內(nèi),同時(shí)平衡性能、成本、功耗等關(guān)鍵指標(biāo)。當(dāng)然也有一些芯片廠(chǎng)商推出針對(duì)某些應(yīng)用場(chǎng)景的ASIC產(chǎn)品。那么在前期產(chǎn)品定義就十分關(guān)鍵,有時(shí)候還需要開(kāi)發(fā)針對(duì)應(yīng)用場(chǎng)景的算法配合自己的芯片產(chǎn)品使用。

接下來(lái)是最關(guān)鍵的算法和架構(gòu)優(yōu)化,需要對(duì)行業(yè)發(fā)展趨勢(shì)有足夠認(rèn)知,選擇適合的算法進(jìn)行優(yōu)化,保證算法與硬件架構(gòu)適配,通過(guò)仿真測(cè)試驗(yàn)證。

然后設(shè)計(jì)ASIC的整體架構(gòu),比如功能模塊的劃分和模塊之間的互連,以及接口等IP的使用。

在前端設(shè)計(jì)中,使用VHDL或Verilog等硬件描述語(yǔ)言對(duì)設(shè)計(jì)進(jìn)行編碼,然后將編碼轉(zhuǎn)換為門(mén)級(jí)網(wǎng)表,對(duì)其進(jìn)行優(yōu)化滿(mǎn)足芯片面積和性能要求。

進(jìn)入后端設(shè)計(jì)后,需要將門(mén)級(jí)網(wǎng)表映射到具體的芯片物理結(jié)構(gòu)上,進(jìn)行布局和布線(xiàn)。

完成模塊布局和布線(xiàn)后,就可以開(kāi)始進(jìn)行FPGA驗(yàn)證,測(cè)試ASIC設(shè)計(jì)的功能是否滿(mǎn)足需求。隨后完成流片、測(cè)試后就可以投入大規(guī)模生產(chǎn)。

總的來(lái)說(shuō),ASIC的開(kāi)發(fā)中,硬件和軟件的協(xié)同是其成功的關(guān)鍵,在擁有強(qiáng)大的芯片性能同時(shí),還要筑建完整的軟件生態(tài),吸引更多用戶(hù)使用。

當(dāng)然,在ASIC量產(chǎn)進(jìn)入市場(chǎng)后,軟件棧開(kāi)發(fā)也是相當(dāng)重要的,需要編譯器將TensorFlow和PyTorch等機(jī)器學(xué)習(xí)模型映射到硬件指令上,在生態(tài)上也需要支持更多主流的框架,以盡可能滿(mǎn)足更多使用需求。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1241

    瀏覽量

    121711
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33554

    瀏覽量

    274195
  • 芯片開(kāi)發(fā)
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    2555
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI推理的存儲(chǔ),看好SRAM?

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)近幾年,生成式AI引領(lǐng)行業(yè)變革,AI訓(xùn)練率先崛起,帶動(dòng)高帶寬內(nèi)存HBM飛沖天。但我們知道AI推理的廣泛應(yīng)用才
    的頭像 發(fā)表于 03-03 08:51 ?1400次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲(chǔ),看好SRAM?

    AI端側(cè)部署開(kāi)發(fā)(SC171開(kāi)發(fā)套件V3)

    AI端側(cè)部署開(kāi)發(fā)(SC171開(kāi)發(fā)套件V3) 序列 課程名稱(chēng) 視頻課程時(shí)長(zhǎng) 視頻課程鏈接 課件鏈接 工程源碼 1 Fibo AI Stack模型轉(zhuǎn)化指南------Docker Desk
    發(fā)表于 04-16 18:30

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    生態(tài)和天璣AI生態(tài)的全面打通。這意味著,天璣開(kāi)發(fā)者將有機(jī)會(huì)獲取更多NVIDIA TAO生態(tài)的AI開(kāi)發(fā)資源,TAO生態(tài)開(kāi)發(fā)者可將
    發(fā)表于 04-13 19:52

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開(kāi)源 Llama Nemotron 模型系列,旨在為開(kāi)發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級(jí) AI 智能體。
    發(fā)表于 03-19 09:31 ?169次閱讀
    NVIDIA 推出開(kāi)放<b class='flag-5'>推理</b> <b class='flag-5'>AI</b> 模型系列,助力<b class='flag-5'>開(kāi)發(fā)</b>者和企業(yè)構(gòu)建代理式 <b class='flag-5'>AI</b> 平臺(tái)

    AI開(kāi)發(fā)板】正點(diǎn)原子K230D BOX開(kāi)發(fā)板來(lái)了!款性能強(qiáng)悍且小巧便攜的AI開(kāi)發(fā)板!

    AI開(kāi)發(fā)板】正點(diǎn)原子K230D BOX開(kāi)發(fā)板來(lái)了!款性能強(qiáng)悍且小巧便攜的AI開(kāi)發(fā)板! 正
    發(fā)表于 02-18 16:56

    Qwen大模型助力開(kāi)發(fā)低成本AI推理方案

    阿里巴巴的開(kāi)源Qwen2.5模型近期在AI領(lǐng)域引發(fā)了廣泛關(guān)注。這大模型的推出,為斯坦福大學(xué)與伯克利大學(xué)的研究人員提供了強(qiáng)大的技術(shù)支持,使他們能夠成功開(kāi)發(fā)出低成本的AI
    的頭像 發(fā)表于 02-12 09:19 ?445次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?525次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技術(shù)、市場(chǎng)與未來(lái)

    (reasoning)能力,這轉(zhuǎn)變將極大推動(dòng)上層應(yīng)用的發(fā)展。 紅杉資本近期指出,在可預(yù)見(jiàn)的未來(lái),邏輯推理推理時(shí)計(jì)算將是個(gè)重要主題,并開(kāi)啟生成式
    的頭像 發(fā)表于 01-20 11:16 ?694次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術(shù)、市場(chǎng)與未來(lái)

    新品| LLM630 Compute Kit,AI 大語(yǔ)言模型推理開(kāi)發(fā)平臺(tái)

    LLM630LLM推理,視覺(jué)識(shí)別,可開(kāi)發(fā),靈活擴(kuò)展···LLM630ComputeKit是AI大語(yǔ)言模型推理
    的頭像 發(fā)表于 01-17 18:48 ?501次閱讀
    新品| LLM630 Compute Kit,<b class='flag-5'>AI</b> 大語(yǔ)言模型<b class='flag-5'>推理</b><b class='flag-5'>開(kāi)發(fā)</b>平臺(tái)

    Neuchips展示大模型推理ASIC芯片

    領(lǐng)先的AI專(zhuān)用集成電路(ASIC)解決方案提供商N(yùn)euchips在CES 2024上展示了其革命性的Raptor Gen AI加速芯片(以前稱(chēng)為N3000)和Evo PCIe加速卡LLM解決方案
    的頭像 發(fā)表于 01-06 17:30 ?542次閱讀

    ASIC!大廠(chǎng)AI訓(xùn)練推理拋棄GPU;博通的護(hù)城河有多深?

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)在上周末,博通應(yīng)該可以說(shuō)是投資圈和科技圈最火爆的話(huà)題,大家紛紛驚呼“英偉達(dá)的對(duì)手終于出現(xiàn)了!”“ASIC要超越GPU”云云。 ? 這切都要源于上周五博通公布的炸裂財(cái)報(bào)
    的頭像 發(fā)表于 12-18 01:25 ?2743次閱讀

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專(zhuān)門(mén)做推理ASIC,像Gro
    的頭像 發(fā)表于 10-29 14:12 ?1587次閱讀
    FPGA和<b class='flag-5'>ASIC</b>在大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

    AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器

    HyperAccel 是家成立于 2023 年 1 月的韓國(guó)初創(chuàng)企業(yè),致力于開(kāi)發(fā) AI 推理專(zhuān)用型半導(dǎo)體器件和硬件,最大限度提升推理工作負(fù)
    的頭像 發(fā)表于 09-18 09:37 ?669次閱讀
    AMD助力HyperAccel<b class='flag-5'>開(kāi)發(fā)</b>全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器

    是否能將libwebsokets移植到ESP8266上利用libwebsokets進(jìn)行網(wǎng)絡(luò)應(yīng)用開(kāi)發(fā)?

    使用 lwip開(kāi)源協(xié)議棧,在實(shí)現(xiàn)相關(guān)的API時(shí)是否已經(jīng)將 libwebsoket融入,如果已經(jīng)融入,那我做的移植將是多此一舉。
    發(fā)表于 07-22 06:22

    如何基于OrangePi?AIpro開(kāi)發(fā)AI推理應(yīng)用

    。通過(guò)昇騰CANN軟件棧的AI編程接口,可滿(mǎn)足大多數(shù)AI算法原型驗(yàn)證、推理應(yīng)用開(kāi)發(fā)的需求。AscendCL(AscendComputingLanguage,昇騰計(jì)算
    的頭像 發(fā)表于 06-04 14:23 ?774次閱讀
    如何基于OrangePi?AIpro<b class='flag-5'>開(kāi)發(fā)</b><b class='flag-5'>AI</b><b class='flag-5'>推理</b>應(yīng)用