一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU、FPGA和ASIC鏖戰(zhàn)AI推理

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚 ? 2022-03-15 07:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習(xí)的概念中,通??梢院喕癁閮纱蠊ぷ髁?,一是訓(xùn)練,二是推理。兩者完美融合才是一個現(xiàn)代化的完整深度學(xué)習(xí)網(wǎng)絡(luò),缺一不可。訓(xùn)練用于調(diào)整神經(jīng)網(wǎng)絡(luò)模型的參數(shù),從而在給定的數(shù)據(jù)上實現(xiàn)良好的表現(xiàn);推理則用于執(zhí)行訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)模型,以在新數(shù)據(jù)上獲得輸出。

為了讓一個模型用于特定的用例,比如圖像識別、語音識別等,開發(fā)者必須要先訓(xùn)練這個模型。一旦模型訓(xùn)練完成后,就可以投入使用(用于推理)。這兩大工作流有著類似的特點,但對硬件資源的要求卻存在一定的差距。

以訓(xùn)練來說,硬件需要的是大帶寬大容量的內(nèi)存,所以芯片之間的互聯(lián)相當(dāng)重要,當(dāng)然了這些需求會極大地增加BOM和功耗。而推理則常用于自然語言處理、推薦系統(tǒng)和語音識別這樣的實時應(yīng)用中,因此必須做到低延遲、高吞吐量,再者由于更加貼近應(yīng)用端,所以低功耗和低成本也是這類AI推理硬件的首選特性。

而這幾年間,不少半導(dǎo)體公司、云服務(wù)廠商和初創(chuàng)AI芯片公司都在AI推理上頻頻布局,甚至收購了不少企業(yè)來放大優(yōu)勢或補全短板,尤其是“御三家”英偉達英特爾AMD。筆者這里特地選擇了三家的代表性產(chǎn)品,以及他們走的不同技術(shù)路線。

市場與生態(tài)的寵兒——GPU王牌部隊

自英偉達從2010年推出M2050專業(yè)GPU,并大肆推行GPGPU在AI推理上的應(yīng)用后,英偉達DGX產(chǎn)品線在AI推理算力上的占比就在一路走高。2020年阿里云、AWS和騰訊云等公有云平臺中,英偉達GPU AI推理算力超過了100 exaflops,也首次奪下了云端CPU統(tǒng)治多年的推理算力寶座,這其中的旗艦就是A100 GPU。

A100 SXM / 英偉達


我們以旗艦型號A100 80GB SXM為例,318 TFLOPS的TF32算力,1248 TOPS的INT8算力,80GB的GPU內(nèi)存帶寬達到了2039GB/s。不僅支持NVLink600GB/s的互聯(lián),也支持64GB/s的PCIe4.0互聯(lián)。A100還可以被分為7個獨立的GPU實例,無論是端到端AI還是數(shù)據(jù)中心的HPC平臺,都適合該GPU大顯身手。

但A100的缺點也相當(dāng)明顯,第一就是功耗,高達400W的功耗讓這張卡成了很多AI推理加速器競相對比能效比的對象。其次就是價格,高達一萬美元以上的單價讓不少人望而卻步,至少個人開發(fā)者使用GPU或基于該GPU的云服務(wù)器的話,不免會肉疼好一陣了。

靈活的代表——FPGA抵抗軍

對于AMD來說,過去主要是與英偉達、英特爾在一些通用計算領(lǐng)域進行交鋒,而在AI訓(xùn)練和推理上,AMD其實并沒有推出太多針對這類應(yīng)用的方案,直到對Xilinx的收購。不可置否的是,AMD在數(shù)據(jù)中心和HPC已經(jīng)嶄露頭角,甚至開始拔尖,但AI推理可以說一直是AMD的弱勢所在。

其實收購的部分原因,也要歸功于Xilinx在AI市場上得天獨厚的優(yōu)勢,而這種優(yōu)勢在兩家聯(lián)手之下更加明顯,這一點早在過去的合作中就可以看出來。2018年的Xilinx開發(fā)者論壇上,AMD的EPYC CPU和Xilinx的AlveoU250在GoogLeNet CNN框架上實現(xiàn)了3萬張圖片每秒的世界記錄級吞吐量。目前不少公有云廠商也在用Xilinx的FPGA方案,比如阿里云就有基于XilinxVU9P的方案。

VCK5000 / Xilinx

Xilinx最近也推出了全新的VCK5000AI加速器,該卡基于Xilinx7nm的VersalACAP架構(gòu),專為高吞吐量的AI推理打造。從紙面參數(shù)上看,這張卡好像性能不算強大,在ResNet-50的吞吐量上只能算優(yōu)于英偉達的T4顯卡,但VCK5000還準備了一些奇招。

電路中有個叫做暗硅(DarkSilicon)的概念,指的就是在功耗限制下,處理器電路上常常出現(xiàn)“一方有難,多方看戲”的情況,所以實際的效能根本達不到紙面參數(shù)。而Xilinx稱VCK5000將實際效率推至90%,相較英偉達GPU普遍低于50%的效率可謂秒殺了,甚至高過A100。成本上,VCK5000的單價也做到了2745美元,從性價比和TCO來說,F(xiàn)PGA方案可以說是真香了。

初創(chuàng)公司首選——ASIC異軍突起

作為英特爾在2019年收購的一家以色列人工智能公司,Habana倒是很少出現(xiàn)在人們的視線中,遠不如同被英特爾收購的以色列自動駕駛芯片公司Mobileye或是晶圓代工廠TowerSemiconductor那般高調(diào),但他們給英特爾帶來的AI方案還是有點東西的。

HL-100 / Habana


Habana擁有兩大產(chǎn)品線,一是主打訓(xùn)練的Gaudi系列,二是主打推理的Goya系列。雖然兩者采用了不同的芯片設(shè)計,但仍基于相同的基本架構(gòu)(TPC),只不過是針對兩種工作負載做了優(yōu)化而已。同樣以ResNet50的吞吐量作為比較,在Batch大小為10時,基于Goya的HL-100加速卡可以做到15488張圖片每秒的吞吐量,更吃驚的是其延遲可以做到0.8ms。對于延遲敏感型應(yīng)用來說,Goya很可能就是最佳的選擇。

不過HL-100的TPC還只是基于臺積電的16nm工藝而已,而基于更先進的工藝的TPC和HL-200系列遲遲沒有消息公布。不知是不是Habana打算在新產(chǎn)品上直接用上英特爾的工藝。

孰優(yōu)孰劣?還是取決于生態(tài)和市場選擇

要想對比這三家AI推理加速器的性能著實有些困難,且不說三者在規(guī)模和功耗上的不同,所用系統(tǒng)、軟件、模型、數(shù)據(jù)集和測試環(huán)境也都是各不一樣。那么對于AI開發(fā)者來說,應(yīng)該如何選擇呢?我們不妨從市場和生態(tài)的角度來看。

首先是市場的主流選擇,無疑目前市面應(yīng)用占比最多的還是英偉達旗下的加速器,這在數(shù)據(jù)中心和超算等場景中都能看出來,無論是訓(xùn)練還是推理,云服務(wù)廠商推出最多的旗艦實例基本都是基于英偉達的A100、A30等GPU,在其TensorRT推理框架的大力推動下,英偉達占據(jù)了絕對的主導(dǎo)位置。然而作為通用方案,英偉達的A100在總體性能上雖然不錯,但泛用性還是無法覆蓋到一些特定的應(yīng)用。比如主打超低延遲或超高吞吐量的場景,可能還是不如FPGA或推理專用ASIC給到的吸引力高,更不用說這些方案在成本上的優(yōu)勢了。

反觀Xilinx的VCK5000,單純比算力的話,F(xiàn)PGA與GPU、ASIC相比優(yōu)勢不大,倒是FPGA的可編程靈活性為開發(fā)帶來了不少便利,可隨時更新和優(yōu)化硬件加速而無需重新設(shè)計硬件。但不少AI開發(fā)者可能看到Xilinx這個大名就望而生畏,紛紛表示自己一個深度學(xué)習(xí)“煉丹師”,可不想學(xué)Verilog之類的RTL編程設(shè)計。這也是為何英特爾和Xilinx等FPGA廠商近年來開始在軟件上發(fā)力的原因,像Xilinx Vitis這樣的統(tǒng)一軟件,可以說給了一個面向全平臺開發(fā)者的方案,直接支持到Pytorch和TensorFlow這些主流的框架和模型。

至于Habana的Goya這種產(chǎn)品形式,其實是目前不少初創(chuàng)公司走的路線。與以上GPU和FPGA方案相比,他們在軟件開發(fā)上要花費更多的心力,所以不少初創(chuàng)企業(yè)的AI加速器支持的框架和模型都不是太多,支持的程度也尚未完善。至于市場反響來看,Goya也不比Habana的Gaudi訓(xùn)練加速器,后者已經(jīng)有了基于該硬件的AWS實例,而Goya目前已知的應(yīng)用還是超算。未來Goya面向的,可能還是比較“?!钡膱鼍?。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1645

    文章

    22034

    瀏覽量

    617998
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4937

    瀏覽量

    131179
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35041

    瀏覽量

    279194
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI推理的存儲,看好SRAM?

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)近幾年,生成式AI引領(lǐng)行業(yè)變革,AI訓(xùn)練率先崛起,帶動高帶寬內(nèi)存HBM一飛沖天。但我們知道AI推理的廣泛應(yīng)用才能推動A
    的頭像 發(fā)表于 03-03 08:51 ?1665次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲,看好SRAM?

    邊緣AI盒子技術(shù)解析:ASIC/FPGA/GPU芯片及邊緣-云端協(xié)同與自適應(yīng)推理

    ? 電子發(fā)燒友網(wǎng)綜合報道 邊緣AI盒子是一種集成了高性能芯片、AI算法和數(shù)據(jù)處理能力的硬件設(shè)備,部署在數(shù)據(jù)源的邊緣側(cè),如工廠、商場、交通路口等,能在本地進行數(shù)據(jù)采集、預(yù)處理、分析和決策,無需將所有
    的頭像 發(fā)表于 07-13 08:25 ?941次閱讀

    無法調(diào)用GPU插件推理的遠程張量API怎么解決?

    運行了使用 GPU 插件的遠程張量 API 的推理。但是,它未能共享 OpenCL* 內(nèi)存,但結(jié)果不正確。
    發(fā)表于 03-06 06:13

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測......

    ASIC、GPU)與FPGA的協(xié)同工作模式,例如通過芯片合封或系統(tǒng)集成,實現(xiàn)高性能的AI推理。 3.利用
    發(fā)表于 03-03 11:21

    AI推理帶火的ASIC,開發(fā)成敗在此一舉!

    的應(yīng)用性價比遠超GPU,加上博通財報AI業(yè)務(wù)同比大增220%,掀起了AI推理端的ASIC熱潮。 ? 那么
    的頭像 發(fā)表于 03-03 00:13 ?3266次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>帶火的<b class='flag-5'>ASIC</b>,開發(fā)成敗在此一舉!

    當(dāng)我問DeepSeek AI爆發(fā)時代的FPGA是否重要?答案是......

    資源浪費。例如,在深度學(xué)習(xí)模型推理階段,FPGA可以針對特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行硬件加速,提高推理速度。 3.支持邊緣計算與實時應(yīng)用 ? 邊緣計算:隨著物聯(lián)網(wǎng)的發(fā)展,越來越多的AI任務(wù)需
    發(fā)表于 02-19 13:55

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?703次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    FPGA+GPU+CPU國產(chǎn)化人工智能平臺

    算法架構(gòu)可快速移植,接口靈活搭配,具備部署靈活、功耗和算力性價比高、支持人工智能推理應(yīng)用部署等特點。FPGA+GPU+CPU多核異構(gòu)平臺架構(gòu)示意圖前面板實物圖前面板
    的頭像 發(fā)表于 01-07 16:42 ?1075次閱讀
    <b class='flag-5'>FPGA+GPU</b>+CPU國產(chǎn)化人工智能平臺

    Neuchips展示大模型推理ASIC芯片

    領(lǐng)先的AI專用集成電路(ASIC)解決方案提供商Neuchips在CES 2024上展示了其革命性的Raptor Gen AI加速芯片(以前稱為N3000)和Evo PCIe加速卡LLM解決方案
    的頭像 發(fā)表于 01-06 17:30 ?751次閱讀

    ASICGPU的原理和優(yōu)勢

    ? 本文介紹了ASICGPU兩種能夠用于AI計算的半導(dǎo)體芯片各自的原理和優(yōu)勢。 ASICGPU是什么
    的頭像 發(fā)表于 01-06 13:58 ?1723次閱讀
    <b class='flag-5'>ASIC</b>和<b class='flag-5'>GPU</b>的原理和優(yōu)勢

    ASIC爆火!大廠AI訓(xùn)練推理拋棄GPU;博通的護城河有多深?

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)在上周末,博通應(yīng)該可以說是投資圈和科技圈最火爆的話題,大家紛紛驚呼“英偉達的對手終于出現(xiàn)了!”“ASIC要超越GPU”云云。 ? 這一切都要源于上周五博通公布的炸裂財報
    的頭像 發(fā)表于 12-18 01:25 ?3096次閱讀

    FPGAASIC的區(qū)別 FPGA性能優(yōu)化技巧

    FPGAASIC的區(qū)別 FPGA(現(xiàn)場可編程門陣列)和ASIC(專用集成電路)是兩種不同的集成電路技術(shù),它們在多個方面存在顯著的區(qū)別: FPGA
    的頭像 發(fā)表于 12-02 09:51 ?1025次閱讀

    FPGAASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGAASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經(jīng)有了專門做推理
    的頭像 發(fā)表于 10-29 14:12 ?1987次閱讀
    <b class='flag-5'>FPGA</b>和<b class='flag-5'>ASIC</b>在大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

    FPGAASIC的優(yōu)缺點比較

    FPGA(現(xiàn)場可編程門陣列)與ASIC(專用集成電路)是兩種不同的硬件實現(xiàn)方式,各自具有獨特的優(yōu)缺點。以下是對兩者優(yōu)缺點的比較: FPGA的優(yōu)點 可編程性強 :FPGA具有高度的可編程
    的頭像 發(fā)表于 10-25 09:24 ?1693次閱讀

    什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢是什么?

    AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGAASIC等加速芯片,利用CPU與加速芯片的組合來滿足高吞吐量互聯(lián)的需求,為自然語言處
    的頭像 發(fā)表于 09-21 11:43 ?2010次閱讀