一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是CUDA?誰(shuí)能打破CUDA的護(hù)城河?

Linelayout ? 來(lái)源:半導(dǎo)體產(chǎn)業(yè)洞察 ? 2023-12-28 10:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在最近的一場(chǎng)“AI Everywhere”發(fā)布會(huì)上,Intel的CEO Pat Gelsinger炮轟Nvidia的CUDA生態(tài)護(hù)城河并不深,而且已經(jīng)成為行業(yè)的眾矢之的。Gelsinger稱(chēng),“整個(gè)行業(yè)都希望能干掉CUDA,包括Google、OpenAI等公司都在想方設(shè)法讓人工智能訓(xùn)練更加開(kāi)放。我們認(rèn)為CUDA的護(hù)城河既淺又窄?!?/p>

Gelsinger的這番話(huà)確實(shí)道出了整個(gè)人工智能行業(yè)對(duì)于Nvidia的CUDA又愛(ài)又恨的情緒;一方面,由于有了CUDA生態(tài),人工智能算法的訓(xùn)練和部署從硬件層角度變得容易,人工智能工程師無(wú)需成為芯片專(zhuān)家,也能夠讓人工智能訓(xùn)練高效地運(yùn)行在Nvidia的GPU上。而從另一個(gè)角度,整個(gè)業(yè)界也過(guò)于依賴(lài)CUDA,以至于不少主打人工智能公司都對(duì)于CUDA的過(guò)度依賴(lài)產(chǎn)生了警惕性,這也就是Gelsinger所說(shuō)的Google、OpenAI等公司都在設(shè)法研制自己的相應(yīng)解決方案(例如OpenAI的Triton)。本文將深入分析CUDA的強(qiáng)勢(shì)到底來(lái)源于哪里,以及究竟誰(shuí)能打破CUDA壟斷。

什么是CUDA?

首先,我們先分析一下CUDA的來(lái)龍去脈。當(dāng)我們?cè)谡務(wù)摗癈UDA”的時(shí)候,我們究竟在談?wù)撌裁??事?shí)上,我們認(rèn)為,CUDA包含三個(gè)層次。

首先,CUDA是一套編程語(yǔ)言。最初,3D圖像加速卡的主要任務(wù)是加速3D圖像的渲染,其用途相當(dāng)專(zhuān)一。在本世紀(jì)初,Nvidia推出了GPU的概念以允許用戶(hù)使用圖像加速卡去做通用計(jì)算,并且在大約十五年前推出了相應(yīng)的CUDA編程語(yǔ)言,其主要任務(wù)是提供GPU的編程模型,從而實(shí)現(xiàn)通用GPU編程。在CUDA編程語(yǔ)言中,Nvidia提供了GPU的各種硬件抽象,例如基于線(xiàn)程的并行計(jì)算、內(nèi)存存取等概念,從而為GPU編程提供了方便。

除了編程語(yǔ)言之外,CUDA的第二層含義是一套高性能編譯系統(tǒng)。在使用CUDA編程之后,還需要把用CUDA語(yǔ)言編寫(xiě)的程序使用CUDA編譯器針對(duì)相應(yīng)硬件優(yōu)化并且映射到更底層的硬件指令(對(duì)于Nvidia顯卡來(lái)說(shuō)就是PTX)。CUDA的編譯器和GPU硬件的整合效率相當(dāng)高,因此能編譯出非常高效的底層指令,這也是CUDA的另一個(gè)核心組成部分。

最后,CUDA的第三層是含義是Nvidia基于CUDA語(yǔ)言的一系列高性能函數(shù)庫(kù),以及人工智能/高性能計(jì)算社區(qū)基于CUDA語(yǔ)言開(kāi)發(fā)的一系列代碼庫(kù)。例如,CUDA的常用高性能函數(shù)庫(kù)包括用于線(xiàn)性計(jì)算的cuBLAS和CUTLASS,用于稀疏矩陣計(jì)算的cuSPARSE,用于傅立葉變幻的cuFFT,用于數(shù)值求解的cuSOLVER等。這些函數(shù)庫(kù)的發(fā)展至今已經(jīng)歷經(jīng)了十余年的努力,其優(yōu)化幾乎已經(jīng)做到了極致。另外,人工智能社區(qū)也有大量基于CUDA開(kāi)發(fā)的代碼庫(kù),例如Pytorch的默認(rèn)后端就是CUDA。

CUDA每個(gè)層面的護(hù)城河

如上分析可知,CUDA其實(shí)包含了三個(gè)層面:編程語(yǔ)言,編譯器和生態(tài)。那么,CUDA這三個(gè)層面的護(hù)城河究竟在有多高?

首先,從編程語(yǔ)言的角度,事實(shí)上一直有OpenCL等社區(qū)開(kāi)源語(yǔ)言試圖去實(shí)現(xiàn)類(lèi)似(甚至更加廣泛的功能;OpenCL針對(duì)的不只是GPU編程,還包括了FPGA等異構(gòu)計(jì)算體系)的功能,AMD的ROCm平臺(tái)也是試圖做到與CUDA語(yǔ)言等價(jià)。從編程語(yǔ)言角度,CUDA并非不可取代。

其次,從編譯器的角度來(lái)看,CUDA提供的高性能編譯器確實(shí)是一個(gè)很高的護(hù)城河。編譯器的性能從很大程度上決定了用戶(hù)編寫(xiě)的程序在GPU上執(zhí)行的效率;或者換句話(huà)說(shuō),對(duì)于人工智能應(yīng)用來(lái)說(shuō),一個(gè)很直觀的衡量標(biāo)準(zhǔn)就是用戶(hù)編寫(xiě)的人工智能算法,能多大程度上利用GPU的峰值算力?大多數(shù)情況下,峰值算力平均利用率不到50%。另外,編譯器的性能還牽扯到了用戶(hù)調(diào)優(yōu)的過(guò)程。如果用戶(hù)是GPU專(zhuān)家,通過(guò)在編寫(xiě)GPU程序時(shí)進(jìn)行調(diào)優(yōu)(例如使用某種特定的方式去編寫(xiě)語(yǔ)句),也可以很大程度上彌補(bǔ)編譯器的不足(因?yàn)榫幾g器的一個(gè)重要功能就是對(duì)編寫(xiě)的程序做優(yōu)化,那么如果編寫(xiě)的程序已經(jīng)比較優(yōu)化了那么對(duì)編譯器優(yōu)化能力的要求就可以低一些)。

但是,這就牽扯到了用戶(hù)的門(mén)檻,如果編譯器性能不夠好,需要用戶(hù)是專(zhuān)家才能實(shí)現(xiàn)高效率的GPU程序,就會(huì)大大提高用戶(hù)門(mén)檻,即只有擁有一支精英GPU編程專(zhuān)家團(tuán)隊(duì)的公司才能充分發(fā)揮出GPU的性能;相反如果編譯器性能夠好,那么就可以降低用戶(hù)門(mén)檻,讓更多公司和個(gè)人也可以使用GPU高性能運(yùn)行算法。

從這個(gè)角度來(lái)說(shuō),經(jīng)過(guò)十多年的積累,CUDA的編譯器(NVCC)已經(jīng)達(dá)到了相當(dāng)高的水平。最近的另一個(gè)新聞也從側(cè)面印證了編譯器性能的重要性:AMD在12月初的發(fā)布會(huì)上宣布新的MI300X平臺(tái)在運(yùn)行Llama2-70B模型的推理任務(wù)時(shí),比起Nvidia H100 HGX的性能要強(qiáng)1.4倍;一周后,Nvidia回應(yīng)稱(chēng)AMD在編譯測(cè)試時(shí)并沒(méi)有使用合理的設(shè)置,在使用正確設(shè)置后H100 HGX的性能事實(shí)上比MI300X要強(qiáng)1.5倍。由此可見(jiàn),一個(gè)好的編譯器優(yōu)化對(duì)于充分利用GPU的性能可以說(shuō)是至關(guān)重要。

b41a82ae-a4a2-11ee-8b88-92fbcf53809c.png

然而,編譯器的護(hù)城河也并不是高不可破。例如,OpenAI的開(kāi)源Triton編譯器可以同時(shí)兼容Nvidia和AMD以及更多平臺(tái),支持把用戶(hù)使用Python編寫(xiě)的程序直接優(yōu)化編譯到底層硬件指令語(yǔ)言,并且在Nvidia的成熟GPU上實(shí)現(xiàn)和CUDA接近的執(zhí)行效率。如果Triton這樣的開(kāi)源編譯器獲得成功的話(huà),至少?gòu)哪撤N角度上可以省去其他人工智能芯片公司花數(shù)年精力去開(kāi)發(fā)自己的編譯器的需求。

第三個(gè)層面是生態(tài)。目前,CUDA在生態(tài)領(lǐng)域可以說(shuō)是遙遙領(lǐng)先,因?yàn)镃UDA有著十多年的高性能程序庫(kù)的積累,以及基于這些程序庫(kù)上面社區(qū)開(kāi)發(fā)的各種高性能框架代碼。生態(tài)的積累首先需要能提供一個(gè)領(lǐng)先的解決方案——如果其他公司也能提供一個(gè)高性能的編程語(yǔ)言和編譯器方案的話(huà),自然會(huì)有社區(qū)去基于它開(kāi)發(fā)代碼,而經(jīng)過(guò)長(zhǎng)期不懈的積累之后,生態(tài)自然也會(huì)趕上。例如,人工智能領(lǐng)域最流行的框架PyTorch從這兩年開(kāi)始也對(duì)于AMD的ROCm提供了支持,這就是生態(tài)領(lǐng)域的一個(gè)例子。換句話(huà)說(shuō),只要給足夠的時(shí)間和與CUDA語(yǔ)言/編譯器性能接近的方案,生態(tài)自然會(huì)慢慢趕上。

誰(shuí)能打破CUDA的護(hù)城河

之前我們分析了CUDA從三個(gè)層面的護(hù)城河,我們可以發(fā)現(xiàn),Nvidia的CUDA從三個(gè)層面分別來(lái)看,編譯器和生態(tài)的護(hù)城河比較高,但也不是不可超越。我們看到,軟件科技公司之間正在試圖超越這條護(hù)城河,例如OpenAI的Triton編譯器能提供幾乎比肩CUDA的性能,而人工智能編程框架PyTorch的最新版本已經(jīng)在后端集成了Triton,可望在Nvidia已經(jīng)推出的成熟GPU上能實(shí)現(xiàn)很高的性能。

然而,Nvidia CUDA最強(qiáng)的護(hù)城河事實(shí)上在于軟件-芯片協(xié)同設(shè)計(jì)。如前所述,在Nvidia的GPU推出一段時(shí)間之后(例如半年或一年),第三方的軟件公司的方案(例如OpenAI的Triton)在研究透徹這款GPU之后,可以讓自己的方案做到比肩CUDA的水平。這意味著兩點(diǎn):

首先,第三方軟件公司開(kāi)發(fā)編譯器去嘗試匹配CUDA的性能永遠(yuǎn)是一個(gè)追趕的過(guò)程,Nvidia發(fā)布新的GPU和相應(yīng)CUDA版本之后,需要半年到一年的時(shí)間才能實(shí)現(xiàn)性能基本匹配,但是基本難以到達(dá)Nvidia新GPU發(fā)布就立刻實(shí)現(xiàn)性能匹配甚至領(lǐng)先。

其次,芯片公司如果被動(dòng)等待第三方軟件公司的編譯器去適配自己的人工智能加速硬件以追趕Nvidia的話(huà),永遠(yuǎn)無(wú)法打破Nvidia CUDA的領(lǐng)先地位。原因是,第三方軟件公司適配新的人工智能加速硬件需要時(shí)間;而在一年后等到第三方軟件公司的方案達(dá)到接近CUDA的水平的時(shí)候,Nvidia已經(jīng)發(fā)布下一代GPU了。這就陷入了永遠(yuǎn)在追趕過(guò)程中的陷阱,難以打破CUDA護(hù)城河并實(shí)現(xiàn)領(lǐng)先。

因此,能真正打破CUDA護(hù)城河的,必須是有芯片-軟件協(xié)同設(shè)計(jì)能力的團(tuán)隊(duì),而不僅僅是一個(gè)軟件公司。這個(gè)團(tuán)隊(duì)可以是一家擁有強(qiáng)大軟件能力的芯片公司(例如,Nvidia就是這樣的一個(gè)擁有強(qiáng)大芯片-軟件協(xié)同設(shè)計(jì)能得芯片公司的例子),或者是芯片和科技公司的結(jié)合。只有在芯片設(shè)計(jì)過(guò)程中就開(kāi)始編譯器和軟件生態(tài)的適配,才能夠在芯片發(fā)布的初期就能推出芯片性能和軟件性能同時(shí)都比肩Nvidia GPU +CUDA的產(chǎn)品,從而真正打破CUDA的護(hù)城河。

如何在芯片設(shè)計(jì)過(guò)程中就實(shí)現(xiàn)軟硬件協(xié)同設(shè)計(jì)?事實(shí)上,編譯器的設(shè)計(jì)是基于一種編程模型,把硬件抽象為一些不同的層次(例如內(nèi)部并行計(jì)算,內(nèi)存存取等等),并且進(jìn)一步根據(jù)這些硬件抽象去構(gòu)建性能模型,來(lái)實(shí)現(xiàn)性能的預(yù)測(cè)和優(yōu)化。從芯片設(shè)計(jì)的角度,需要能充分理解編譯器層面的這些硬件抽象和性能模型并不會(huì)百分百準(zhǔn)確,因此如何設(shè)計(jì)一個(gè)好的芯片架構(gòu)讓編譯器能夠較為容易地去優(yōu)化程序就很重要。而從編譯器的角度,如前所述每一款芯片的編程模型和硬件抽象層都會(huì)略有不同,因此需要在芯片設(shè)計(jì)周期中就介入開(kāi)始編譯器的優(yōu)化和硬件建模。兩者相結(jié)合,就能實(shí)現(xiàn)在芯片推出時(shí)就同時(shí)有很強(qiáng)的芯片理論性能和高度優(yōu)化的編程語(yǔ)言/編譯器,最終實(shí)現(xiàn)整體解決方案能和Nvidia的GPU+CUDA做有力的競(jìng)爭(zhēng)。

從這個(gè)角度來(lái)看,Google的TPU+XLA就是一個(gè)滿(mǎn)足之前所屬芯片-軟件協(xié)同設(shè)計(jì)的案例。Google的自研TPU過(guò)程中和XLA編譯器通過(guò)軟硬件結(jié)合設(shè)計(jì)實(shí)現(xiàn)整體高性能方案(這也是TPU在MLPerf benchmark上和Nvidia的方案性能接近甚至領(lǐng)先的重要原因)。雖然TPU并不對(duì)第三方銷(xiāo)售因此這個(gè)方案并不會(huì)完全打破Nvidia CUDA的護(hù)城河,但是它至少提供了一個(gè)打破Nvidia CUDA護(hù)城河的技術(shù)方向。從另一個(gè)方面,AMD和Intel等芯片公司在編譯器領(lǐng)域的方案目前還有待加強(qiáng),但是通過(guò)和OpenAI等科技公司合作,通過(guò)在下一代AI產(chǎn)品的設(shè)計(jì)過(guò)程中就和Triton這樣的領(lǐng)先編譯器方案協(xié)同設(shè)計(jì),可望能在未來(lái)追趕Nvidia GPU + CUDA的性能;而在性能接近之后,生態(tài)的培養(yǎng)就只是一個(gè)時(shí)間問(wèn)題了。

綜上,我們認(rèn)為,CUDA雖然是一個(gè)軟件生態(tài),但是如果想要打破CUDA的護(hù)城河,需要的是軟硬件協(xié)同設(shè)計(jì)。








審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    122

    瀏覽量

    14125
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    305

    瀏覽量

    6199
  • 人工智能算法
    +關(guān)注

    關(guān)注

    0

    文章

    62

    瀏覽量

    5547
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    809

    瀏覽量

    13960
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1208

    瀏覽量

    8920

原文標(biāo)題:誰(shuí)能挑戰(zhàn)CUDA?

文章出處:【微信號(hào):IC大家談,微信公眾號(hào):IC大家談】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    國(guó)產(chǎn)GPU再下一城,群起突圍英偉達(dá)+AMD

    上市。 ? 根據(jù)Jon Peddie Research的數(shù)據(jù),獨(dú)立GPU市場(chǎng)英偉達(dá)一家獨(dú)大,近年來(lái)持續(xù)維持超80%的市場(chǎng)份額,而AMD公司則占據(jù)剩余近20%的市場(chǎng)份額。自人工智能市場(chǎng)爆發(fā)式增長(zhǎng)以來(lái),英偉達(dá)憑借優(yōu)越的產(chǎn)品性能和完善的CUDA 生態(tài)筑造了護(hù)城河,領(lǐng)先優(yōu)勢(shì)不斷擴(kuò)
    的頭像 發(fā)表于 07-07 08:59 ?5600次閱讀
    國(guó)產(chǎn)GPU再下一城,群起突圍英偉達(dá)+AMD

    英偉達(dá):CUDA 已經(jīng)開(kāi)始移植到 RISC-V 架構(gòu)上

    ,著重介紹了將 CUDA 移植到 RISC-V 架構(gòu)的相關(guān)工作和計(jì)劃,展現(xiàn)了對(duì) RISC-V 架構(gòu)的高度重視與積極布局。 ? Frans Sijstermanns 首先回顧了英偉達(dá)與 RISC-V 之間
    發(fā)表于 07-17 16:30 ?2959次閱讀

    技術(shù)奠定根基,瑞之辰數(shù)十項(xiàng)專(zhuān)利推動(dòng)產(chǎn)業(yè)創(chuàng)新

    新“小巨人”企業(yè),構(gòu)建起了堅(jiān)實(shí)的技術(shù)壁壘,為國(guó)內(nèi)傳感器產(chǎn)業(yè)高質(zhì)量發(fā)展注入強(qiáng)勁動(dòng)力。專(zhuān)利構(gòu)建技術(shù)護(hù)城河,創(chuàng)新成果彰顯硬實(shí)力作為技術(shù)驅(qū)動(dòng)型企業(yè),瑞之辰在研發(fā)投入上持續(xù)
    的頭像 發(fā)表于 07-16 15:16 ?220次閱讀
    技術(shù)奠定根基,瑞之辰數(shù)十項(xiàng)專(zhuān)利推動(dòng)產(chǎn)業(yè)創(chuàng)新

    進(jìn)迭時(shí)空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實(shí)踐

    Pytorch已能做到100%替換CUDA,國(guó)內(nèi)也有智源研究院主導(dǎo)的FlagGems通用算子庫(kù)試圖構(gòu)建起不依賴(lài)CUDA的AI計(jì)算生態(tài),截至今日,F(xiàn)lagGems已進(jìn)入Pyto
    的頭像 發(fā)表于 07-15 09:04 ?181次閱讀
    進(jìn)迭時(shí)空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實(shí)踐

    NVIDIA攜手Ansys和DCAI推進(jìn)流體動(dòng)力學(xué)量子算法發(fā)展

    為抓住這一機(jī)遇,Ansys 宣布,將利用在 Gefion 超級(jí)計(jì)算機(jī)上運(yùn)行的 NVIDIA CUDA-Q 量子計(jì)算平臺(tái),推進(jìn)流體動(dòng)力學(xué)應(yīng)用的量子算法發(fā)展。
    的頭像 發(fā)表于 06-12 15:28 ?430次閱讀

    使用NVIDIA CUDA-X庫(kù)加速科學(xué)和工程發(fā)展

    NVIDIA GTC 全球 AI 大會(huì)上宣布,開(kāi)發(fā)者現(xiàn)在可以通過(guò) CUDA-X 與新一代超級(jí)芯片架構(gòu)的協(xié)同,實(shí)現(xiàn) CPU 和 GPU 資源間深度自動(dòng)化整合與調(diào)度,相較于傳統(tǒng)加速計(jì)算架構(gòu),該技術(shù)可使計(jì)算工程工具運(yùn)行速度提升至原來(lái)的 11 倍,計(jì)算規(guī)模增加至 5 倍。
    的頭像 發(fā)表于 03-25 15:11 ?700次閱讀

    借助PerfXCloud和dify開(kāi)發(fā)代碼轉(zhuǎn)換器

    隨著深度學(xué)習(xí)與高性能計(jì)算的迅速發(fā)展,GPU計(jì)算的廣泛應(yīng)用已成為推動(dòng)技術(shù)革新的一股重要力量。對(duì)于GPU編程語(yǔ)言的選擇,CUDA和HIP是目前最為流行的兩種選擇。CUDA是由NVIDIA推出的編程平臺(tái)
    的頭像 發(fā)表于 02-25 09:36 ?994次閱讀
    借助PerfXCloud和dify開(kāi)發(fā)代碼轉(zhuǎn)換器

    FacenetPytorch人臉識(shí)別方案--基于米爾全志T527開(kāi)發(fā)板

    https://github.com/pytorch/pytorch # 進(jìn)入 PyTorch 目錄 cd pytorch # 安裝 PyTorch (需要根據(jù)你的需求選擇 CUDA 版本,如果不需要
    發(fā)表于 11-28 15:57

    NVIDIA與谷歌量子AI部門(mén)達(dá)成合作

    NVIDIA CUDA-Q 平臺(tái)使谷歌量子 AI 研究人員能夠?yàn)槠淞孔佑?jì)算機(jī)創(chuàng)建大規(guī)模的數(shù)字模型,以解決設(shè)計(jì)中面臨的各種挑戰(zhàn)
    的頭像 發(fā)表于 11-20 09:39 ?705次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU

    方式可以提高處理器的吞吐量。并行計(jì)算模式(而非圖形模式下)GPGPU的流水線(xiàn)是針對(duì)線(xiàn)程束進(jìn)行管理的,也就是NVIDIA所說(shuō)的 CUDA環(huán)境下的 warp 或者AMD 所說(shuō)的 OpenCL 環(huán)境下
    發(fā)表于 11-03 12:55

    有沒(méi)有大佬知道NI vision 有沒(méi)有辦法通過(guò)gpu和cuda來(lái)加速圖像處理

    有沒(méi)有大佬知道NI vision 有沒(méi)有辦法通過(guò)gpu和cuda來(lái)加速圖像處理
    發(fā)表于 10-20 09:14

    怎么在TMDSEVM6678: 6678自帶的FFT接口和CUDA提供CUFFT函數(shù)庫(kù)選擇?

    請(qǐng)教一下gpgpu上包括4個(gè)Riscv cpu和一個(gè)DPU, 沒(méi)有6678,要替換原來(lái)信號(hào)處理用的6678,該怎么在6678自帶的FFT接口和CUDA提供CUFFT函數(shù)庫(kù)選擇?
    發(fā)表于 09-27 07:20

    打破英偉達(dá)CUDA壁壘?AMD顯卡現(xiàn)在也能無(wú)縫適配CUDA

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)一直以來(lái),圍繞CUDA打造的軟件生態(tài),是英偉達(dá)在GPU領(lǐng)域最大的護(hù)城河,尤其是隨著目前AI領(lǐng)域的發(fā)展加速,市場(chǎng)火爆,英偉達(dá)GPU+CUDA的開(kāi)發(fā)生態(tài)則更加穩(wěn)固,AMD
    的頭像 發(fā)表于 07-19 00:16 ?5945次閱讀

    英國(guó)公司實(shí)現(xiàn)英偉達(dá)CUDA軟件在AMD GPU上的無(wú)縫運(yùn)行

    7月18日最新資訊,英國(guó)創(chuàng)新科技企業(yè)Spectral Compute震撼發(fā)布了其革命性GPGPU編程工具包——“SCALE”,該工具包實(shí)現(xiàn)了英偉達(dá)CUDA軟件在AMD GPU上的無(wú)縫遷移與運(yùn)行,標(biāo)志著在GPU計(jì)算領(lǐng)域,NVIDIA長(zhǎng)期以來(lái)的市場(chǎng)壟斷地位或?qū)⒂瓉?lái)重大挑戰(zhàn)。
    的頭像 發(fā)表于 07-18 14:40 ?1112次閱讀