一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CUDA編程之統(tǒng)一內(nèi)存的介紹

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Mark Harris ? 2022-04-11 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我之前的介紹文章,“ 更容易介紹 CUDA C ++ ”介紹了 CUDA 編程的基本知識(shí),它演示了如何編寫一個(gè)簡(jiǎn)單的程序,在內(nèi)存中分配兩個(gè)可供 GPU 訪問(wèn)的數(shù)字?jǐn)?shù)組,然后將它們加在 GPU 上。為此,我向您介紹了統(tǒng)一內(nèi)存,這使得分配和訪問(wèn)系統(tǒng)中任何處理器上運(yùn)行的代碼都可以使用的數(shù)據(jù)變得非常容易, CPU 或 GPU 。

圖 1 。統(tǒng)一內(nèi)存是可從系統(tǒng)中的任何處理器訪問(wèn)的單個(gè)內(nèi)存地址空間。

我以幾個(gè)簡(jiǎn)單的“練習(xí)”結(jié)束了這篇文章,其中一個(gè)練習(xí)鼓勵(lì)您運(yùn)行最近基于 Pascal 的 GPU ,看看會(huì)發(fā)生什么。(我希望讀者能嘗試一下并對(duì)結(jié)果發(fā)表評(píng)論,你們中的一些人也這樣做了?。?。我建議這樣做有兩個(gè)原因。首先,因?yàn)?PascalMIG 如 NVIDIA Titan X 和 NVIDIA Tesla P100 是第一個(gè)包含頁(yè) GPUs 定額引擎的 GPUs ,它是統(tǒng)一內(nèi)存頁(yè)錯(cuò)誤處理和 MIG 比率的硬件支持。第二個(gè)原因是它提供了一個(gè)很好的機(jī)會(huì)來(lái)學(xué)習(xí)更多的統(tǒng)一內(nèi)存。

快 GPU ,快內(nèi)存…對(duì)嗎?

正確的!但讓我們看看。首先,我將重新打印在兩個(gè) NVIDIA 開(kāi)普勒 GPUs 上運(yùn)行的結(jié)果(一個(gè)在我的筆記本電腦上,一個(gè)在服務(wù)器上)。

現(xiàn)在讓我們嘗試在一個(gè)非??斓?Tesla P100 加速器上運(yùn)行,它基于 pascalgp100GPU 。

> nvprof ./add_grid ... Time(%) Time Calls Avg Min Max Name 100.00% 2.1192ms 1 2.1192ms 2.1192ms 2.1192ms add(int, float*, float*)

嗯,這低于 6gb / s :比在我的筆記本電腦基于開(kāi)普勒的 GeForceGPU 上運(yùn)行慢。不過(guò),別灰心,我們可以解決這個(gè)問(wèn)題的。為了理解這一點(diǎn),我將告訴你更多關(guān)于統(tǒng)一內(nèi)存的信息。

下面是要添加的完整代碼,以供參考_網(wǎng)格. cu 從上次開(kāi)始。

#include  #include  // CUDA kernel to add elements of two arrays __global__ void add(int n, float *x, float *y) { int index = blockIdx.x * blockDim.x + threadIdx.x; int stride = blockDim.x * gridDim.x; for (int i = index; i < n; i += stride) y[i] = x[i] + y[i]; } int main(void) { int N = 1<<20; float *x, *y; // Allocate Unified Memory -- accessible from CPU or GPU cudaMallocManaged(&x, N*sizeof(float)); cudaMallocManaged(&y, N*sizeof(float)); // initialize x and y arrays on the host for (int i = 0; i < N; i++) { x[i] = 1.0f; y[i] = 2.0f; } // Launch kernel on 1M elements on the GPU int blockSize = 256; int numBlocks = (N + blockSize - 1) / blockSize; add<<>>(N, x, y); // Wait for GPU to finish before accessing on host cudaDeviceSynchronize(); // Check for errors (all values should be 3.0f) float maxError = 0.0f; for (int i = 0; i < N; i++) maxError = fmax(maxError, fabs(y[i]-3.0f)); std::cout << "Max error: " << maxError << std::endl; // Free memory cudaFree(x); cudaFree(y); return 0; }

對(duì) 27-19 行的內(nèi)存進(jìn)行初始化。

什么是統(tǒng)一內(nèi)存?

統(tǒng)一內(nèi)存是可從系統(tǒng)中的任何處理器訪問(wèn)的單個(gè)內(nèi)存地址空間(請(qǐng)參見(jiàn)圖 1 )。這種硬件/軟件技術(shù)允許應(yīng)用程序分配可以從 CPU s 或 GPUs 上運(yùn)行的代碼讀取或?qū)懭氲臄?shù)據(jù)。分配統(tǒng)一內(nèi)存非常簡(jiǎn)單,只需將對(duì)malloc()new的調(diào)用替換為對(duì)cudaMallocManaged()的調(diào)用,這是一個(gè)分配函數(shù),返回可從任何處理器訪問(wèn)的指針(以下為ptr)。

cudaError_t cudaMallocManaged(void** ptr, size_t size);

當(dāng)在 CPU 或 GPU 上運(yùn)行的代碼訪問(wèn)以這種方式分配的數(shù)據(jù)(通常稱為 CUDA 管理 數(shù)據(jù)), CUDA 系統(tǒng)軟件和/或硬件負(fù)責(zé)將 MIG 額定內(nèi)存頁(yè)分配給訪問(wèn)處理器的內(nèi)存。這里重要的一點(diǎn)是, PascalGPU 體系結(jié)構(gòu)是第一個(gè)通過(guò)頁(yè)面 MIG 比率引擎對(duì)虛擬內(nèi)存頁(yè)錯(cuò)誤處理和 MIG 比率提供硬件支持的架構(gòu)。基于更舊的 kezbr 架構(gòu)和更為統(tǒng)一的 kezbr 形式的支持。

當(dāng)我打電話給cudaMallocManaged()時(shí),開(kāi)普勒會(huì)發(fā)生什么?

在具有 pre-PascalGPUs 的系統(tǒng)上,如 Tesla K80 ,調(diào)用 cudaMallocManaged() 會(huì)分配 size 字節(jié)的托管內(nèi)存 在 GPU 設(shè)備上 ,該內(nèi)存在調(diào)用 1 時(shí)處于活動(dòng)狀態(tài)。在內(nèi)部,驅(qū)動(dòng)程序還為分配覆蓋的所有頁(yè)面設(shè)置頁(yè)表?xiàng)l目,以便系統(tǒng)知道這些頁(yè)駐留在 GPU 上。

所以,在我們的例子中,在 Tesla K80GPU (開(kāi)普勒架構(gòu))上運(yùn)行, x 和 y 最初都完全駐留在 GPU 內(nèi)存中。然后在第 6 行開(kāi)始的循環(huán)中, CPU 逐步遍歷兩個(gè)數(shù)組,分別將它們的元素初始化為 1.0f 和 2.0f 。由于這些頁(yè)最初駐留在設(shè)備存儲(chǔ)器中,所以它寫入的每個(gè)數(shù)組頁(yè)的 CPU 上都會(huì)發(fā)生一個(gè)頁(yè)錯(cuò)誤, GPU 驅(qū)動(dòng)程序 MIG 會(huì)將設(shè)備內(nèi)存中的頁(yè)面分配給 CPU 內(nèi)存。循環(huán)之后,兩個(gè)數(shù)組的所有頁(yè)都駐留在 CPU 內(nèi)存中。

在初始化 CPU 上的數(shù)據(jù)之后,程序啟動(dòng) add() 內(nèi)核,將 x 的元素添加到 y 的元素中。

add<<<1, 256>>>(N, x, y);

在 pre-PascalGPUs 上,啟動(dòng)一個(gè)內(nèi)核后, CUDA 運(yùn)行時(shí)必須 MIG 將以前 MIG 額定為主機(jī)內(nèi)存或另一個(gè) GPU 的所有頁(yè)面重新評(píng)級(jí)到運(yùn)行內(nèi)核 2 的設(shè)備內(nèi)存。由于這些舊的 GPUs 不能出現(xiàn)分頁(yè)錯(cuò)誤,所有數(shù)據(jù)都必須駐留在 GPU 以防萬(wàn)一 上,內(nèi)核訪問(wèn)它(即使它不會(huì)訪問(wèn))。這意味著每次啟動(dòng)內(nèi)核時(shí)都可能存在 MIG 定額開(kāi)銷。

當(dāng)我在 K80 或 macbookpro 上運(yùn)行程序時(shí),就會(huì)發(fā)生這種情況。但是請(qǐng)注意,探查器顯示的內(nèi)核運(yùn)行時(shí)間與 MIG 定額時(shí)間是分開(kāi)的,因?yàn)?MIG 定額發(fā)生在內(nèi)核運(yùn)行之前。

==15638== Profiling application: ./add_grid ==15638== Profiling result: Time(%) Time Calls Avg Min Max Name 100.00% 93.471us 1 93.471us 93.471us 93.471us add(int, float*, float*) ==15638== Unified Memory profiling result: Device "Tesla K80 (0)" Count Avg Size Min Size Max Size Total Size Total Time Name 6 1.3333MB 896.00KB 2.0000MB 8.000000MB 1.154720ms Host To Device 102 120.47KB 4.0000KB 0.9961MB 12.00000MB 1.895040ms Device To Host Total CPU Page faults: 51

當(dāng)我調(diào)用cudaMallocManaged()時(shí), Pascal 上會(huì)發(fā)生什么?

在 Pascal 和更高版本的 GPUs 上, cudaMallocManaged() 返回時(shí)可能不會(huì)物理分配托管內(nèi)存;它只能在訪問(wèn)(或預(yù)?。r(shí)填充。換言之,在 GPU 或 CPU 訪問(wèn)頁(yè)和頁(yè)表項(xiàng)之前,可能無(wú)法創(chuàng)建它們。頁(yè)面可以在任何時(shí)候?qū)θ魏翁幚砥鞯膬?nèi)存進(jìn)行 cudaMemPrefetchAsync() 速率,驅(qū)動(dòng)程序使用啟發(fā)式來(lái)維護(hù)數(shù)據(jù)的局部性并防止過(guò)多的頁(yè)面錯(cuò)誤 3 。(注意:應(yīng)用程序可以使用 cudaMemAdvise() 指導(dǎo)驅(qū)動(dòng)程序,并使用 MIG 顯式地 MIG 對(duì)內(nèi)存進(jìn)行速率調(diào)整,如 這篇博文描述了 )。

與 pre-PascalGPUs 不同, Tesla P100 支持硬件頁(yè)錯(cuò)誤和 MIG 比率。所以在這種情況下,運(yùn)行庫(kù)在運(yùn)行內(nèi)核之前不會(huì)自動(dòng)將 全部的 頁(yè)面復(fù)制回 GPU 。內(nèi)核在沒(méi)有任何 MIG 定額開(kāi)銷的情況下啟動(dòng),當(dāng)它訪問(wèn)任何缺失的頁(yè)時(shí), GPU 會(huì)暫停訪問(wèn)線程的執(zhí)行,頁(yè)面 MIG 定額引擎 MIG 會(huì)在恢復(fù)線程之前對(duì)設(shè)備的頁(yè)面進(jìn)行評(píng)級(jí)。

這意味著當(dāng)我在 Tesla P100 ( 2 。 1192ms )上運(yùn)行程序時(shí), MIG 定額的成本包含在內(nèi)核運(yùn)行時(shí)中。在這個(gè)內(nèi)核中,數(shù)組中的每一頁(yè)都由 CPU 寫入,然后由 GPU 上的 CUDA 內(nèi)核訪問(wèn),導(dǎo)致內(nèi)核等待大量的頁(yè) MIG 配額。這就是為什么分析器在像 Tesla P100 這樣的 PascalGPU 上測(cè)量的內(nèi)核時(shí)間更長(zhǎng)。讓我們看看 P100 上程序的完整 nvprof 輸出。

==19278== Profiling application: ./add_grid ==19278== Profiling result: Time(%) Time Calls Avg Min Max Name 100.00% 2.1192ms 1 2.1192ms 2.1192ms 2.1192ms add(int, float*, float*) ==19278== Unified Memory profiling result: Device "Tesla P100-PCIE-16GB (0)" Count Avg Size Min Size Max Size Total Size Total Time Name 146 56.109KB 4.0000KB 988.00KB 8.000000MB 860.5760us Host To Device 24 170.67KB 4.0000KB 0.9961MB 4.000000MB 339.5520us Device To Host 12 - - - - 1.067526ms GPU Page fault groups Total CPU Page faults: 36

如您所見(jiàn),存在許多主機(jī)到設(shè)備頁(yè)面錯(cuò)誤,降低了 CUDA 內(nèi)核的吞吐量。

我該怎么辦?

在實(shí)際應(yīng)用中, GPU 可能會(huì)在數(shù)據(jù)上執(zhí)行更多的計(jì)算(可能多次),而不需要 CPU 來(lái)接觸它。這個(gè)簡(jiǎn)單代碼中的 MIG 定額開(kāi)銷是由于 CPU 初始化數(shù)據(jù), GPU 只使用一次。有幾種不同的方法可以消除或更改 MIG 比率開(kāi)銷,從而更準(zhǔn)確地測(cè)量 vector add 內(nèi)核的性能。

將數(shù)據(jù)初始化移動(dòng)到另一個(gè) CUDA 內(nèi)核中的 GPU 。

多次運(yùn)行內(nèi)核,查看平均和最小運(yùn)行時(shí)間。

在運(yùn)行內(nèi)核之前,將數(shù)據(jù)預(yù)取到 GPU 內(nèi)存。

我們來(lái)看看這三種方法。

初始化內(nèi)核中的數(shù)據(jù)

如果我們將初始化從 CPU 移到 GPU ,則add內(nèi)核不會(huì)出現(xiàn)頁(yè)面錯(cuò)誤。這里有一個(gè)簡(jiǎn)單的 CUDA C ++內(nèi)核來(lái)初始化數(shù)據(jù)。我們可以用啟動(dòng)這個(gè)內(nèi)核來(lái)替換初始化xy的主機(jī)代碼。

__global__ void init(int n, float *x, float *y) { int index = threadIdx.x + blockIdx.x * blockDim.x; int stride = blockDim.x * gridDim.x; for (int i = index; i < n; i += stride) { x[i] = 1.0f; y[i] = 2.0f; } }

當(dāng)我這樣做時(shí),我在 Tesla P100GPU 的配置文件中看到兩個(gè)內(nèi)核:

==44292== Profiling application: ./add_grid_init ==44292== Profiling result: Time(%) Time Calls Avg Min Max Name 98.06% 1.3018ms 1 1.3018ms 1.3018ms 1.3018ms init(int, float*, float*) 1.94% 25.792us 1 25.792us 25.792us 25.792us add(int, float*, float*) ==44292== Unified Memory profiling result: Device "Tesla P100-PCIE-16GB (0)" Count Avg Size Min Size Max Size Total Size Total Time Name 24 170.67KB 4.0000KB 0.9961MB 4.000000MB 344.2880us Device To Host 16 - - - - 551.9940us GPU Page fault groups Total CPU Page faults: 12

add內(nèi)核現(xiàn)在運(yùn)行得更快: 25 . 8us ,相當(dāng)于接近 500gb / s 。

帶寬=字節(jié)/秒=( 3 * 4194304 字節(jié)* 1e-9 字節(jié)/ GB )/ 25 . 8e-6s = 488 [UNK] GB / s

(要了解如何計(jì)算理論帶寬和實(shí)現(xiàn)的帶寬,請(qǐng)參閱這個(gè)帖子。)仍然存在設(shè)備到主機(jī)頁(yè)錯(cuò)誤,但這是由于在程序末尾檢查 CPU 結(jié)果的循環(huán)造成的。

運(yùn)行多次

另一種方法是只運(yùn)行內(nèi)核多次,并查看探查器中的平均時(shí)間。為此,我需要修改錯(cuò)誤檢查代碼,以便正確報(bào)告結(jié)果。以下是在 Tesla P100 上 100 次運(yùn)行內(nèi)核的結(jié)果:

==48760== Profiling application: ./add_grid_many ==48760== Profiling result: Time(%) Time Calls Avg Min Max Name 100.00% 4.5526ms 100 45.526us 24.479us 2.0616ms add(int, float*, float*) ==48760== Unified Memory profiling result: Device "Tesla P100-PCIE-16GB (0)" Count Avg Size Min Size Max Size Total Size Total Time Name 174 47.080KB 4.0000KB 0.9844MB 8.000000MB 829.2480us Host To Device 24 170.67KB 4.0000KB 0.9961MB 4.000000MB 339.7760us Device To Host 14 - - - - 1.008684ms GPU Page fault groups Total CPU Page faults: 36

最短的內(nèi)核運(yùn)行時(shí)間只有 24 . 5 微秒,這意味著它可以獲得超過(guò) 500GB / s 的內(nèi)存帶寬。我還包括了來(lái)自nvprof的統(tǒng)一內(nèi)存分析輸出,它顯示了從主機(jī)到設(shè)備總共 8MB 的頁(yè)面錯(cuò)誤,對(duì)應(yīng)于第一次運(yùn)行add時(shí)通過(guò)頁(yè)面錯(cuò)誤復(fù)制到設(shè)備上的兩個(gè) 4MB 數(shù)組(xy)。

預(yù)取

第三種方法是在初始化后使用統(tǒng)一內(nèi)存預(yù)取將數(shù)據(jù)移動(dòng)到 GPU 。 CUDA 為此提供了cudaMemPrefetchAsync()。我可以在內(nèi)核啟動(dòng)之前添加以下代碼。

 // Prefetch the data to the GPU int device = -1; cudaGetDevice(&device); cudaMemPrefetchAsync(x, N*sizeof(float), device, NULL); cudaMemPrefetchAsync(y, N*sizeof(float), device, NULL); // Run kernel on 1M elements on the GPU int blockSize = 256; int numBlocks = (N + blockSize - 1) / blockSize; saxpy<<>>(N, 1.0f, x, y);

現(xiàn)在當(dāng)我在 Tesla P100 上評(píng)測(cè)時(shí),我得到以下輸出。

==50360== Profiling application: ./add_grid_prefetch ==50360== Profiling result: Time(%) Time Calls Avg Min Max Name 100.00% 26.112us 1 26.112us 26.112us 26.112us add(int, float*, float*) ==50360== Unified Memory profiling result: Device "Tesla P100-PCIE-16GB (0)" Count Avg Size Min Size Max Size Total Size Total Time Name 4 2.0000MB 2.0000MB 2.0000MB 8.000000MB 689.0560us Host To Device 24 170.67KB 4.0000KB 0.9961MB 4.000000MB 346.5600us Device To Host Total CPU Page faults: 36

在這里,您可以看到內(nèi)核只運(yùn)行了一次,運(yùn)行時(shí)間為 26 。 1us ,與前面顯示的 100 次運(yùn)行中最快的一次相似。您還可以看到,不再報(bào)告任何 GPU 頁(yè)錯(cuò)誤,主機(jī)到設(shè)備的傳輸顯示為四個(gè) 2MB 的傳輸,這要?dú)w功于預(yù)取。

現(xiàn)在我們已經(jīng)讓它在 P100 上運(yùn)行得很快,讓我們將它添加到上次的結(jié)果表中。

關(guān)于并發(fā)性的注記

請(qǐng)記住,您的系統(tǒng)有多個(gè)處理器同時(shí)運(yùn)行 CUDA 應(yīng)用程序的部分:一個(gè)或多個(gè) CPU 和一個(gè)或多個(gè) GPUs 。即使在我們這個(gè)簡(jiǎn)單的例子中,也有一個(gè) CPU 線程和一個(gè) GPU 執(zhí)行上下文,因此在訪問(wèn)任何一個(gè)處理器上的托管分配時(shí)都要小心,以確保沒(méi)有競(jìng)爭(zhēng)條件。

從計(jì)算能力低于 6 。 0 的 CPU 和 GPUs 同時(shí)訪問(wèn)托管內(nèi)存是不可能的。這是因?yàn)?pre-Pascal GPUs 缺少硬件頁(yè)面錯(cuò)誤,所以不能保證一致性。在這些 GPUs 上,內(nèi)核運(yùn)行時(shí)從 CPU 訪問(wèn)將導(dǎo)致分段錯(cuò)誤。

在 Pascal 和更高版本的 GPUs 上, CPU 和 GPU 可以同時(shí)訪問(wèn)托管內(nèi)存,因?yàn)樗鼈兌伎梢蕴幚眄?yè)錯(cuò)誤;但是,由應(yīng)用程序開(kāi)發(fā)人員來(lái)確保不存在由同時(shí)訪問(wèn)引起的爭(zhēng)用條件。

在我們的簡(jiǎn)單示例中,我們?cè)趦?nèi)核啟動(dòng)后調(diào)用了 cudaDeviceSynchronize() 。這可以確保內(nèi)核在 CPU 嘗試從托管內(nèi)存指針讀取結(jié)果之前運(yùn)行到完成。否則, CPU 可能會(huì)讀取無(wú)效數(shù)據(jù)(在 Pascal 和更高版本上),或獲得分段錯(cuò)誤(在 pre-Pascal GPUs )。

Pascal 及更高版本上統(tǒng)一內(nèi)存的好處 GPUs

從 PascalGPU 體系結(jié)構(gòu)開(kāi)始,通過(guò) 49 位虛擬尋址和按需分頁(yè) GPU 比率,統(tǒng)一內(nèi)存功能得到了顯著改善。 49 位虛擬地址足以使 GPUs 訪問(wèn)整個(gè)系統(tǒng)內(nèi)存加上系統(tǒng)中所有 GPUs 的內(nèi)存。頁(yè)面 MIG 比率引擎允許 GPU 線程在非駐留內(nèi)存訪問(wèn)時(shí)出現(xiàn)故障,因此系統(tǒng)可以根據(jù)需要從系統(tǒng)中的任何位置對(duì) MIG 的內(nèi)存中的頁(yè)面進(jìn)行 MIG 分級(jí),以實(shí)現(xiàn)高效處理。

允許使用統(tǒng)一內(nèi)存 cudaMallocManaged() 對(duì)統(tǒng)一內(nèi)存進(jìn)行分配。無(wú)論是在一個(gè) GPU 上運(yùn)行還是在多個(gè) GPU 上運(yùn)行,它都不會(huì)對(duì)應(yīng)用程序進(jìn)行任何修改。

另外, Pascal 和 VoltaGPUs 支持系統(tǒng)范圍的原子內(nèi)存操作。這意味著您可以對(duì)系統(tǒng)中任何地方的多個(gè) GPUs 值進(jìn)行原子操作。這對(duì)于編寫高效的 multi-GPU 協(xié)作算法非常有用。

請(qǐng)求分頁(yè)對(duì)于以稀疏模式訪問(wèn)數(shù)據(jù)的應(yīng)用程序尤其有利。在某些應(yīng)用程序中,不知道特定處理器將訪問(wèn)哪些特定內(nèi)存地址。如果沒(méi)有硬件頁(yè)面錯(cuò)誤,應(yīng)用程序只能預(yù)加載整個(gè)陣列,或者承受設(shè)備外訪問(wèn)的高延遲成本(也稱為“零拷貝”)。但是頁(yè)面錯(cuò)誤意味著只有內(nèi)核訪問(wèn)的頁(yè)面需要被 MIG 評(píng)級(jí)。

關(guān)于作者

Mark Harris 是 NVIDIA 杰出的工程師,致力于 RAPIDS 。 Mark 擁有超過(guò) 20 年的 GPUs 軟件開(kāi)發(fā)經(jīng)驗(yàn),從圖形和游戲到基于物理的模擬,到并行算法和高性能計(jì)算。當(dāng)他還是北卡羅來(lái)納大學(xué)的博士生時(shí),他意識(shí)到了一種新生的趨勢(shì),并為此創(chuàng)造了一個(gè)名字: GPGPU (圖形處理單元上的通用計(jì)算)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19885

    瀏覽量

    235072
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4943

    瀏覽量

    131203
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    38

    文章

    3334

    瀏覽量

    59015
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    芯盾時(shí)代助力寧夏銀行統(tǒng)一身份認(rèn)證平臺(tái)建設(shè)

    芯盾時(shí)代中標(biāo)寧夏銀行!芯盾時(shí)代依托自主研發(fā)的用戶身份與訪問(wèn)管理產(chǎn)品,為寧夏銀行建設(shè)統(tǒng)一化、標(biāo)準(zhǔn)化、自動(dòng)化的統(tǒng)一身份認(rèn)證平臺(tái),實(shí)現(xiàn)統(tǒng)一身份管理,統(tǒng)一身份認(rèn)證,
    的頭像 發(fā)表于 07-10 16:33 ?303次閱讀

    HarmonyOS優(yōu)化應(yīng)用內(nèi)存占用問(wèn)題性能優(yōu)化

    ,包括數(shù)字、字符串等。共享對(duì)象傳輸指SharedArrayBuffer支持在多線程之間傳遞,傳遞之后的SharedArrayBuffer對(duì)象和原始的SharedArrayBuffer對(duì)象指向同內(nèi)存
    發(fā)表于 05-21 11:27

    使用NVIDIA CUDA-X庫(kù)加速科學(xué)和工程發(fā)展

    NVIDIA GTC 全球 AI 大會(huì)上宣布,開(kāi)發(fā)者現(xiàn)在可以通過(guò) CUDA-X 與新代超級(jí)芯片架構(gòu)的協(xié)同,實(shí)現(xiàn) CPU 和 GPU 資源間深度自動(dòng)化整合與調(diào)度,相較于傳統(tǒng)加速計(jì)算架構(gòu),該技術(shù)可使計(jì)算工程工具運(yùn)行速度提升至原來(lái)的 11 倍,計(jì)算規(guī)模增加至 5 倍。
    的頭像 發(fā)表于 03-25 15:11 ?691次閱讀

    請(qǐng)問(wèn)DLP6540怎樣編程?

    請(qǐng)問(wèn)DLP6540怎樣編程,怎樣通過(guò)那個(gè)DLP composer來(lái)新建工程,配置各項(xiàng)參數(shù),有參考資料教程之類的么,謝謝
    發(fā)表于 02-21 06:49

    hyper 內(nèi)存,Hyper內(nèi)存:如何監(jiān)控與優(yōu)化hyper-v虛擬機(jī)的內(nèi)存使用

    在日常工作中,我們常常需要處理大量的文件和數(shù)據(jù),這些重復(fù)性任務(wù)不僅耗時(shí)耗力,還容易因疲勞而導(dǎo)致錯(cuò)誤。幸運(yùn)的是,批量管理工具的出現(xiàn)為這問(wèn)題提供了高效的解決方案。今天就為大家介紹Hyper內(nèi)存
    的頭像 發(fā)表于 01-24 14:15 ?1088次閱讀
    hyper <b class='flag-5'>內(nèi)存</b>,Hyper<b class='flag-5'>內(nèi)存</b>:如何監(jiān)控與優(yōu)化hyper-v虛擬機(jī)的<b class='flag-5'>內(nèi)存</b>使用

    Triton編譯器與GPU編程的結(jié)合應(yīng)用

    優(yōu)化,以及生成高效的并行執(zhí)行計(jì)劃。 GPU編程的挑戰(zhàn) GPU編程面臨的主要挑戰(zhàn)包括: 編程復(fù)雜性 :GPU編程需要對(duì)硬件架構(gòu)有深入的理解,包括線程、塊和網(wǎng)格的概念。
    的頭像 發(fā)表于 12-25 09:13 ?824次閱讀

    養(yǎng)成良好的編程習(xí)慣|堆內(nèi)存初值不定是0

    ;} 代碼很簡(jiǎn)單,使用 malloc 申請(qǐng)段堆內(nèi)存,假設(shè)內(nèi)存空間足夠大。 通過(guò) getchar 配合 while 循環(huán),從標(biāo)準(zhǔn)輸入獲取個(gè)字符串,直到遇到換行符結(jié)束。 最后就是把獲取
    的頭像 發(fā)表于 12-18 09:14 ?369次閱讀

    DDR內(nèi)存的工作原理與結(jié)構(gòu)

    電子設(shè)備的內(nèi)存技術(shù)。以下是對(duì)DDR內(nèi)存的工作原理與結(jié)構(gòu)的介紹、工作原理 時(shí)鐘同步 :DDR內(nèi)存是同步的,這意味著數(shù)據(jù)傳輸與系統(tǒng)時(shí)鐘同步
    的頭像 發(fā)表于 11-20 14:32 ?2468次閱讀

    CNC系統(tǒng)一般可用幾種編程語(yǔ)言

    。CNC系統(tǒng)廣泛應(yīng)用于機(jī)械制造、汽車制造、航空航天等領(lǐng)域。  CNC系統(tǒng)的編程語(yǔ)言是實(shí)現(xiàn)CNC系統(tǒng)控制功能的關(guān)鍵技術(shù)之。以下是對(duì)CNC系統(tǒng)可用編程語(yǔ)言的詳細(xì)介紹:  G代碼(G-co
    的頭像 發(fā)表于 10-23 15:52 ?1498次閱讀

    有沒(méi)有大佬知道NI vision 有沒(méi)有辦法通過(guò)gpu和cuda來(lái)加速圖像處理

    有沒(méi)有大佬知道NI vision 有沒(méi)有辦法通過(guò)gpu和cuda來(lái)加速圖像處理
    發(fā)表于 10-20 09:14

    怎么在TMDSEVM6678: 6678自帶的FFT接口和CUDA提供CUFFT函數(shù)庫(kù)選擇?

    請(qǐng)教下gpgpu上包括4個(gè)Riscv cpu和個(gè)DPU, 沒(méi)有6678,要替換原來(lái)信號(hào)處理用的6678,該怎么在6678自帶的FFT接口和CUDA提供CUFFT函數(shù)庫(kù)選擇?
    發(fā)表于 09-27 07:20

    反射內(nèi)存卡工作環(huán)境介紹

    電子發(fā)燒友網(wǎng)站提供《反射內(nèi)存卡工作環(huán)境介紹.docx》資料免費(fèi)下載
    發(fā)表于 09-14 09:17 ?0次下載

    統(tǒng)一多云管理平臺(tái)怎么用?

     統(tǒng)一多云管理平臺(tái)的使用主要涉及資源納管、費(fèi)用控制和智能運(yùn)維等方面。統(tǒng)一多云管理平臺(tái)是種能夠同時(shí)管理多種公有云、私有云以及傳統(tǒng)IT環(huán)境的資源,并實(shí)現(xiàn)自動(dòng)化和服務(wù)化交付的工具。它為企業(yè)提供了強(qiáng)大
    的頭像 發(fā)表于 08-14 11:28 ?473次閱讀

    打破英偉達(dá)CUDA壁壘?AMD顯卡現(xiàn)在也能無(wú)縫適配CUDA

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)直以來(lái),圍繞CUDA打造的軟件生態(tài),是英偉達(dá)在GPU領(lǐng)域最大的護(hù)城河,尤其是隨著目前AI領(lǐng)域的發(fā)展加速,市場(chǎng)火爆,英偉達(dá)GPU+CUDA的開(kāi)發(fā)生態(tài)則更加穩(wěn)固,AMD
    的頭像 發(fā)表于 07-19 00:16 ?5931次閱讀

    英國(guó)公司實(shí)現(xiàn)英偉達(dá)CUDA軟件在AMD GPU上的無(wú)縫運(yùn)行

    7月18日最新資訊,英國(guó)創(chuàng)新科技企業(yè)Spectral Compute震撼發(fā)布了其革命性GPGPU編程工具包——“SCALE”,該工具包實(shí)現(xiàn)了英偉達(dá)CUDA軟件在AMD GPU上的無(wú)縫遷移與運(yùn)行,標(biāo)志著在GPU計(jì)算領(lǐng)域,NVIDIA長(zhǎng)期以來(lái)的市場(chǎng)壟斷地位或?qū)⒂瓉?lái)重大挑戰(zhàn)。
    的頭像 發(fā)表于 07-18 14:40 ?1093次閱讀