久久裸体视频黄色一级,欧美巨大娇小91一二三,无码A VAAAAA

隨著科技的發(fā)展，處理大量數(shù)據(jù)和進(jìn)行復(fù)雜計(jì)算的需求越來越高，人工智能、大數(shù)據(jù)和物聯(lián)網(wǎng)等領(lǐng)域更是如此，傳統(tǒng)的計(jì)算方式已經(jīng)無法滿足這些需求。因此，加速計(jì)算作為一種現(xiàn)代計(jì)算方式，成了必要的手段。加速計(jì)算具有前所未有的處理能力，在云基礎(chǔ)設(shè)施中發(fā)揮著核心作用，因?yàn)樗兄诟咝?、更有效地管理?shù)據(jù)中心的海量信息。此外，加速計(jì)算還能提供必要的計(jì)算能力和內(nèi)存，以便更高效地訓(xùn)練和實(shí)施 GPT-4 等高級生成式人工智能模型。這種能力可加快訓(xùn)練時(shí)間、處理大型數(shù)據(jù)集和開發(fā)日益復(fù)雜的模型。

加速計(jì)算利用 GPU、ASIC、TPU 和 FPGA 等專用硬件來執(zhí)行比 CPU 更高效的計(jì)算，從而提高速度和性能。它尤其適用于可并行化的任務(wù)，如高性能計(jì)算、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和人工智能。

加速計(jì)算發(fā)展迅速，各種硬件和軟件解決方案如 GPU、ASIC、TPU、FPGA、CUDA、OpenCL 和網(wǎng)絡(luò)技術(shù)層出不窮。下面我們來深入了解一下加速計(jì)算，就能明白為何它會成為 AI 時(shí)代的計(jì)算力“新寵”。

什么是加速計(jì)算

加速計(jì)算是指使用專用硬件來執(zhí)行某些類型的計(jì)算，其效率要比僅使用通用中央處理器（CPU）高。利用圖形處理單元（GPU）、專用集成電路（ASIC）（包括張量處理單元（TPU））和現(xiàn)場可編程邏輯門陣列（FPGA）等設(shè)備的強(qiáng)大功能，以更高的速度執(zhí)行計(jì)算，從而加速計(jì)算過程，一般我們也將這些設(shè)備稱之為加速器。

這些加速器尤其適用于可被分解為較小并行任務(wù)的項(xiàng)目，如高性能計(jì)算 (HPC)、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、人工智能和大數(shù)據(jù)分析。通過將指定類型的工作分派到這些專用加速計(jì)算硬件上，大大提高了系統(tǒng)的性能和效率。

加速計(jì)算因其高效處理海量數(shù)據(jù)的能力，從而推動了機(jī)器學(xué)習(xí)、AI、實(shí)時(shí)分析和科學(xué)研究的進(jìn)步。加速計(jì)算在圖形、游戲、邊緣計(jì)算和云計(jì)算領(lǐng)域的影響力與日俱增，是數(shù)據(jù)中心等數(shù)字基礎(chǔ)設(shè)施的骨干力量。隨著對更強(qiáng)大應(yīng)用和系統(tǒng)的需求日益增長，傳統(tǒng)的 CPU 方法難以與加速計(jì)算競爭，而加速計(jì)算可提供更快、更具成本效益的性能升級。

加速計(jì)算解決方案

加速計(jì)算解決方案涉及硬件、軟件和網(wǎng)絡(luò)的結(jié)合。這些解決方案專門用于提高復(fù)雜計(jì)算任務(wù)的速度和效率。

硬件

硬件加速器是加速計(jì)算的基礎(chǔ)，這些加速器包括圖形處理器 (GPU)、專用集成電路 (ASIC) 和現(xiàn)場可編程門陣列 (FPGA)。

GPU

圖形處理器（GPU）廣泛用于各種計(jì)算密集型任務(wù)，其優(yōu)勢在于可以同時(shí)執(zhí)行許多復(fù)雜的計(jì)算，因此非常適合高性能計(jì)算（HPC）和機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練等任務(wù)。

英偉達(dá)公司數(shù)據(jù)中心和計(jì)算密集型任務(wù)（機(jī)器學(xué)習(xí)、人工智能）的 GPU 市場上處于領(lǐng)先地位。該公司用于數(shù)據(jù)中心的主要 GPU 架構(gòu)包括 Hopper (H100) 和 Ampere (A100)。值得一提的是，H100 GPU 非常適合加速涉及大型語言模型 (LLM)、深度推薦系統(tǒng)、基因?qū)W和復(fù)雜數(shù)字孿生的應(yīng)用。

應(yīng)用型專用集成電路 ASIC

應(yīng)用型專用集成電路（ASIC）是為執(zhí)行特定任務(wù)而設(shè)計(jì)的定制芯片，與 CPU 不同， CPU 可處理各種應(yīng)用。由于專用集成電路是為特定功能定制的，因此執(zhí)行任務(wù)的效率比 CPU 更高，在速度、功耗和整體性能方面都具有優(yōu)勢。

我們常常在科技文章中看到的神經(jīng)處理單元（NPU）和深度學(xué)習(xí)處理器（DLP）就是 ASIC 中的一員，還有谷歌的張量處理單元（TPU）也是 ASIC 下的一員猛將。TPU 專為加速機(jī)器學(xué)習(xí)工作荷載而設(shè)計(jì)，它們被廣泛應(yīng)用于語言翻譯、谷歌助手中的語音識別和智能化廣告排名等項(xiàng)目中。

現(xiàn)場可編程邏輯門陣列 FPGA

現(xiàn)場可編程邏輯門陣列（FPGA）是一種半導(dǎo)體集成電路，與 CPU 相比，F(xiàn)PGA 可重新編程以便能更高效地執(zhí)行特定任務(wù)。與 ASIC、GPU 和 CPU 的固定架構(gòu)不同，F(xiàn)PGA 硬件包括可配置邏輯塊和可編程互連。這樣，即使在芯片出廠和部署后，也可以進(jìn)行功能更新。

FPGA 憑借其靈活性和并行計(jì)算能力，在數(shù)據(jù)中心的高性能計(jì)算、AI、機(jī)器學(xué)習(xí)中越來越受歡迎。不過，與 GPU 和定制 ASIC 解決方案相比，F(xiàn)PGA 的開發(fā)速度較慢，其軟件生態(tài)系統(tǒng)目前也不夠健全，由于其編程復(fù)雜，專業(yè)工程師的數(shù)量也很有限。

軟件

加速計(jì)算利用應(yīng)用編程接口（API）和編程模型（如 CUDA 和 OpenCL）來連接軟件和硬件。這樣可以優(yōu)化數(shù)據(jù)流，從而提高性能、能效、成本效益和準(zhǔn)確性。開發(fā)人員通過 API 和編程模型，就能夠編寫在 GPU 上運(yùn)行的代碼，并利用軟件程序庫實(shí)現(xiàn)高效算法。

CUDA

CUDA（全稱為 Compute Unified Device Architecture，統(tǒng)一計(jì)算架構(gòu)）是英偉達(dá)公司開發(fā)的專有并行計(jì)算平臺和 API 模型，通過這個(gè)技術(shù)，開發(fā)者可利用英偉達(dá)的 GPU 進(jìn)行圖像處理之外的運(yùn)算，顯著加速計(jì)算任務(wù)。該平臺包括 cuDNN、TensorRT 和 DeepStream 等深度學(xué)習(xí)庫，可增強(qiáng)人工智能訓(xùn)練和推理任務(wù)。

自 2006 年推出以來，CUDA 已被下載 4000 萬次，在全球擁有 400 萬開發(fā)者用戶群，已形成了一個(gè)龐大的開發(fā)者社區(qū)，因此英偉達(dá)公司在數(shù)據(jù)中心硬件和軟件市場上占據(jù)了顯著優(yōu)勢。

OpenCL

OpenCL（Open Computing Language，開放計(jì)算語言）是一個(gè)為異構(gòu)平臺編寫程序的框架。OpenCL 的一個(gè)特別顯著的特點(diǎn)是它在不同硬件類型之間的可移植性，平臺可由 CPU、GPU、FPGA 或其他類型的處理器與硬件加速器所組成。其廣泛的兼容性使開發(fā)人員能夠利用這些不同硬件的強(qiáng)大功能，來進(jìn)行加速計(jì)算。

網(wǎng)絡(luò)

網(wǎng)絡(luò)在加速計(jì)算中發(fā)揮著至關(guān)重要的作用，因?yàn)樗兄诔汕先f個(gè)處理單元和內(nèi)存以及存儲設(shè)備之間的通信。各種網(wǎng)絡(luò)技術(shù)被用來實(shí)現(xiàn)這些計(jì)算設(shè)備與系統(tǒng)其他設(shè)備之間的通信，并在網(wǎng)絡(luò)內(nèi)的多個(gè)設(shè)備之間共享數(shù)據(jù)。常見的技術(shù)有：

PCI Express（PCIe）：PCIe 是計(jì)算機(jī)總線的一個(gè)重要分支，它沿用既有的 PCI 編程概念及信號標(biāo)準(zhǔn)，并且構(gòu)建了更加高速的串行通信系統(tǒng)標(biāo)準(zhǔn)。這一標(biāo)準(zhǔn)提供了計(jì)算設(shè)備與 CPU、內(nèi)存之間的直接連接。在加速計(jì)算中，PCIe 通常用于將 GPU 或其他加速器連接到主機(jī)系統(tǒng)。

NVLink：英偉達(dá)公司專有的高帶寬、高能效互連技術(shù)，可提供比 PCIe 高得多的帶寬。該技術(shù)旨在促進(jìn) GPU 之間以及 GPU 與 CPU 之間更高效的數(shù)據(jù)共享。

Infinity Fabric：AMD 公司專有的互連技術(shù)，用于連接其芯片中的各種組件，包括 CPU、GPU 和內(nèi)存。

Compute Express Link (CXL)：CXL 是一種開放式互連標(biāo)準(zhǔn)，有助于減少 CPU 和加速器之間的延遲同時(shí)增加帶寬。它將多個(gè)接口合并為一個(gè) PCIe 接口，連接到 CPU。

InfiniBand：一種高速、低延遲的互連技術(shù)，通常用于高性能計(jì)算（HPC）設(shè)置。它實(shí)現(xiàn)了服務(wù)器集群和存儲設(shè)備之間的高速互連。

以太網(wǎng)：應(yīng)用最廣泛最成熟的網(wǎng)絡(luò)技術(shù)，主要用于在數(shù)據(jù)中心的服務(wù)器之間傳輸大量數(shù)據(jù)。但是，它無法提供與 NVLink 或 InfiniBand 相同的性能水平。

△ NVLink 和 PCIe 與 CPU 連接的 GPU 架構(gòu)

加速計(jì)算應(yīng)用場景

生成式AI

加速計(jì)算是開發(fā)和實(shí)施先進(jìn)的生成式 AI 模型的關(guān)鍵因素。生成式 AI 涉及使用算法來統(tǒng)計(jì)特征上與訓(xùn)練集相似的數(shù)據(jù)，在圖像、文本和語音領(lǐng)域都有廣泛應(yīng)用。

在生成式 AI 領(lǐng)域，會用到生成對抗網(wǎng)絡(luò)（GANs）、變異自動編碼器（VAEs）和變換器（Transformers）等模型，還有包括 OpenAI 的 ChatGPT 的大型語言模型（LLMs）。這些模型所涉及到的復(fù)雜數(shù)學(xué)運(yùn)算，需要在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練，并需要大量的計(jì)算能力和內(nèi)存。更具體地說，模型大小、每層復(fù)雜度、序列長度和多樣化是計(jì)算需求日益增加的最主要因素。

加速計(jì)算在解決生成式 AI 的計(jì)算能力和內(nèi)存需求方面發(fā)揮著至關(guān)重要的作用，其主要作用在加快訓(xùn)練時(shí)間、處理大型數(shù)據(jù)集、支持復(fù)雜模型、促進(jìn)實(shí)時(shí)生成并保障高效梯度計(jì)算。

加快訓(xùn)練時(shí)間

加速計(jì)算在生成式 AI 中最重要的作用是縮短 GAN、VAE 和 Transformer 模型的訓(xùn)練時(shí)間。在基于 CPU 的傳統(tǒng)架構(gòu)上，這些模型的訓(xùn)練通常需要數(shù)天、數(shù)周甚至數(shù)月的時(shí)間，但 GPU 和 TPU 等加速計(jì)算平臺是專為并行處理而設(shè)計(jì)的加速硬件，它們能夠同時(shí)并行處理多個(gè)計(jì)算，從而大大縮短了訓(xùn)練時(shí)間。

處理大型數(shù)據(jù)集

生成式 AI 模型通常在海量數(shù)據(jù)集上進(jìn)行訓(xùn)練，與傳統(tǒng) CPU 相比，加速計(jì)算硬件可以更高效地處理這些大型數(shù)據(jù)集。此外，使用先進(jìn)的內(nèi)存架構(gòu)（如某些 GPU 中的高帶寬內(nèi)存）可以在訓(xùn)練過程中高效處理這些大型數(shù)據(jù)集。

創(chuàng)建復(fù)雜模型

加速計(jì)算所帶來的計(jì)算能力的提升，可以創(chuàng)建更復(fù)雜、更大型的模型，從而獲得更好的結(jié)果。例如，像 GPT-4 這樣擁有 170 萬億個(gè)參數(shù)的生成型預(yù)訓(xùn)練變換模型，只有通過加速計(jì)算才能實(shí)現(xiàn)。

實(shí)時(shí)功能

在某些應(yīng)用中，人工智能模型需要實(shí)時(shí)（或接近實(shí)時(shí)）生成輸出。這對于交互式應(yīng)用（如視頻游戲中的人工智能和實(shí)時(shí)翻譯）尤為重要。加速計(jì)算可確?？焖賵?zhí)行這些操作，從而實(shí)現(xiàn)實(shí)時(shí)功能。

高效的計(jì)算梯度

深度學(xué)習(xí)模型通過使用基于梯度的優(yōu)化技術(shù)（如反向傳播）進(jìn)行學(xué)習(xí)。這些計(jì)算方法以誤差或損失函數(shù)最小化的方向來迭代調(diào)整模型參數(shù)。由于計(jì)算是基于矩陣的，因此具有很高的并行性，非常適合選用加速計(jì)算方案來處理。

AI數(shù)據(jù)中心

加速計(jì)算平臺的目的是加速各類數(shù)據(jù)中心的計(jì)算密集型工作，包括人工智能、數(shù)據(jù)分析、圖形和科學(xué)計(jì)算。這些數(shù)據(jù)中心包括企業(yè)、主機(jī)托管、超大規(guī)模/云、邊緣和模塊化設(shè)施，其主要目標(biāo)是提高工作負(fù)載性能，同時(shí)降低功耗和每次查詢的成本。

生成式 AI 和大型語言模型（LLM）在消費(fèi)者、互聯(lián)網(wǎng)公司、企業(yè)和初創(chuàng)公司中的興起，使人工智能的應(yīng)用進(jìn)入了一個(gè)快速發(fā)展時(shí)刻，加速了數(shù)據(jù)中心和云平臺中的 AI 推理部署。目前，大多數(shù) AI 推理工作都部署在 CPU 和網(wǎng)絡(luò)接口卡（NIC）上運(yùn)行。然而，由于性能、能效、成本效益和功耗限制的日益增加，業(yè)界正在轉(zhuǎn)向利用 GPU 和 ASIC 等專用硬件進(jìn)行加速計(jì)算。

現(xiàn)代數(shù)據(jù)中心的發(fā)展方向之一，就是建立一個(gè)可持續(xù)運(yùn)行的 " AI 工廠"。通過 LLM、推薦系統(tǒng)以及最終的推理模型等人工智能模型，配備推理機(jī)群，以便支持各種各樣的工作任務(wù)，例如視頻處理、文本生成、圖像生成以及虛擬世界和虛擬 3D 圖形。

使用GPU進(jìn)行加速計(jì)算

使用 GPU 進(jìn)行加速計(jì)算方法主要有三大類：

使用商業(yè)套裝軟件

使用開源或官方函式庫

自行編程 CUDA

第一項(xiàng)種類繁多，其中又以有限元素分析領(lǐng)域最多，此領(lǐng)域相關(guān)計(jì)算包含流體力學(xué)分析、熱傳導(dǎo)分析、電磁場分析或應(yīng)力分析等等應(yīng)用。由于范圍涵蓋 IC 設(shè)計(jì)、建筑設(shè)計(jì)、甚至許多交通工具或化工廠也需要通過這類軟件進(jìn)行模擬分析，所以開發(fā)這類軟件有很大的商業(yè)價(jià)值。

第二項(xiàng)則比較個(gè)性化，由開發(fā)者自行編寫程序，GPU 的計(jì)算組件則可以引用他人已經(jīng)準(zhǔn)備好的函數(shù)庫，或者參考英偉達(dá)官方提供的函數(shù)庫，也可以從 GitHub 上進(jìn)行搜索。

第三項(xiàng)就必須通過編程語言進(jìn)行 CUDA 編寫，不同的編程語言能夠操縱的自由度也各不相同，其中 C/C++ 或 Fortran屬于開發(fā)自由度最高的編程語言，可從底層控制 GPU 計(jì)算，甚至可以針對本機(jī)內(nèi)存與 GPU 內(nèi)存數(shù)據(jù)的傳輸進(jìn)行優(yōu)化。其次則為 Python，Python 也是目前市面上最主流的 AI 應(yīng)用開發(fā)語言，實(shí)現(xiàn)的方式包括 PyCuda 或者使用Numba 函數(shù)庫。另外，Java、R、C# 等也都可以支持 CUDA。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19852

瀏覽量
234145
FPGA

FPGA

+關(guān)注

關(guān)注
1644

文章
22007

瀏覽量
616430
AI

AI

+關(guān)注

關(guān)注
88

文章
34774

瀏覽量
276979
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5557

瀏覽量
122648
算力

算力

+關(guān)注

關(guān)注
2

文章
1173

瀏覽量
15553

原文標(biāo)題：加速計(jì)算，為何會成為AI時(shí)代的計(jì)算力“新寵”

文章出處：【微信號：OSC開源社區(qū)，微信公眾號：OSC開源社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

什么是加速計(jì)算？加速計(jì)算的應(yīng)用場景和解決方案

評論