電子發(fā)燒友網(wǎng)報道(文/周凱揚)人工智能在進化的過程中,最不可或缺的便是模型和算力。訓練出來的通用大模型省去了重復的開發(fā)工作,目前不少大模型都為學術(shù)研究和AI開發(fā)提供了方便,比如華為的盤古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。
那么訓練出這樣一個大模型需要怎樣的硬件前提?如何以較低的成本完成自己模型訓練工作?這些都是不少AI初創(chuàng)企業(yè)需要考慮的問題,那么如今市面上有哪些訓練芯片是經(jīng)得起考驗的呢?我們先從國外的幾款產(chǎn)品開始看起。
英偉達A100
英偉達的A100可以說是目前AI訓練界的明星產(chǎn)品,A100剛面世之際可以說是世界上最快的深度學習GPU。盡管近來有無數(shù)的GPU或其他AI加速器試圖在性能上撼動它的地位,但綜合實力來看,A100依然穩(wěn)坐頭把交椅。
英特爾Gaudi和Ponte Vecchio
19年12月,英特爾收購了以色列的Habana Labs,將其旗下的AI加速器產(chǎn)品線納入囊中。Habana Labs目前推出了用于推理的Goya處理器和用于訓練的Gaudi處理器。盡管Habana Labs已經(jīng)隸屬英特爾,但現(xiàn)有的產(chǎn)品仍然基于臺積電的16nm制程,傳言稱其正在開發(fā)的Gaudi2將用上臺積電的7nm制程。 目前Gaudi已經(jīng)用于亞馬遜云服務(wù)AWS的EC2 DL1訓練實例中,該實例選用了AWS定制的英特爾第二代Xeon可擴展處理器,最多可配置8個Gaudi處理器,每個處理器配有32GB的HBM內(nèi)存,400Gbps的網(wǎng)絡(luò)架構(gòu)加上100Gbps的互聯(lián)帶寬,并支持4TB的NVMe存儲。
亞馬遜Trainium
最后我們以亞馬遜的訓練芯片收尾,亞馬遜提供的服務(wù)器實例可以說是最多樣化的,也包含了以上提到的A100和Gaudi。亞馬遜作為云服務(wù)巨頭,早已開始部署自己的服務(wù)器芯片生態(tài),不僅在今年推出了第三代Graviton服務(wù)器處理器,也正式發(fā)布了去年公開的訓練芯片Trainium,并推出了基于該芯片的Trn1實例。
小結(jié)
GPU一時半會不會跌落AI訓練的神壇,但其他訓練芯片的推陳出新證明了他們面對A100和Ponte Vecchio這種大規(guī)模芯片同樣不懼,甚至還有自己獨到的優(yōu)勢。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
gpu
+關(guān)注
關(guān)注
28文章
4944瀏覽量
131219 -
AI
+關(guān)注
關(guān)注
88文章
35109瀏覽量
279606
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
提升AI訓練性能:GPU資源優(yōu)化的12個實戰(zhàn)技巧
在人工智能與機器學習技術(shù)迅速發(fā)展的背景下,GPU計算資源的高效利用已成為關(guān)鍵技術(shù)指標。優(yōu)化的GPU資源分配不僅能顯著提升模型訓練速度,還能實現(xiàn)計算成本的有效控制。根據(jù)AI基礎(chǔ)設(shè)施聯(lián)盟2

海思SD3403邊緣計算AI數(shù)據(jù)訓練概述
AI數(shù)據(jù)訓練:基于用戶特定應(yīng)用場景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓練工程師**(用戶公司****員工)** ,進行特征標定后,將標定好的訓練
發(fā)表于 04-28 11:11
摩爾線程GPU原生FP8計算助力AI訓練
近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實現(xiàn)了

GPU是如何訓練AI大模型的
在AI模型的訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU
訓練AI大模型需要什么樣的gpu
訓練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時,需要根據(jù)具體需求進行權(quán)衡和選擇。
PyTorch GPU 加速訓練模型方法
在深度學習領(lǐng)域,GPU加速訓練模型已經(jīng)成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和
GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計
眾所周知,在大型模型訓練中,通常采用每臺服務(wù)器配備多個GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)(上篇)》中,我們對GPU

AI大模型的訓練數(shù)據(jù)來源分析
AI大模型的訓練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對AI大模型訓練數(shù)據(jù)來源的分析: 一、公開數(shù)據(jù)集 公開
如何訓練自己的AI大模型
訓練自己的AI大模型是一個復雜且耗時的過程,涉及多個關(guān)鍵步驟。以下是一個詳細的訓練流程: 一、明確需求和目標 首先,需要明確自己的需求和目標。不同的任務(wù)和應(yīng)用領(lǐng)域需要不同類型的AI模型
GPU服務(wù)器在AI訓練中的優(yōu)勢具體體現(xiàn)在哪些方面?
GPU服務(wù)器在AI訓練中的優(yōu)勢主要體現(xiàn)在以下幾個方面: 1、并行處理能力:GPU服務(wù)器擁有大量的并行處理核心,這使得它們能夠同時處理成千上萬個計算任務(wù),極大地加速
蘋果AI模型訓練新動向:攜手谷歌,未選英偉達
近日,蘋果公司發(fā)布的最新研究報告揭示了其在人工智能領(lǐng)域的又一重要戰(zhàn)略選擇——采用谷歌設(shè)計的芯片來訓練其AI模型,而非行業(yè)巨頭英偉達的產(chǎn)品。這一決定在業(yè)界引起了廣泛關(guān)注,尤其是在當前英偉達GPU
蘋果承認使用谷歌芯片來訓練AI
蘋果公司最近在一篇技術(shù)論文中披露,其先進的人工智能系統(tǒng)Apple Intelligence背后的兩個關(guān)鍵AI模型,是在谷歌設(shè)計的云端芯片上完成預(yù)訓練的。這一消息標志著在尖端AI訓練領(lǐng)域
AI訓練的基本步驟
AI(人工智能)訓練是一個復雜且系統(tǒng)的過程,它涵蓋了從數(shù)據(jù)收集到模型部署的多個關(guān)鍵步驟。以下是對AI訓練過程的詳細闡述,包括每個步驟的具體內(nèi)容,并附有相關(guān)代碼示例(以Python和sc
評論