中文字幕日韩A级AⅤ影片在线观看,xxx大陆日韩视频,久久91精品国产91久久蜜月

大語言模型（Large Language Model，下文簡稱為：LLM）的發(fā)展如火如荼。以ChatGPT為代表的LLM可執(zhí)行更為廣泛的任務(wù)并具有更高的智能化程度，刷新了人們對AI技術(shù)的新認(rèn)知。當(dāng)然，LLM規(guī)模龐大，通常包含數(shù)十億參數(shù)，需要海量的訓(xùn)練數(shù)據(jù)與強大算力支撐才能達到預(yù)期的效果。

其實，無論LLM還是其他應(yīng)用越來越廣泛的深度學(xué)習(xí)模型，從模型訓(xùn)練到推理應(yīng)用，都需要高性能、可擴展的基礎(chǔ)設(shè)施作為底層支撐，這往往也意味著高昂的成本。近日，英特爾發(fā)布的最新Habana Gaudi2，專為訓(xùn)練大語言模型而構(gòu)建，并為數(shù)據(jù)中心大規(guī)模擴展而設(shè)計，同時為深度學(xué)習(xí)訓(xùn)練和推理工作負載提供極具性價比的解決方案。

在6月公布的MLCommonsMLPerf基準(zhǔn)測試中，Gaudi2在GPT-3模型、計算機視覺模型ResNet-50（使用8個加速器）、Unet3D（使用8個加速器），以及自然語言處理模型BERT（使用8個和64個加速器）上均取得了優(yōu)異的訓(xùn)練結(jié)果。與市場上其他面向大規(guī)模生成式AI和大語言模型的產(chǎn)品相比，Gaudi2擁有卓越的性能與領(lǐng)先的性價比優(yōu)勢，能夠幫助用戶提升運營效率的同時，降低運營成本。

Gaudi2實現(xiàn)性能、可擴展性和能效飛躍

第二代Gaudi AI深度學(xué)習(xí)夾層卡 HL-225B 專為數(shù)據(jù)中心實現(xiàn)大規(guī)模橫向擴展而設(shè)計。其AI處理器基于第一代 Gaudi的高效架構(gòu)打造而成，目前采用7納米制程工藝，在性能、可擴展性和能效方面均實現(xiàn)了飛躍。

夾層卡搭載的HL-2080 處理器擁有24個完全可編程的第四代張量處理器核心（TPC）。這些核心原生設(shè)計便能夠為廣泛的深度學(xué)習(xí)工作負載加速，同時還賦予用戶按需進行優(yōu)化和創(chuàng)新的靈活性。此外，它還集成了96GB HBM2e內(nèi)存和48MB SRAM，支持600瓦夾層卡級熱設(shè)計功耗（TDP）。

Gaudi2 處理器具備出色的2.1 Tbps 網(wǎng)絡(luò)容量可擴展性，原生集成21個100 Gbps RoCE v2 RDMA 端口，可通過直接路由實現(xiàn)Guadi 處理器間通信。Gaudi2處理器集成了專用媒體處理器，用于圖像和視頻解碼及預(yù)處理。

此外，Gaudi2 深度學(xué)習(xí)夾層卡符合OCP OAM 1.1（開放計算平臺之開放加速器模塊）等多種規(guī)范，可以為客戶帶來系統(tǒng)設(shè)計的靈活性。

圖：Gaudi2 深度學(xué)習(xí)夾層卡 HL-225B 主要參數(shù)

多維度技術(shù)創(chuàng)新，實現(xiàn)卓越性價比

Gaudi2 處理器是一款高性能、完全可編程的AI處理器，它整合了多項技術(shù)創(chuàng)新，從計算架構(gòu)、內(nèi)存和擴展能力三個維度打造全新的AI 專用處理器。同時，它具有高內(nèi)存帶寬/容量和基于標(biāo)準(zhǔn)以太網(wǎng)技術(shù)的縱向擴展能力，支持使用外接網(wǎng)卡通過PCIe接口實現(xiàn)橫向擴展，滿足多節(jié)點集群需要。

[ 性能更高的計算架構(gòu) ]

Gaudi2 采用經(jīng)過驗證的高性能深度學(xué)習(xí)AI訓(xùn)練處理器架構(gòu)，利用Habana完全可編程的TPC和GEMM引擎，支持面向AI的高級數(shù)據(jù)類型：FP8、BF16、FP16、TF32和FP32。TPC核心旨在支持深度學(xué)習(xí)訓(xùn)練和推理工作負載。TPC是一款VLIW SIMD矢量處理器，其指令集和郵件經(jīng)過定制，可高效處理上述工作負載。

[ 更先進的內(nèi)存技術(shù) ]

內(nèi)存帶寬和容量與計算能力同樣重要。Gaudi2 采用先進的HBM內(nèi)存技術(shù)，內(nèi)存容量高達96GB，內(nèi)存帶寬高達2.4TB/s。Gaudi先進的HBM控制器已針對隨機訪問和線性訪問進行了優(yōu)化，在各種訪問模式下均可提供高內(nèi)存帶寬。

[ 通過集成RDMA實現(xiàn)縱向擴展 ]

Gaudi AI訓(xùn)練處理器芯片上集成了RDMA（RoCEv2），可與成熟且廣泛使用的以太網(wǎng)進行連接。HL-2080芯片互連技術(shù)基于42對56 Gbps Tx/Rx PAM4 SerDes（配置為21個100 GbE端口）發(fā)揮作用。

與廣泛的軟件生態(tài)一起，
幫助簡化模型的開發(fā)和遷移

為支持客戶輕松構(gòu)建模型，或?qū)?dāng)前基于GPU的模型業(yè)務(wù)和系統(tǒng)遷移到基于全新Gaudi2服務(wù)器，并幫助保護軟件開發(fā)投入，SynapseAI軟件套件針對Gaudi平臺深度學(xué)習(xí)業(yè)務(wù)進行了優(yōu)化，旨在與廣泛的軟件生態(tài)系統(tǒng)一起，幫助簡化模型的開發(fā)和遷移。

SynapseAI 軟件套件旨在提高 Habana AI處理器的易用性和支持高性能訓(xùn)練，能夠?qū)?a href="http://www.www27dydycom.cn/tags/神經(jīng)網(wǎng)絡(luò)/" target="_blank">神經(jīng)網(wǎng)絡(luò)拓撲高效映射到Gaudi系列硬件上。該軟件套件包括Habana 的圖編譯器和運行時、經(jīng)過性能優(yōu)化的TPC算子庫、固件和驅(qū)動程序以及開放工具，例如用于自定義核心開發(fā)的TPC 編程工具套件和SynapseAI 圖編譯器。SynapseAI與TensorFlow和PyTorch等主流框架集成，并已針對基于Gaudi AI 處理器家族產(chǎn)品的訓(xùn)練進行了優(yōu)化。數(shù)據(jù)科學(xué)家和開發(fā)人員在這里可以找到開始基于Gaudi AI 處理器進行訓(xùn)練所需的各類信息資料，包括教程、參考模型、操作指南、文檔等。

擴展AI產(chǎn)品陣容，加速AI落地

Gaudi2不僅以高性能為AI模型的訓(xùn)練與推理加速，其高擴展性和性價比，也將加速AI應(yīng)用落地的進程。多年來，借助強大的軟硬件基礎(chǔ)，英特爾基于全面的AI產(chǎn)品和解決方案，與廣泛合作伙伴一同構(gòu)建開放生態(tài)，為越來越多不同需求和場景的AI應(yīng)用落地提供更多元的解決方案，持續(xù)引領(lǐng)產(chǎn)品技術(shù)發(fā)展，進一步加速大規(guī)模深度學(xué)習(xí)部署，助力中國本地AI市場發(fā)展。

想看更多“芯”資訊

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴