一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

新至強訓練推理增效十倍,英特爾CPU加速AI更上一層樓

英特爾中國 ? 來源:機器之心 ? 2023-01-14 14:17 ? 次閱讀

英特爾在自己最擅長的 CPU 上完成了一次 AI 計算的革新。

人工智能技術(shù)改變了我們的生活,而說到 AI 背后的算力,人們經(jīng)常會先想到 GPU。從 2019 年英特爾為其第二代至強可擴展處理器增添了內(nèi)置的深度學習加速技術(shù)后,原本定位通用計算的 CPU 芯片,也加入了為 AI 加速的行列。

今天,代號為「Sapphire Rapids」的第四代至強可擴展處理器也在中國迎來發(fā)布首秀,除了一系列微架構(gòu)的革新和技術(shù)規(guī)格的升級外,新 CPU 對 AI 運算「更上層樓」的支持也格外引人關注,其背后的技術(shù)助力,也是英特爾在這代產(chǎn)品中增添的全新內(nèi)置 AI 加速器 —— 英特爾高級矩陣擴展(AMX)技術(shù)自然也成為了焦點。

作為焦點,當然要拿出實力來證明自己的價值 —— 在發(fā)布會上,英特爾透露的第四代至強可擴展處理器的基礎算力平均提升值為 53%,而在 AMX 的助推下,其在 PyTorch 上的 AI 實時推理速度,可提升至上一代產(chǎn)品(FP32)的 5.7-10 倍,訓練性能提升最高也能提升到上一代產(chǎn)品的 10 倍…… 這意味著,這款新至強,把業(yè)界頂級 CPU 的性能門檻一下子提高了不少。

新一代英特爾 CPU 為 AI 任務處理找到了新方向?,F(xiàn)在,英特爾可以通過新 CPU 和 GPU 實現(xiàn)對各類 AI 任務的加速。為實現(xiàn)這些提升,英特爾引入了一系列內(nèi)置加速單元。

多種加速器加持,

提升 AI 訓練、推理及端到端性能

AI 的熱度,從 AlphaGo 一鳴驚人后,一直就沒有減退。最近一段時間,人們都在談論 ChatGPT 等「大模型」帶來的革命性體驗。由預訓練模型方法推動的 AI 技術(shù)正在向跨任務、跨模態(tài)的方向演進,已成為當下 AI 技術(shù)發(fā)展的重要趨勢。

然而,大模型雖然帶來了前所未有的 AI 能力,又對算力提出了無窮無盡的需求。芯片制造商和科技公司一直在尋找提升 AI 應用效率的方法。GPU 更多解決的,是訓練效率,是探索 AI 算法邊界的能力,而 CPU,似乎更適合在 AI 應用的規(guī)?;渴鸷蛯嵺`上發(fā)揮重要作用。

自從四五年前開始在 CPU 中內(nèi)置針對 AI 進行加速的專用運算單元或指令集后,英特爾就一直相信,如果想要在更為廣泛的行業(yè)中真正推進 AI 應用的普及,那么就應該充分利用現(xiàn)階段應用和部署最為廣泛的 IT 基礎設施和架構(gòu),也就是要更加充分地利用 CPU 的資源。畢竟使用 GPU 和其他專用加速器的成本以及知識和人才門檻都非常高。相比之下,CPU 內(nèi)置 AI 加速能力,主攻 AI 推理加速,并搭配以更為簡單易用、能夠部署和優(yōu)化難度的軟件工具,會是一條更為行之有效的路徑。

它是這么想,也是這么做的 —— 首先,從 2017 年第一代至強可擴展芯片開始,英特爾就開始利用英特爾高級矢量擴展 512 技術(shù)(AVX-512 指令集)的矢量運算能力對 AI 進行加速上的嘗試,到 2018 年英特爾在第二代至強可擴展芯片導入深度學習加速(DL Boost)技術(shù),更是讓至強成為了首款集成 AI 加速有力的主流數(shù)據(jù)中心級 CPU,或者說:CPU 加速 AI 的代名詞。

2020 年通過擴展出 bfloat16 加速功能,面向多路服務器的第三代至強可擴展處理器在推理加速能力之外,又增加了訓練加速能力,已被證明可以幫助業(yè)界大量 AI 工作負載實現(xiàn)更優(yōu)的性能和功耗比。

就在大家認為英特爾在 CPU 加速 AI 的技術(shù)創(chuàng)新和投入會止步于此的時候,第四代至強可擴展芯片,又帶來了矩陣化的算力支持 ——AMX。

第四代英特爾至強可擴展處理器。

這種全新內(nèi)置 AI 加速器的出現(xiàn),進一步驗證了「與其增加 CPU 內(nèi)核數(shù)和時鐘頻率,加入和更新專用計算單元對提升 AI 工作負載性能更有效」這一思路。正如前文所述,第四代至強可擴展芯片不僅可借助 AMX 實現(xiàn)相當于上一代芯片(FP32)10 倍的 AI 性能提升,與前兩代產(chǎn)品使用的深度學習加速技術(shù)相比,其理論性能(每秒操作量)最高也可以達到其 8 倍之多。

機器學習包含大量的矩陣計算,在主打通用計算的 CPU 上,此類任務會被轉(zhuǎn)換為效率較低的向量計算,而在加入專用的矩陣計算單元后,至強 CPU 的 AI 能力有了巨大的提升。因此,AMX 可以被視為至強 CPU 上的「TensorCore」—— 從原理上看,CPU 上的 AI 加速器實現(xiàn)的目的和 GPU、移動端處理器上的類似。由于 AMX 單元對底層矩陣計算進行加速,理論上它對于所有基于深度學習的 AI 應用都能起到效果。

如果說 AMX 為至強 CPU 帶來的是直觀的推理和訓練加速,那么第四代至強可擴展芯片內(nèi)置的其他幾種加速器,就是為 AI 端到端應用加速帶來的驚喜。

這是因為在真正完整的 AI 應用流水線中,任務往往會從數(shù)據(jù)的處理和準備開始,在這一階段,第四代至強可擴展芯片內(nèi)置的數(shù)據(jù)流加速器(DSA),可讓數(shù)據(jù)存儲與傳輸性能提升到上一代產(chǎn)品的 2 倍,而專門針對數(shù)據(jù)庫和數(shù)據(jù)分析加速的英特爾存內(nèi)分析加速器(IAA),也可將相關應用的性能提升到上一代產(chǎn)品的三倍(RocksDB);數(shù)據(jù)保護與壓縮加速技術(shù)(QAT),則能在內(nèi)核用量減少多達 95% 的情況下將一級壓縮吞吐量提升至原來的兩倍。這些技術(shù)的使用,也有助于 AI 端到端應用性能的整體躍升。

此外,隨著 AI 應用在更多行業(yè),包括金融、醫(yī)療等數(shù)據(jù)敏感型行業(yè)的落地,人們對于數(shù)據(jù)安全合規(guī)的要求逐漸提高,聯(lián)邦學習等技術(shù)逐漸獲得應用。在這一方面,至強可擴展處理器集成的專攻數(shù)據(jù)安全強化的加速器 —— 軟件防護擴展(SGX),也是大有用武之地,它的突出優(yōu)勢就是可以為處理中或運行中的敏感數(shù)據(jù)和應用代碼提供與其他系統(tǒng)組件和軟件隔離的安全飛地,實現(xiàn)更小的信任邊界。

這種技術(shù)對于 AI 而言,最核心的價值就是可以讓有多方數(shù)據(jù)交互、協(xié)作的 AI 訓練過程變得更加安全,各方數(shù)據(jù)都可以在其擁有者的本地參與訓練,用于訓練的數(shù)據(jù)和模型會被安全飛地所保護,最終模型可以在這種保護下提升精度和效率,但為其演進做出了關鍵貢獻的數(shù)據(jù)則會一直處于「可用而不可見 」的狀態(tài)下,以確保其中的敏感和隱私信息的安全性。

在這么多內(nèi)置加速器的支持下,可以說,從數(shù)據(jù)預處理,到訓練,再到推理,最后到整個 AI 應用的安全保護層面,第四代至強可擴展處理器都實現(xiàn)了更全面的功能覆蓋和重點增強。與此同時,英特爾還在進一步強化 AI 加速的開箱即用優(yōu)勢:通過與大量第三方進行合作,英特爾共同優(yōu)化了 SAP HANA、Microsoft SQL Server、Oracle、VMware Cloud Foundation、Red Hat OpenShift 等主流應用,很多主流軟件庫和開源機器學習框架,以及大多數(shù)云服務也對這款英特爾架構(gòu)上的新品做好了優(yōu)化,開發(fā)者可以直接使用新硬件開發(fā)和部署 AI 算法。

從開發(fā)者的角度看,使用第四代至強可擴展處理器實現(xiàn)優(yōu)化加速的門檻也確實很低:人們只需使用集成在 TensorFlow 和 PyTorch 中的庫,無需任何額外工作即可激活至強芯片內(nèi)置 AI 加速的能力。此外,只需更改幾行代碼,開發(fā)人員就可以無縫地加速單節(jié)點和多節(jié)點配置中的 Scikit-learn 應用。

全能服務器 CPU

除了有加速器傍身專攻特定應用負載外,第四代至強可擴展處理器在基礎性能上也是可圈可點。

例如,它采用了與英特爾第 12、13 代酷睿同款的 Intel 7 制造工藝(改進版 10nm 制程)和 Golden Cove CPU 架構(gòu),同時首次引入 chiplet 小芯片封裝方式,最多可搭載 60 個核心,改用新的 Socket E LGA4677 封裝接口,集成了 112MB 三級緩存,功耗最高達到 350W。

新一代至強還帶來了對八通道 DDR5-4800 和 PCIe 5.0 的支持,并包含 CXL 1.1 高速互連總線,可選集成最多 64GB HBM2e 內(nèi)存。

上述這些針對 IO 和存儲的新技術(shù)的引入,使得第四代至強可擴展處理器具備了能夠打破帶寬瓶頸的 I/O 能力,讓使用者可以充分利用處理器的代際性能提升滿足 AI 平臺等業(yè)務對于通用算力的苛刻需求。

四代至強可擴展處理器平臺特性。

綜合這些基礎芯片架構(gòu)規(guī)模上的升級和革新,以及各種加速器的特定加成效果,第四代至強可擴展處理器的基礎算力相比上一代產(chǎn)品可提升 53%,而其能效,或者說每瓦性能,相比上一代產(chǎn)品也提升了 2.9 倍,這意味著更高的效率,更低的功耗和更優(yōu)的投資回報率。

英特爾表示,新一代 CPU 還可以催生出前所未有的應用,幫助 AI 算法直接利用非結(jié)構(gòu)化數(shù)據(jù)進行實時分析。在金融、醫(yī)療、零售等行業(yè)中,人們可以利用機器學習作出更加精確的投資決策,降低術(shù)后并發(fā)癥風險,更好地理解消費者的需求。

構(gòu)建下一代異構(gòu) AI 算力

在不斷尋求創(chuàng)新業(yè)務的過程中,人們對于算力的需求相比以往正變得更加迫切。而且這種算力也必須要兼顧到通用和專用的不同方向。因此英特爾架構(gòu)也正在就此有針對性的演進,這在本次第四代至強可擴展處理器的發(fā)布會上就可見一斑 —— 對科學計算和 AI 加速有更苛刻要求的用戶,也等來了英特爾數(shù)據(jù)中心 GPU 旗艦產(chǎn)品 ——MAX 系列的發(fā)布。

其實在過去幾年里,英特爾已經(jīng)陸續(xù)推出了一些異構(gòu)產(chǎn)品,例如 2022 年英特爾旗下的 Habana Labs 正式發(fā)布了用于深度學習訓練的 Gaudi2,隨之被應用在 AWS 上。同年夏天主打視覺云應用的數(shù)據(jù)中心 GPU Flex 系列也在視頻處理、云游戲和視覺 AI 推理應用中初露頭腳,但很多「發(fā)燒級」用戶最期待的還是數(shù)據(jù)中心 GPU Max 系列,今天,這款采用了突破性設計,采用多芯片集合的方式,混合 5 種工藝,晶體管數(shù)量超過千億的 「怪獸」,終于來了!

GPU 產(chǎn)品線的完善,也使得英特爾成為業(yè)界唯一一家能提供橫跨 CPU、GPU、ASIC、FPGA 四大類型芯片計算解決方案的供應商,可為智能數(shù)據(jù)中心提供基于任何場景、需求的產(chǎn)品組合。

強大的硬件之外,英特爾還利用 oneAPI 軟件體系實現(xiàn)了對異構(gòu)硬件的統(tǒng)一編程和管理,構(gòu)建了能夠靈活調(diào)配、無縫協(xié)作和低門檻的 AI 開發(fā)工具。通過 XPU 硬件、oneAPI 軟件及 UCIe 開放標準的布局,英特爾已經(jīng)打造出了軟硬一體化的完整生態(tài)。

隨著新一代芯片發(fā)布,我們或許將看到未來 AI 計算的形態(tài)發(fā)生重要轉(zhuǎn)變。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19748

    瀏覽量

    232963
  • 英特爾
    +關注

    關注

    61

    文章

    10143

    瀏覽量

    173646
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11013

    瀏覽量

    215295
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4886

    瀏覽量

    130429
  • AI
    AI
    +關注

    關注

    87

    文章

    33628

    瀏覽量

    274343

原文標題:新至強訓練推理增效十倍,英特爾CPU加速AI更上一層樓

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    1.9性能提升!英特爾至強6在MLPerf基準測試中表現(xiàn)卓越

    關鍵項目中,性能表現(xiàn)卓越。測試結(jié)果顯示,相較于上代產(chǎn)品,該處理器的AI性能實現(xiàn)了高達1.9的顯著提升,這也充分顯示了至強6處理器作為現(xiàn)代AI
    的頭像 發(fā)表于 04-07 10:58 ?143次閱讀

    英特爾至強6:如何煉就數(shù)據(jù)中心“全能型選手”

    計算密集型工作負載而設計,新發(fā)布的至強6700P和至強6500P不僅在AI推理、單核性能等關鍵領域展現(xiàn)出家族“優(yōu)等生”風范,還面向多路服務器應用場景,提供了高度靈活的適配方案。 ? 作
    的頭像 發(fā)表于 03-13 14:57 ?242次閱讀
    <b class='flag-5'>英特爾</b><b class='flag-5'>至強</b>6:如何煉就數(shù)據(jù)中心“全能型選手”

    英特爾至強6再推新品!打造最強AI“機頭引擎”

    的產(chǎn)品矩陣,很好地滿足市場的多樣化需求;另方面,憑借卓越的 AI 性能提升,英特爾為數(shù)據(jù)中心提供了性能強勁的機頭節(jié)點 CPU,助力企業(yè)在數(shù)字時代的浪潮中穩(wěn)步前行。 事實上,去年9月,
    的頭像 發(fā)表于 03-13 14:57 ?221次閱讀

    英特爾展示基于至強6處理器的基礎網(wǎng)絡設施

    ? 集成AI功能的英特爾至強6系統(tǒng)級芯片,與前幾代產(chǎn)品相比,可帶來高達2.4的無線接入網(wǎng)(RAN)容量提升1,和70%的每瓦性能提升2; 集成的人工智能
    的頭像 發(fā)表于 03-08 09:24 ?391次閱讀

    英特爾?獨立顯卡與OpenVINO?工具套件結(jié)合使用時,無法運行推理怎么解決?

    使用英特爾?獨立顯卡與OpenVINO?工具套件時無法運行推理
    發(fā)表于 03-05 06:56

    MWC 2025:英特爾展示基于至強6處理器的基礎網(wǎng)絡設施

    新聞亮點 集成AI功能的英特爾至強6系統(tǒng)級芯片,與前幾代產(chǎn)品相比,可帶來高達2.4的無線接入網(wǎng)(RAN)容量提升1,和70%的每瓦性能提升2; 集成的人工智能
    發(fā)表于 03-03 15:52 ?156次閱讀
    MWC 2025:<b class='flag-5'>英特爾</b>展示基于<b class='flag-5'>至強</b>6處理器的基礎網(wǎng)絡設施

    全新英特爾至強6處理器來襲,現(xiàn)代數(shù)據(jù)中心的性能與能效平衡“大師”

    英特爾步豐富至強6處理器產(chǎn)品組合,為行業(yè)提供多款滿足廣泛工作負載的CPU選擇。 新聞亮點 ·?英特爾推出全新
    的頭像 發(fā)表于 02-25 17:39 ?307次閱讀

    使用英特爾AI PC為YOLO模型訓練加速

    之后,情況有了新的變化,PyTorch2.5正式開始支持英特爾顯卡,也就是說,此后我們能夠借助英特爾 銳炫 顯卡來進行模型訓練了。
    的頭像 發(fā)表于 12-09 16:14 ?1112次閱讀
    使用<b class='flag-5'>英特爾</b><b class='flag-5'>AI</b> PC為YOLO模型<b class='flag-5'>訓練</b><b class='flag-5'>加速</b>

    英特爾發(fā)布全新企業(yè)AI體化方案

    近日,英特爾正式推出了全新的企業(yè)AI體化方案。該方案以英特爾至強處理器和英特爾Gaudi 2D
    的頭像 發(fā)表于 12-03 11:20 ?456次閱讀

    英特爾至強品牌新戰(zhàn)略發(fā)布

    品牌是企業(yè)使命和發(fā)展的象征,也承載著產(chǎn)品特質(zhì)和市場認可。在英特爾GTC科技體驗中心的英特爾 至強 6 能效核處理器發(fā)布會上,英特爾公司全球副總裁兼首席市場營銷官Brett Hannat
    的頭像 發(fā)表于 10-12 10:13 ?702次閱讀

    英特爾攜手百度智能云加速AI落地

    在2024年9月25日-26日舉辦的2024百度云智大會上,作為大會的聯(lián)合主辦方,英特爾帶來了AI全棧軟硬件方案,深入講解了如何基于英特爾 至強 處理器和新
    的頭像 發(fā)表于 10-12 10:08 ?718次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    。 中國電子技術(shù)標準化研究院賽西實驗室依據(jù)國家標準《人工智能服務器系統(tǒng)性能測試規(guī)范》(征求意見稿)相關要求,使用AISBench?2.0測試工具,完成了第五代英特爾至強可擴展處理器的AI大模型
    的頭像 發(fā)表于 09-06 15:33 ?620次閱讀
    開箱即用,AISBench測試展示<b class='flag-5'>英特爾</b><b class='flag-5'>至強</b>處理器的卓越<b class='flag-5'>推理</b>性能

    巧了不是,原來你也不知道啥是去耦電容的“濾波半徑”??!

    電源設計中的網(wǎng)紅用語:電容去耦半徑,大多數(shù)人都聽過,但能講出來原理的人估計不多;看完這篇文章,讓你們理論知識和實際設計更上一層樓!
    的頭像 發(fā)表于 08-19 14:54 ?678次閱讀
    巧了不是,原來你也不知道啥是去耦電容的“濾波半徑”??!

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應鏈

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應鏈
    的頭像 發(fā)表于 05-27 11:50 ?739次閱讀
    <b class='flag-5'>英特爾</b>助力京東云用<b class='flag-5'>CPU</b><b class='flag-5'>加速</b><b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型構(gòu)建數(shù)智化供應鏈

    英特爾確認Ponte Vecchio GPU將以云服務形式推出

    英特爾在公告中強調(diào),隨著AI技術(shù)需求的不斷增加,公司重點利用Gaudi AI加速器的性能優(yōu)勢及有競爭力的價格,實現(xiàn)其迅速拓展。同時,至強系列
    的頭像 發(fā)表于 05-18 17:14 ?1237次閱讀