AI 與科學計算工作負載的不斷融合從新的維度帶來性能挑戰(zhàn)。除了要滿足生命科學、材料科學、制造、仿真/建模以及金融等領域對科學計算工作負載的既有和不斷增長的需求外,企業(yè)的基礎設施還需滿足企業(yè)級推理和訓練對系統(tǒng)資源的需求,從而提供良好的最終用戶體驗。據(jù)此估計,全球科學計算市場將以 7.7% 的復合年增長率 (CAGR) 增長1,到 2026 年將達到 592 億美元1。
第四代英特爾 至強 可擴展處理器單核性能更高、核數(shù)更多、I/O 和內(nèi)存子系統(tǒng)更ssss強,并且配備了一系列內(nèi)置硬件加速器,從而能為科學計算工作負載帶來諸多助益。
實現(xiàn)科學計算系統(tǒng)的平衡
第四代英特爾 至強 可擴展處理器為科學計算工作負載帶來性能突破,助力縮短實現(xiàn)價值的時間。該平臺采用全新架構,單核性能更高,每路配備多達 60 個內(nèi)核,系統(tǒng)支持 2 路、4 路和 8 路配置。這相當于單核密度最高可達 120 個線程,比上一代產(chǎn)品增加了 50%。
為了與內(nèi)核數(shù)增加這種情況相匹配,該平臺在內(nèi)存和 I/O 子系統(tǒng)方面也做了相應改進。DDR5 內(nèi)存提供的帶寬和速度最高可達 DDR4 的 1.5 倍,傳輸速率達到 4800 MT/s。此外,該平臺每路有 80 條 PCIe Gen 5 通道,與之前的平臺相比,I/O 得到顯著提升。該平臺還提供 CXL (Compute Express Link 1.1) 連接,支持高網(wǎng)絡帶寬并使附加加速器能夠高效運行。
第四代英特爾 至強 可擴展處理器可為各類快速增長的工作負載提供性能加速。它內(nèi)置多種針對特定應用的加速器,使 AI、數(shù)據(jù)分析、網(wǎng)絡、存儲和科學計算等領域工作負載的性能得到提升,其中包括:
期權定價
解決決策時間短、應用非常復雜且要求各不相同,以及隨著 AI 應用愈發(fā)普及,市場需求不斷變化等問題。
生命科學應用
通過完善模型和執(zhí)行大規(guī)模計算來提高仿真精確度,使科研和發(fā)現(xiàn)更快速高效。
計算機輔助工程
推進計算機輔助工程應用快速獲得結果,助力降低成本、改善產(chǎn)品的安全和設計,并加速上市。
第四代英特爾 至強 可擴展處理器基于內(nèi)置硬件加速器 (包括面向科學計算的加速器,即英特爾 科學計算引擎) 引入一種實現(xiàn)高性能的新范式。
性能證明:高達 1.56 倍 (幾何平均數(shù)),為 28 個常見科學計算工作負載帶來的性能提升 (與上一代產(chǎn)品相比)2,3
英特爾 科學計算引擎
?
性能證明:高達 1.68 倍 (幾何平均數(shù)),LAMMPS 工作負載性能提升 (與上一代產(chǎn)品相比)2,3
基于內(nèi)置加速器的先進功能
隨著工作負載復雜性及其對計算資源的需求的提高,可以從 CPU 內(nèi)核卸載某些功能,將那些執(zhí)行資源留給業(yè)務關鍵型任務。這些功能包括 AI、安全以及常見的存儲和網(wǎng)絡功能。
直接內(nèi)置于第四代英特爾 至強 可擴展處理器芯片的硬件加速器能夠加速平臺內(nèi)的數(shù)據(jù)傳輸和處理。由于它們內(nèi)置于處理器中,與獨立解決方案或內(nèi)核上運行的基于軟件的解決方案相比,不會產(chǎn)生訪問 PCIe 總線的時延,相應地,就節(jié)省了能耗。利用這些內(nèi)置加速器的用例可以實現(xiàn)更好的性能并節(jié)省資本支出 (CapEx) 和運營支出 (OpEx)。
性能
專用的加速器大幅提升目標工作負載的吞吐量。
設備成本
由于加速器內(nèi)置于第四代英特爾 至強 可擴展處理器中,因此無需另外的設備投資。
運營成本
由于內(nèi)置加速器減少了在機架中增加內(nèi)核的需求,因此可以節(jié)省大量能源。
英特爾 高級矩陣擴展 (英特爾 AMX):
加速深度學習
事實證明,機器學習可以卓有成效地進行科學計算工作負載調優(yōu),實現(xiàn)效率與效能的提升。英特爾 高級矩陣擴展 (Intel Advanced Matrix Extensions,英特爾 AMX) 是一種內(nèi)置的硬件加速器,可以通過加速深度學習算法的核心 —— 張量處理,顯著提高推理和訓練性能。該技術包括 TILE 和 TMUL (平鋪矩陣乘法) 兩部分,前者由一組可擴展的 2D 寄存器組成,每核最多 8 個 TILE,可存儲比上一代產(chǎn)品更大的數(shù)據(jù)塊;后者是一組矩陣乘法指令,是 TILE 上的首批算子。英特爾 AMX 使深度學習軟件能夠在給定時間段內(nèi)完成更多推理,或者更快地部署解決方案,從而加速實現(xiàn)價值。
英特爾 高級矢量擴展 512 (英特爾 AVX-512)
最新 x86 矢量指令集
經(jīng)過多代技術發(fā)展,精度逐漸提升的矢量化技術有助于在更大的數(shù)據(jù)集上更快完成計算。英特爾 高級矢量擴展 512 (Intel Advanced Vector Extensions 512,英特爾 AVX-512) 作為最新 x86 矢量指令集,構建于前幾代技術的矢量處理能力基礎上,可加速完成數(shù)據(jù)密集型工作負載。借助兩個 512 位融合乘加 (FMA) 單元,科學計算應用在 512 位矢量內(nèi)的每個時鐘周期可打包 32 次雙精度和 64 次單精度浮點運算,以及八個 64 位和十六個 32 位整數(shù),以滿足苛刻的計算工作負載需求,推動商業(yè)智能。與英特爾 高級矢量擴展 2 (Intel Advanced Vector Extensions 2,英特爾 AVX2) 相比,英特爾 AVX-512 使數(shù)據(jù)寄存器的寬度和數(shù)量以及融合乘加單元的寬度都增加了一倍。
英特爾 數(shù)據(jù)流加速器 (英特爾 DSA):
優(yōu)化流數(shù)據(jù)傳輸
數(shù)據(jù)傳輸和轉換操作對存儲、網(wǎng)絡和數(shù)據(jù)密集型工作負載 (例如科學計算中的數(shù)據(jù)分析) 的性能來說至關重要。英特爾 數(shù)據(jù)流加速器 (Intel Data Streaming Accelerator,英特爾 DSA) 能夠卸載大規(guī)模部署中會產(chǎn)生開銷的常見數(shù)據(jù)傳輸任務,藉此提升這些功能的性能。通過承擔包括校驗、內(nèi)存比較和檢查點在內(nèi)幾乎所有的數(shù)據(jù)傳輸操作,英特爾 DSA 可以使 CPU 內(nèi)核資源避免在數(shù)據(jù)移入移出內(nèi)存、存儲和網(wǎng)絡子系統(tǒng)方面產(chǎn)生開銷。英特爾 DSA 優(yōu)化了跨 CPU、內(nèi)存和緩存以及各種附加內(nèi)存、存儲和網(wǎng)絡設備的流數(shù)據(jù)傳輸。
英特爾 數(shù)據(jù)保護與壓縮加速技術 (英特爾 QAT):
提升加密和壓縮速度
減少加密和數(shù)據(jù)壓縮相關開銷對于提升集群整體性能發(fā)揮著重要作用。英特爾 數(shù)據(jù)保護與壓縮加速技術 (Intel QuickAssist Technology,英特爾 QAT) 作為硬件加速器內(nèi)置于第四代英特爾 至強 可擴展處理器中,可實現(xiàn)更快的動態(tài)數(shù)據(jù)加解密、更高效的數(shù)據(jù)壓縮。與前幾代技術相比,這一技術的最新版本在加解密算法、安全哈希、公鑰加密和壓縮/解壓縮方面的表現(xiàn)更出色。它通過從處理器內(nèi)核卸載這些任務,釋放出內(nèi)核資源用于處理其他工作,因此提升了總吞吐量。英特爾 QAT 有助于實現(xiàn)零信任安全策略,在各種基礎設施中對各個階段 (靜態(tài)下、傳輸中、使用中) 的數(shù)據(jù)實施保護,而無損關鍵工作負載的性能。
開發(fā)人員賦能和支持
英特爾 oneAPI 工具套件是英特爾長期堅守對科學計算軟件生態(tài)系統(tǒng)的承諾并不斷演進的產(chǎn)物,它提供編譯器、庫和性能工具,能夠簡化面向英特爾 架構優(yōu)化的高質量軟件的開發(fā)路徑。這些工具套件為那些想要利用第四代英特爾 至強 可擴展處理器內(nèi)置加速器的開發(fā)人員提供了捷徑,以及基于標準的開源軟件開發(fā)堆棧。開發(fā)人員可以利用英特爾 oneAPI 工具套件生成代碼,全面提高各英特爾 架構 (包括內(nèi)置加速器的 CPU、GPU 和 FPGA) 的性能。
由開源工具、API 和驅動程序等組成的大型開放式生態(tài)系統(tǒng)為基于 oneAPI 的開放標準代碼開發(fā)提供了便利。這種靈活性有助于企業(yè)和機構降低將新服務和解決方案推向市場的復雜性、成本和時間要求,簡化了新架構的落地,并使工程師和程序員能夠將精力放在創(chuàng)新而不是維護代碼上。
利用既有實現(xiàn)方案輕松集成
與英特爾合作,企業(yè)可以利用他們已經(jīng)熟悉和正在使用的大規(guī)模合作伙伴生態(tài)系統(tǒng)縮短部署時間。全球各地的硬件和軟件供應商以及解決方案集成商都在使用英特爾 至強 可擴展處理器構建其產(chǎn)品,并通過數(shù)以千計來自真實場景的實現(xiàn)案例提供更多選擇和更好的互操作性。
高達 1.61 倍 (幾何平均數(shù)):第四代英特爾 至強 可擴展處理器與上一代產(chǎn)品相比
高達 2.01 倍 (幾何平均數(shù)):英特爾 至強 CPU MAX 系列與雙路第三代英特爾 至強 可擴展處理器相比
為滿足各種科學計算用例而設計
憑借高性能、DDR5 帶來的更高內(nèi)存帶寬,以及 PCIe Gen 5 和 CXL 1.1 實現(xiàn)的先進 I/O,第四代英特爾 至強 可擴展處理器可為一系列實際用例加速。借助英特爾先進的軟件庫和編譯器,開發(fā)人員能夠更快速地構建代碼,開發(fā)性能更佳且開箱即用的科學計算應用。借助強大的英特爾 AVX-512 技術和每內(nèi)核 2 個 FMA 單元,代碼和模型可滿足嚴苛的計算工作負載要求。利用英特爾 MPI 庫,工作負載能夠在多個科學計算集群中進行擴展。此外,您還可配置英特爾 傲騰 持久內(nèi)存,在更大的內(nèi)存中支持大型計算任務。
利用支持科學計算工作負載的英特爾 技術實現(xiàn)更多可能
提升帶寬
與僅采用 DDR5 的平臺相比,全新英特爾 至強 CPU Max 系列通過消除建模、AI、科學計算和數(shù)據(jù)分析等內(nèi)存敏感型工作負載的瓶頸,將性能提升高達 4 倍。這是英特爾首款將高帶寬內(nèi)存和加速器整合到處理器封裝中的 x86 CPU,其中 HBM2e 內(nèi)存容量最高可達 64 GB。它減少了對 DDR 的依賴,可支持最新軟件工具并且具有出色的代碼復用性,因此降低了 TCO。
擴大影響
旗艦產(chǎn)品英特爾 數(shù)據(jù)中心 GPU Max 系列采用英特爾先進的 IP 和封裝技術,旨在加速 AI、科學計算和高級分析工作負載,滿足 E 級時代的要求。該系列基于英特爾 Xe HPC 架構,GPU 中配備有高帶寬緩存。在 oneAPI 開放生態(tài)系統(tǒng)的支持下,GPU 展現(xiàn)了出色的靈活,既可處理 SIMT (Single Instruction Multiple Threads,單指令多線程),也可處理 SIMD (Single Instruction Multiple Data,單指令多數(shù)據(jù)),它的封裝內(nèi)集成了多項 IP 創(chuàng)新技術,包括高帶寬內(nèi)存。
微秒級數(shù)據(jù)訪問
DAOS (分布式異步對象存儲) 是一種開源的軟件定義橫向擴展對象存儲系統(tǒng),可以在單一存儲層中經(jīng)濟高效地為科學計算和 AI 應用提供高帶寬、低時延和高 IOPS 的存儲容器。DAOS 原生支持結構化、半結構化和非結構化數(shù)據(jù)集,同時還擺脫了傳統(tǒng)分布式存儲的局限性?! ?/p>
評論