Artificial intelligence (人工智能)在企業(yè)中越來越普遍。語音識別、推薦和欺詐檢測只是人工智能和 深度學(xué)習(xí) ( DL )驅(qū)動的數(shù)百個應(yīng)用程序中的少數(shù)幾個
為了支持這些人工智能應(yīng)用程序,企業(yè)希望優(yōu)化人工智能服務(wù)器和性能網(wǎng)絡(luò)。不幸的是,在企業(yè)人工智能的開發(fā)中,存儲基礎(chǔ)設(shè)施需求往往被忽視。然而,為了成功采用人工智能,必須考慮一個全面的存儲部署戰(zhàn)略,該戰(zhàn)略考慮了人工智能的增長、經(jīng)得起未來考驗(yàn)和互操作性。
這篇文章強(qiáng)調(diào)了企業(yè)在為人工智能應(yīng)用程序規(guī)劃數(shù)據(jù)存儲基礎(chǔ)設(shè)施以最大限度地提高業(yè)務(wù)成效時應(yīng)考慮的重要因素。我討論了云與本地存儲解決方案的比較,以及在支持 GPU 的虛擬機(jī)( VM )中對更高性能存儲的需求。
為什么企業(yè)部署需要人工智能存儲決策
流行的短語“你可以現(xiàn)在給我錢,也可以以后給我錢”意味著在做當(dāng)前決定時最好考慮未來。通常,支持 AI 或 DL 應(yīng)用程序的存儲解決方案只能滿足應(yīng)用程序的即時需求,而沒有充分考慮未來的成本和靈活性。
從長遠(yuǎn)來看,從存儲的角度來看,今天花些錢來證明您的人工智能環(huán)境是經(jīng)得起未來考驗(yàn)的,這可能更具成本效益。決策者必須捫心自問:
我的人工智能存儲基礎(chǔ)設(shè)施能否適應(yīng)云或混合模式?
選擇對象、塊或文件存儲是否會限制未來企業(yè)部署的靈活性?
是否可以使用成本較低的存儲層或混合模型來存檔,或用于不需要昂貴、快速存儲的數(shù)據(jù)集?
如果沒有直接的 a / B 比較,企業(yè)存儲決策對 AI 部署的影響并不總是明顯的。今天的錯誤決策可能會導(dǎo)致性能下降,并且無法在未來有效地?cái)U(kuò)展業(yè)務(wù)運(yùn)營。
規(guī)劃 AI 存儲基礎(chǔ)架構(gòu)時的主要考慮事項(xiàng)
以下是部署和規(guī)劃存儲時需要考慮的各種因素。圖 1 概述了數(shù)據(jù)中心、預(yù)算、互操作性和存儲類型注意事項(xiàng)。
AI 性能和 GPU
在評估存儲性能之前,考慮人工智能性能的一個關(guān)鍵因素是讓高性能企業(yè) GPU 加速 machine-learning 、 DL 和推理應(yīng)用程序的培訓(xùn)。
許多數(shù)據(jù)中心服務(wù)器沒有 GPU 來加速人工智能應(yīng)用程序,因此在考慮性能時,最好先看看 GPU 資源。
大型數(shù)據(jù)集并不總是適合 GPU 內(nèi)存。這一點(diǎn)很重要,因?yàn)楫?dāng)完整的數(shù)據(jù)集不適合 GPU 內(nèi)存時, GPU 提供的性能較差。在這種情況下,數(shù)據(jù)在 GPU 內(nèi)存之間交換,從而影響性能。模型訓(xùn)練需要更長時間,推理性能可能會受到影響。
某些應(yīng)用程序,如欺詐檢測,可能具有極端的實(shí)時性要求,當(dāng) GPU 內(nèi)存正在等待數(shù)據(jù)時,這些要求會受到影響。
存儲注意事項(xiàng)
存儲始終是一個重要的考慮因素。在部署新的人工智能應(yīng)用程序時,現(xiàn)有的存儲解決方案可能無法正常工作。
您現(xiàn)在可能需要 NVMe 閃存或直接 GPU 內(nèi)存訪問的速度才能獲得所需的性能。然而,隨著存儲對人工智能數(shù)據(jù)的需求隨著時間的推移而增加,您可能不知道明天的存儲期望是什么。對于某些應(yīng)用程序,幾乎沒有太高的存儲性能,尤其是在實(shí)時用例(如交易前欺詐檢測)的情況下。
對于人工智能驅(qū)動的應(yīng)用程序,沒有“一刀切”的存儲解決方案。
性能只是一個存儲考慮因素。另一個是擴(kuò)展能力。培訓(xùn)數(shù)據(jù)正在增長。推斷數(shù)據(jù)正在增長。存儲必須能夠在容量和性能方面進(jìn)行擴(kuò)展,并且在許多情況下能夠跨多個存儲節(jié)點(diǎn)進(jìn)行擴(kuò)展。簡單地說,滿足您當(dāng)前需求的存儲設(shè)備可能并不總能適應(yīng)明天的挑戰(zhàn)。
底線:隨著培訓(xùn)和推理工作量的增加,容量和性能也必須增加。它應(yīng)該只考慮具有保持 GPU 繁忙的性能的可擴(kuò)展存儲解決方案,以獲得最佳的 AI 性能。
數(shù)據(jù)中心注意事項(xiàng)
數(shù)據(jù)處理器( DPU )是基礎(chǔ)設(shè)施技術(shù)的最新發(fā)展,將數(shù)據(jù)中心和人工智能存儲提升到了一個全新的水平。
雖然不是存儲產(chǎn)品, DPU 重新定義了數(shù)據(jù)中心存儲。它旨在集成存儲、處理和網(wǎng)絡(luò),使整個數(shù)據(jù)中心成為企業(yè)的計(jì)算機(jī)。
在規(guī)劃和部署存儲時,了解 DPU 的功能非常重要,因?yàn)?DPU 將存儲服務(wù)從數(shù)據(jù)中心處理器和存儲設(shè)備上卸載。對于許多存儲產(chǎn)品, DPU 互連數(shù)據(jù)中心可以實(shí)現(xiàn)更高效的擴(kuò)展。
例如 NVIDIA BlueField DPU 支持以下功能:
結(jié)構(gòu)上的 NVMe ( NVMe oF )
GPUDirect 存儲
加密
彈性塊存儲
擦除編碼(用于數(shù)據(jù)完整性)
減壓
重復(fù)數(shù)據(jù)消除
遠(yuǎn)程存儲訪問的存儲性能就像存儲直接連接到 AI 服務(wù)器一樣。 DPU 有助于實(shí)現(xiàn)可擴(kuò)展的軟件定義存儲,以及網(wǎng)絡(luò)和網(wǎng)絡(luò)安全加速。
預(yù)算考慮因素
成本仍然是一個關(guān)鍵因素。雖然需要部署最高吞吐量和最低延遲的存儲,但根據(jù) AI 應(yīng)用程序的不同,并不總是必要的。
為了進(jìn)一步擴(kuò)大存儲預(yù)算, IT 部門必須了解每個 AI 應(yīng)用程序的存儲性能要求(帶寬、 IOPs 和延遲)。
例如,如果一個人工智能應(yīng)用程序的數(shù)據(jù)集很大,但性能要求最低,那么傳統(tǒng)硬盤驅(qū)動器( HDD )可能就足夠了,同時大大降低了存儲成本。當(dāng)數(shù)據(jù)集的“熱”數(shù)據(jù)完全符合 GPU 內(nèi)存時,尤其如此。
另一種節(jié)省成本的選擇是使用混合存儲,將閃存用作緩存,以提高性能,同時降低駐留在 HDD 上的不經(jīng)常訪問的數(shù)據(jù)的存儲成本。有一些混合閃存/硬盤存儲產(chǎn)品的性能幾乎與所有閃存一樣好,因此探索混合存儲選項(xiàng)對于沒有極端性能要求的應(yīng)用程序來說意義重大。
較舊、存檔和不經(jīng)常使用的數(shù)據(jù)和數(shù)據(jù)集可能仍有未來價值,但駐留在昂貴的主存儲上并不經(jīng)濟(jì)劃算。
硬盤仍然具有很大的財(cái)務(wù)意義,尤其是在需要時可以無縫訪問數(shù)據(jù)的情況下。根據(jù)訪問的大小和頻率,兩層云和內(nèi)部部署存儲解決方案也具有財(cái)務(wù)意義。市場上有許多這樣的解決方案。
互操作性因素
從存儲角度評估云和數(shù)據(jù)中心的互操作性非常重要。即使在虛擬機(jī)驅(qū)動的數(shù)據(jù)中心內(nèi),也有互操作性因素需要評估。
云和數(shù)據(jù)中心注意事項(xiàng)
人工智能應(yīng)用程序是在本地運(yùn)行,還是在云端運(yùn)行,或者兩者都運(yùn)行?即使應(yīng)用程序可以在任何一個地方運(yùn)行,也不能保證應(yīng)用程序的性能不會隨位置而變化。例如,如果云中使用的存儲類與本地使用的存儲類不同,則可能會出現(xiàn)性能問題。必須考慮存儲類別。
假設(shè)使用使用高性能閃存的支持?jǐn)?shù)據(jù)中心 GPU 的服務(wù)器在所需的八小時窗口內(nèi)完成對大型推薦模型的再培訓(xùn)。將相同的應(yīng)用程序以同等 GPU 馬力移動到云端可能會導(dǎo)致培訓(xùn)在 24 小時內(nèi)完成,遠(yuǎn)遠(yuǎn)超出所需的 8 小時窗口。為什么?
一些人工智能應(yīng)用程序需要某種類型的存儲(快速閃存、大型存儲緩存、 DMA 存儲訪問、存儲類內(nèi)存( SCM )讀取性能等),但并非總是可以通過云服務(wù)獲得。
關(guān)鍵是,無論數(shù)據(jù)中心或云存儲選擇如何,某些人工智能應(yīng)用程序都會產(chǎn)生類似的結(jié)果。其他應(yīng)用程序可能對存儲敏感。
僅僅因?yàn)橐粋€應(yīng)用程序是由 Kubernetes 在云中進(jìn)行容器化和編排的,它不能保證類似的數(shù)據(jù)中心結(jié)果。以這種方式來看,當(dāng)考慮性能時,容器并不總是提供跨數(shù)據(jù)中心和云互操作性。為了實(shí)現(xiàn)有效的數(shù)據(jù)中心和云互操作性,請確保兩個域中的存儲選擇都能產(chǎn)生良好的結(jié)果。
VM 注意事項(xiàng)
如今,大多數(shù)數(shù)據(jù)中心服務(wù)器沒有 GPU 來加速人工智能和創(chuàng)造性工作負(fù)載。明天,數(shù)據(jù)中心的格局可能會大不相同。無論是 conversational AI 、欺詐檢測 recommender systems 、視頻分析還是許多其他用例,企業(yè)都被迫使用人工智能來提高競爭力。
GPU 在工作站上很常見,但 GPU 工作站提供的加速度無法在組織內(nèi)輕松共享。
企業(yè)必須準(zhǔn)備的范式轉(zhuǎn)變是在虛擬機(jī)環(huán)境中共享基于服務(wù)器、支持 GPU 的資源。 NVIDIA AI 企業(yè) 等解決方案的可用性使企業(yè)中的任何人都可以共享支持 GPU 的虛擬機(jī)。
簡而言之,現(xiàn)在企業(yè)中的任何人都可以在 vSphere 環(huán)境中的 VM 內(nèi)輕松運(yùn)行耗電的 AI 應(yīng)用程序。
那么這對虛擬機(jī)存儲意味著什么呢?支持 GPU 的虛擬機(jī)的存儲必須滿足 AI 應(yīng)用程序和共享虛擬機(jī)用戶的共享性能要求。這意味著給定虛擬機(jī)的存儲性能高于非共享環(huán)境中所需的存儲性能。
這還意味著,為此類虛擬機(jī)分配的物理存儲可能在容量和性能方面更具可擴(kuò)展性。在高度共享的虛擬機(jī)中,可以使用專用的全閃存類內(nèi)存( SCM )陣列,通過聚合以太網(wǎng)上的 RDMA 連接到支持 GPU 的服務(wù)器,以實(shí)現(xiàn)最高的性能和擴(kuò)展。
存儲類型
關(guān)于為人工智能應(yīng)用程序選擇對象、塊或文件存儲的深入討論超出了本文的范圍。也就是說,我在這里提到它是因?yàn)檫@是一個重要的考慮因素,但并不總是一個直接的決定。
對象存儲
例如,如果所需的應(yīng)用程序需要對象存儲,那么所需的存儲類型顯而易見。一些人工智能應(yīng)用程序利用了對象元數(shù)據(jù),同時也受益于平面地址空間對象存儲架構(gòu)的無限規(guī)模。人工智能分析可以利用豐富的對象元數(shù)據(jù)實(shí)現(xiàn)精確的數(shù)據(jù)分類和組織,使數(shù)據(jù)更有用,更易于管理和理解。
塊存儲
盡管云中支持塊存儲,但真正海量的云數(shù)據(jù)集往往是基于對象的。塊存儲可以為結(jié)構(gòu)化數(shù)據(jù)和事務(wù)應(yīng)用程序提供更高的性能。
塊存儲缺少元數(shù)據(jù)信息,這使得任何旨在從元數(shù)據(jù)中獲益的應(yīng)用程序都無法使用塊存儲。許多傳統(tǒng)的企業(yè)應(yīng)用程序都是建立在塊存儲基礎(chǔ)上的,但云中對象存儲的出現(xiàn)導(dǎo)致許多現(xiàn)代應(yīng)用程序?qū)iT為使用對象存儲的原生云部署而設(shè)計(jì)。
文件存儲
當(dāng)人工智能應(yīng)用程序跨通用文件協(xié)議訪問數(shù)據(jù)時,顯而易見的存儲選擇是基于文件的。例如,人工智能驅(qū)動的圖像識別和分類引擎可能需要訪問基于文件的圖像。
部署選項(xiàng)可能有所不同,從專用文件服務(wù)器到構(gòu)建在對象或塊存儲體系結(jié)構(gòu)之上的 NAS 磁頭。 NAS 頭可以導(dǎo)出 NFS 或 SMB 文件協(xié)議,以便將文件訪問到底層塊或?qū)ο蟠鎯w系結(jié)構(gòu)。這可以為人工智能和數(shù)據(jù)中心網(wǎng)絡(luò)客戶端的文件存儲訪問提供高水平的靈活性和經(jīng)得起未來考驗(yàn)的塊或?qū)ο蟠鎯Α?/p>
人工智能的存儲類型決策必須基于對當(dāng)前所需內(nèi)容的良好理解以及長期人工智能部署策略。全面評估每種存儲類型的優(yōu)缺點(diǎn)。通常沒有一個“一刀切”的答案,在某些情況下,所有三種存儲類型(對象、塊和文件)都有意義。
企業(yè)存儲決策的關(guān)鍵要點(diǎn)
解決人工智能解決方案的存儲需求沒有單一的方法。然而,這里有幾個核心原則,可以用來做出明智的人工智能存儲決策:
如果訓(xùn)練和推理不是 GPU 加速的,人工智能解決方案的任何存儲選擇都可能毫無意義。
為可能需要遠(yuǎn)遠(yuǎn)超出當(dāng)前估計(jì)的 IT 資源和相關(guān)存儲做好準(zhǔn)備。
不要認(rèn)為現(xiàn)有存儲對于新的或擴(kuò)展的人工智能解決方案來說“足夠好”。隨著時間的推移,與現(xiàn)有存儲相比,具有更高成本、性能和可擴(kuò)展性的存儲實(shí)際上可能更高效。
始終考慮與云的互操作性,因?yàn)槟脑铺峁┥炭赡軣o法提供本地存儲選項(xiàng)。
戰(zhàn)略 IT 規(guī)劃應(yīng)考慮 DPU 的基礎(chǔ)架構(gòu)和存儲優(yōu)勢。
當(dāng)你計(jì)劃在企業(yè)中使用人工智能時,不要將存儲放在列表的底部。存儲對人工智能成功的影響可能比你想象的要大。
關(guān)于作者
André Franklin 是 NVIDIA 數(shù)據(jù)科學(xué)營銷團(tuán)隊(duì)的一員,專注于 NVIDIA 支持的工作站和服務(wù)器的基礎(chǔ)設(shè)施解決方案。他在多個企業(yè)解決方案方面擁有豐富的經(jīng)驗(yàn),包括 NetApp 、 Hewlett-Packard enterprise 和具有預(yù)測分析功能的靈活存儲陣列。安德烈居住在加利福尼亞州北部,以駕駛無線電控制的模型飛機(jī)、滑冰和拍攝大自然遠(yuǎn)足而聞名。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106355 -
gpu
+關(guān)注
關(guān)注
28文章
4944瀏覽量
131217 -
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249351
發(fā)布評論請先 登錄
如何選擇合適的背負(fù)式AGV小車
如何選擇合適的臺慶電感?
英偉達(dá)GTC2025亮點(diǎn):NVIDIA與行業(yè)領(lǐng)先存儲企業(yè)共同推出面向AI時代的新型企業(yè)基礎(chǔ)設(shè)施
NVIDIA 與行業(yè)領(lǐng)先的存儲企業(yè)共同推出面向 AI 時代的新型企業(yè)基礎(chǔ)設(shè)施

NetApp革新塊存儲,賦能現(xiàn)代工作負(fù)載
如何選擇合適的液力偶合器
EEPROM存儲器容量選擇技巧 EEPROM的故障排查與維修
如何選擇適合的交流負(fù)載箱?
如何選擇合適的電機(jī)驅(qū)動芯片

如何選擇合適的伺服電機(jī)呢
如何選擇合適的電感器來匹配感性負(fù)載?
如何選擇合適的AI云平臺
顯存技術(shù)不斷升級,AI計(jì)算中如何選擇合適的顯存
如何選擇合適的工控機(jī)

評論