人工智能(AI)最初只是實(shí)驗(yàn)室研究,但如今機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等人工智能技術(shù)正越來越多地應(yīng)用到現(xiàn)實(shí)世界中,例如檢測金融交易中的欺詐行為、分析零售數(shù)據(jù)以提供個性化的購物體驗(yàn),或者找到運(yùn)輸工具的最佳路線。
這些趨勢意味著人工智能正迅速成為許多企業(yè)工作流程中不可或缺的一部分,從電子郵件到CRM或ERP,尤其是數(shù)據(jù)分析,從組織自身的數(shù)據(jù)集中收集商業(yè)智能見解,以提高效率,甚至創(chuàng)造新的商業(yè)機(jī)會。
這并不奇怪,IDC最近的一項(xiàng)調(diào)查顯示,85%的企業(yè)正在評估人工智能或已經(jīng)在生產(chǎn)中使用人工智能。然而,IDC發(fā)現(xiàn),大多數(shù)組織報(bào)告說,在他們的人工智能項(xiàng)目中,有四分之一的機(jī)構(gòu)報(bào)告說,失敗率高達(dá)50%。這些失敗都?xì)w因于缺乏熟練員工或文化上的挑戰(zhàn),但另一個常見的失敗原因是無法從概念驗(yàn)證項(xiàng)目擴(kuò)展到能夠服務(wù)于整個組織的生產(chǎn)能力。
退一步講,重要的是要區(qū)分那些投資于人工智能以獲得顯著的戰(zhàn)略優(yōu)勢或可能重塑其整個商業(yè)模式的組織,而不是那些僅僅尋求簡化運(yùn)營或使用人工智能來自動化某些任務(wù)的組織。對于后者,基于云的AI功能生態(tài)系統(tǒng)已經(jīng)興起,可以通過API進(jìn)行訪問并將其集成到業(yè)務(wù)工作流程中。
另一類公司則以電子商務(wù)巨頭阿里巴巴(Alibaba)分拆出來的一家銀行為例,該銀行使用人工智能來管理其所有金融服務(wù),在貸款審批等流程方面,它的速度比競爭對手快得多,而且員工人數(shù)只占其一小部分。正如《哈佛商業(yè)評論》(Harvard Business Review)所詳述的,這家新銀行的核心是一個基于人工智能的“決策工廠”,它將決策視為一門科學(xué),利用數(shù)據(jù)來推動預(yù)測和洞察,從而指導(dǎo)和自動化公司的運(yùn)營工作流程。
對于這類業(yè)務(wù),實(shí)施你的人工智能戰(zhàn)略首先要有正確的數(shù)據(jù),并且要理解如何使用它。這意味著不僅要雇傭數(shù)據(jù)科學(xué)家,還要雇傭數(shù)據(jù)戰(zhàn)略家,他們是能夠?qū)I(yè)務(wù)問題轉(zhuǎn)化為分析解決方案和見解的專業(yè)人士。
人工智能是建立在數(shù)據(jù)基礎(chǔ)上的
大量的數(shù)據(jù)是開發(fā)機(jī)器學(xué)習(xí)(ML)或深度學(xué)習(xí)(DL)算法的最終根本。您在模型上投入的樣本數(shù)據(jù)越多,就可以將模型“訓(xùn)練”得越好,并且其輸出越準(zhǔn)確可靠。結(jié)果是,與傳統(tǒng)的企業(yè)IT環(huán)境相比,為AI項(xiàng)目存儲和處理數(shù)據(jù)通常需要與高性能計(jì)算(HPC)安裝有更多共同點(diǎn)的硬件。
訓(xùn)練一個深度學(xué)習(xí)模型或分析大量數(shù)據(jù)需要大量的處理能力。這可以通過使用一堆服務(wù)器和高端處理器芯片并行處理問題來實(shí)現(xiàn)。但更有效的解決方案是求助于專門的加速器,如GPU,或圖形處理單元。
GPU之所以得名,是因?yàn)樗鼈冏畛跏?D圖形的加速器,需要數(shù)百萬次重復(fù)計(jì)算才能渲染圖像。因此,它們具有使用數(shù)百個簡單處理核心的大規(guī)模并行體系結(jié)構(gòu),事實(shí)證明,它們也適用于AI模型所涉及的計(jì)算。
例如,谷歌發(fā)現(xiàn)一個僅用于48個Nvidia GPU即可處理用于在線圖像識別的AI系統(tǒng),該系統(tǒng)需要16,000個CPU。
這并不意味著GPU會完全取代用于AI工作負(fù)載的計(jì)算基礎(chǔ)架構(gòu)中的CPU。在許多情況下,仍然需要CPU來處理應(yīng)用程序邏輯和其他數(shù)據(jù)科學(xué)計(jì)算,因此在大多數(shù)情況下,結(jié)合使用CPU和GPU的計(jì)算節(jié)點(diǎn)將被證明是最佳解決方案。
存儲源計(jì)算
與傳統(tǒng)的HPC體系結(jié)構(gòu)一樣,獲得最佳性能的關(guān)鍵是保持計(jì)算節(jié)點(diǎn)及其gpu以足夠高的速率接收數(shù)據(jù),以使它們保持忙碌,這意味著存儲基礎(chǔ)結(jié)構(gòu)在提供所需的性能級別方面起著至關(guān)重要的作用。正確的數(shù)據(jù)存儲系統(tǒng)必須提供高吞吐量,以防止昂貴的gpu閑置,但它也必須具有靈活性和可擴(kuò)展性。
更復(fù)雜的是,不同的AI工作負(fù)載將以讀寫數(shù)據(jù)的方式顯示不同的訪問模式,存儲層需要能夠處理所有這些模式。ML訓(xùn)練工作負(fù)載往往遵循一種不可預(yù)測的訪問模式,例如,生成大量的讀寫操作,這些讀寫操作可能包括大小不等的隨機(jī)訪問和順序訪問,存儲層必須能夠吸收這些數(shù)據(jù)并提供高吞吐量。
當(dāng)訓(xùn)練數(shù)據(jù)集足夠小時,例如在試驗(yàn)性部署中,它可能被緩存在本地內(nèi)存中,或者從小型計(jì)算節(jié)點(diǎn)群集中的本地閃存驅(qū)動器(SSD)中提供服務(wù),這可以提供足夠的性能級別,特別是當(dāng)閃存SSD是NVMe驅(qū)動器時。
NVMe是一種存儲標(biāo)準(zhǔn),它使用高速PCIe總線將SSD直接鏈接到系統(tǒng)中的處理器,而不是傳統(tǒng)接口(如SAS或SATA)。它還指定了一種新的高效協(xié)議,可以減少軟件開銷,從而最大限度地提高閃存提供的低延遲。NVMe的一個關(guān)鍵特性是支持多個I/O隊(duì)列(最多65535個),從而使閃存能夠并行處理多個請求。這利用了NAND存儲設(shè)備的內(nèi)部并行性,并允許比SAS或SATA高得多的原始吞吐量。
然而,擴(kuò)展這樣一個試驗(yàn)性部署來支持生產(chǎn)性人工智能用例所需的大量數(shù)據(jù)是困難的和/或昂貴的,這可能是一些人工智能項(xiàng)目無法超越概念驗(yàn)證階段的原因。
成本也是一個因素。許多全閃存存儲體系結(jié)構(gòu)都依賴于單獨(dú)的對象存儲池或類似的存儲池來保存訪問頻率較低的冷數(shù)據(jù)。相比之下,存儲公司DDN有一個名為熱池的功能,用戶可以通過在用于熱數(shù)據(jù)的閃存層和用于冷數(shù)據(jù)的更大的旋轉(zhuǎn)磁盤層之間自動遷移數(shù)據(jù),將所有內(nèi)容保存在一個文件系統(tǒng)中。這降低了由于管理開銷而導(dǎo)致的成本,同時使所有數(shù)據(jù)更接近你的手邊。
加速任意規(guī)模的AI
這方面的一個很好的例子可以從DDN的加速、任意規(guī)模的AI(A3I)投資組合中看到,DDN是一家專門從事高性能存儲的公司。A3I系列是一套基于DDN EXAScaler系統(tǒng)的預(yù)配置設(shè)備,可選擇所有閃存NVMe SSD或閃存與硬盤驅(qū)動器存儲的混合,以提高存儲容量。
為了擴(kuò)大規(guī)模,客戶只需添加額外的設(shè)備,每個AI200X/AI400X設(shè)備的閃存NVMe容量高達(dá)256TB,或AI7990X型號的混合存儲容量為4PB。每個文件系統(tǒng)都可以看作是一個構(gòu)建塊,可以聚合成一個可以在容量、性能和功能上進(jìn)行擴(kuò)展的文件系統(tǒng)。
根據(jù)DDN,A3I設(shè)備針對所有類型的訪問模式和數(shù)據(jù)布局進(jìn)行了優(yōu)化,以確保GPU資源的充分利用。每個設(shè)備還具有多個高速主機(jī)接口,最多有8個HDR100 InfiniBand或100Gbit/s以太網(wǎng)端口。
AI基礎(chǔ)設(shè)施認(rèn)證
認(rèn)識到這一點(diǎn),領(lǐng)先的GPU供應(yīng)商N(yùn)vidia在其參考架構(gòu)中將DDNA3I存儲與DGX A100系統(tǒng)結(jié)合在一起,DGX A100系統(tǒng)是一個專用的AI計(jì)算系統(tǒng),其中包含八個最新的A100 Tensor Core GPU和一對AMD Epyc CPU。DGX A100系統(tǒng)的架構(gòu)被設(shè)計(jì)為適用于所有AI工作負(fù)載的通用系統(tǒng),可消耗高達(dá)192GB / s的大量數(shù)據(jù)。但是,四個并行工作的DDN AI400X存儲設(shè)備能夠使所有這些GPU完全存滿數(shù)據(jù)。
雖然DGX A100是相當(dāng)新的產(chǎn)品,但是客戶已經(jīng)在AI應(yīng)用程序中將DDN存儲與Nvidia的舊DGX-1平臺一起使用。日本東北大學(xué)醫(yī)學(xué)大銀行組織(ToMMo)已實(shí)現(xiàn)DDN EXAScaler存儲,該存儲連接到運(yùn)行Parabricks基因組分析軟件的基于DGX-1 GPU的分析服務(wù)器,作為其醫(yī)療超級計(jì)算機(jī)系統(tǒng)的一部分。
據(jù)該大學(xué)稱,這極大地提高了其分析能力和樣品量。因?yàn)橛捎谀軌蛱幚砀蟮臄?shù)據(jù)集,所以以前只存在于理論上的方法現(xiàn)在變得可行,從而提高了數(shù)據(jù)分析的準(zhǔn)確性。
不過教訓(xùn)是,要使用A來I轉(zhuǎn)變業(yè)務(wù)運(yùn)營,組織需要能夠處理大量數(shù)據(jù)。這反過來又意味著要建立一個能夠處理這些數(shù)據(jù)量的基礎(chǔ)設(shè)施,以及在不破壞銀行資金的情況下擴(kuò)大對數(shù)據(jù)和計(jì)算資源的訪問的方法,以支持未來的增長。
希望通過采用全面的數(shù)據(jù)戰(zhàn)略來領(lǐng)先于競爭對手的公司需要確保自己不會在基礎(chǔ)架構(gòu)方面承擔(dān)額外風(fēng)險。選擇一家在要求最苛刻的數(shù)據(jù)密集型的環(huán)境中提供一系列解決方案方面具有豐富經(jīng)驗(yàn)的存儲供應(yīng)商是一個明智的起點(diǎn)。
責(zé)任編輯:tzh
-
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279917 -
人工智能
+關(guān)注
關(guān)注
1806文章
49028瀏覽量
249513 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134618
發(fā)布評論請先 登錄
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理
GPU架構(gòu)深度解析

能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電
iTOP-3588S開發(fā)板四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。
超越CPU/GPU:NPU如何讓AI“輕裝上陣”?
適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)
GPU渲染才是大勢所趨?CPU渲染與GPU渲染的現(xiàn)狀與未來

GPU是如何訓(xùn)練AI大模型的
深度學(xué)習(xí)工作負(fù)載中GPU與LPU的主要差異

《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽
名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析
自動駕駛?cè)笾髁餍酒?b class='flag-5'>架構(gòu)分析

評論