用于模擬各類場景的高性能計算(HPC)類工作負(fù)載,總會產(chǎn)生大量有待篩選的數(shù)據(jù)。事實(shí)上,這也正是HPC與AI的最大區(qū)別:前者輸入數(shù)據(jù)少,輸出數(shù)據(jù)多;后者則需要輸入大量信息,通過訓(xùn)練轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)中的少量參數(shù)和權(quán)重。
但在HPC模擬所生成的數(shù)萬億個粒子當(dāng)中,真正值得研究人員關(guān)注的可能只是幾百或幾千個粒子的實(shí)際行為。
洛斯阿拉莫斯國家實(shí)驗(yàn)室副部門負(fù)責(zé)人加里·格里德(Gary Grider)在采訪中表示,“這就像是大海撈針,實(shí)際要尋找的只是總體數(shù)據(jù)中的小小一部分。”這個問題在體量較小的數(shù)據(jù)集上相對好些,但阿拉莫斯實(shí)驗(yàn)室卻向來以超大規(guī)模研究著稱?!拔覀兛赡軙\(yùn)行一個內(nèi)存占用量高達(dá)PB級別的實(shí)驗(yàn),而它往往每隔幾分鐘就輸出一次PB級數(shù)據(jù)”,且整個過程會持續(xù)半年之久。
為了篩選這些數(shù)據(jù),科學(xué)家們使用一套分析工具來查明到底哪些信息真正具有價值。過去幾年來,阿拉莫斯實(shí)驗(yàn)室一直在想辦法讓分析負(fù)載跟數(shù)據(jù)盡可能接近,甚至考慮把計算轉(zhuǎn)移到閃存或硬盤控制器上。從某種意義上說,阿拉莫斯實(shí)驗(yàn)室及其合作伙伴想要構(gòu)建一套大型磁盤控制器集群,利用上面的空閑時鐘周期來處理分析功能。
阿拉莫斯實(shí)驗(yàn)室的研究人員已經(jīng)取得了一定進(jìn)展。通過與SK海力士合作,他們實(shí)現(xiàn)了將規(guī)約功能引入控制器的概念驗(yàn)證,借此獲得了幾個數(shù)量級的性能改進(jìn)。
格里德表示,“我們已經(jīng)證明,通過對規(guī)約這類簡單分析的全速執(zhí)行,磁盤驅(qū)動器自身就能從磁盤內(nèi)提取數(shù)據(jù),從而徹底消除了傳輸帶寬產(chǎn)生的成本?!?/p>
跟能源部下轄的其他HPC實(shí)驗(yàn)室一樣,阿拉莫斯實(shí)驗(yàn)室同樣采用分層存儲架構(gòu),目前已經(jīng)開始在更大的磁盤池上做類似的探索。為了更進(jìn)一步,阿拉莫斯實(shí)驗(yàn)室與希捷簽訂了合作研發(fā)協(xié)議。
“事實(shí)證明,希捷方面也在嘗試將部分負(fù)載轉(zhuǎn)移到存儲設(shè)備上。他們已經(jīng)擁有原型方案,處理器就部署在磁盤驅(qū)動器旁邊?!?/p>
彈性問題
但大家都知道,機(jī)械硬盤與閃存不同。閃存內(nèi)部不存在移動部件,而且在使用壽命之內(nèi)具有相對更可預(yù)測的故障率。相比之下,硬盤驅(qū)動器內(nèi)部存在機(jī)械結(jié)構(gòu),隨時都有可能發(fā)生故障。這就要求對硬盤做一定程度的彈性化改造——換言之,引入擦除碼或RAID。
“但這也會增加分析流程的復(fù)雜度。要進(jìn)行分析,我們必須了解數(shù)據(jù)是什么。但磁盤驅(qū)動器往往做不到它一點(diǎn),它只會把所有信息都看作數(shù)據(jù)塊?!?/p>
因此加里德的團(tuán)隊必須從零開始構(gòu)建一套專用于存儲加速分析的文件系統(tǒng),否則一切都只是空談。
“我們不希望這事只有阿拉莫斯實(shí)驗(yàn)室自己參與,畢竟我們后續(xù)得定期采購、還需要廠商提供售后支持。”
于是,阿拉莫斯實(shí)驗(yàn)室選擇對現(xiàn)有文件系統(tǒng)做“魔改”,選擇的則是Sun Microsystems早年間打造的Zettabyte文件系統(tǒng)。這是一套專門管理大型彈性磁盤驅(qū)動器池的系統(tǒng),如今被人們親切稱為Spinning Rust。ZFS還能配合Gluster實(shí)現(xiàn)多節(jié)點(diǎn)擴(kuò)展,Gluster則是Red Hat當(dāng)初收購來的集群文件系統(tǒng)。至于分析任務(wù),工程師們將努力調(diào)整文件系統(tǒng),讓它能與Apache的分析堆棧配合運(yùn)作。
“我們希望努力打造出任何人都能使用的標(biāo)準(zhǔn)工具?!?/p>
雖然阿拉莫斯實(shí)驗(yàn)室及其合作伙伴有望構(gòu)建起一套能夠直驅(qū)分析處理的文件系統(tǒng),但其初期部署難度絕不是一般用戶所能承受的。
因此,格里德希望進(jìn)一步完善文件系統(tǒng)和分析工具,吸引標(biāo)準(zhǔn)機(jī)構(gòu)和軟件開發(fā)者為其添加更多功能,最終打造出一款面向主流受眾的新方案。
任重而道遠(yuǎn)
格里德也承認(rèn),這方面還有很多工作要做。“要達(dá)到消費(fèi)級應(yīng)用的程度,可謂是任重而道遠(yuǎn)。我們接下來要做的是將其轉(zhuǎn)化成某種對象模型,而不再是文件中的一個個塊?!?/p>
目前,阿拉莫斯實(shí)驗(yàn)室的初步目標(biāo)是將少量分析功能轉(zhuǎn)移至磁盤控制器。
“我們還沒有將完整的分析工作負(fù)載轉(zhuǎn)移到磁盤驅(qū)動器上,目前做的主要是規(guī)約還有一部分合并。但總體來看,規(guī)約已經(jīng)可以在設(shè)備層次上實(shí)現(xiàn),之后還有合并和排序這類通常在閃存或內(nèi)存中實(shí)現(xiàn)的操作?!?/p>
目前最大的障礙并不是算力,而是磁盤所內(nèi)置的有限內(nèi)存。格里德坦言,“現(xiàn)在磁盤的內(nèi)置內(nèi)存太小,不足以做排序,只能完成選擇操作。所以接下來的問題是,我們要怎樣增加磁盤的內(nèi)置內(nèi)存容量來提升操作復(fù)雜度?!?/p>
審核編輯 :李倩
-
驅(qū)動器
+關(guān)注
關(guān)注
54文章
8688瀏覽量
149835 -
控制器
+關(guān)注
關(guān)注
114文章
17089瀏覽量
184093 -
機(jī)械硬盤
+關(guān)注
關(guān)注
1文章
228瀏覽量
25839
原文標(biāo)題:洛斯阿拉莫斯實(shí)驗(yàn)室聯(lián)手希捷,嘗試將計算與機(jī)械硬盤相結(jié)合
文章出處:【微信號:cunchujie,微信公眾號:存儲界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
實(shí)驗(yàn)室安全管理成焦點(diǎn),漢威科技賦能實(shí)驗(yàn)室安全升級

阿特斯光伏測試中心榮獲DEKRA德凱目擊實(shí)驗(yàn)室資質(zhì)
蘇州地鐵與科沃斯成立AI清潔機(jī)器人聯(lián)合實(shí)驗(yàn)室
從零到一:集成電路封裝測試實(shí)驗(yàn)室建設(shè)的關(guān)鍵要素

評論