AI加速的關(guān)鍵杠桿
存儲優(yōu)化
鐵子們誰懂??!昨天不到2小時跑完的模型,今天突然變成"樹懶速度"!Tell me why?說起“與時間賽跑”的數(shù)據(jù),AI工程師妥妥破防,這些場面他們已經(jīng)見怪不怪了……
多任務(wù)并行,變成“搶凳子”游戲
當(dāng)自然語言處理、推薦系統(tǒng)和圖像識別同時開跑,每個任務(wù)的訓(xùn)練速度呈指數(shù)級下降,大量時間浪費(fèi)在等待數(shù)據(jù)加載上。像極了早高峰擠地鐵——誰都別想快!
模型迭代,精度與速度孰重?
公司的AI團(tuán)隊(duì)每周模型迭代。隨著數(shù)據(jù)累積到一定程度,模型架構(gòu)也越來越深,每次完整訓(xùn)練超出計(jì)劃時長。團(tuán)隊(duì)含淚在精度和速度之間做起了選擇題。
AI訓(xùn)練減速,存儲系統(tǒng)也要擔(dān)責(zé)
訓(xùn)練速度變得越來越慢,成了研發(fā)效率和創(chuàng)新節(jié)奏的絆腳石。導(dǎo)致AI訓(xùn)練速度變慢的原因錯綜復(fù)雜,別急著甩鍋給算法,也很可能是存儲系統(tǒng)在偷偷"閑置",例如:
1數(shù)據(jù)洪流與存儲帶寬不匹配
現(xiàn)代AI模型訓(xùn)練常需要處理TB甚至PB級數(shù)據(jù),GPU餓到啃手指,而存儲系統(tǒng)卻還在用吸管喂數(shù)據(jù),大量昂貴的計(jì)算資源一時無用武之地。
2隨機(jī)與順序讀取的失衡
AI深度訓(xùn)練時,會通過數(shù)據(jù)增強(qiáng)和隨機(jī)采樣技術(shù)對原始數(shù)據(jù)進(jìn)行旋轉(zhuǎn)、裁剪、打亂等操作,來獲得更豐富、更多樣化的訓(xùn)練數(shù)據(jù)!但難點(diǎn)是硬盤得滿場“飛檐走壁”讀數(shù)據(jù),隨機(jī)讀寫和順序讀寫一旦失衡,容易形成存儲訪問瓶頸。
3冷熱數(shù)據(jù)一視同仁
訓(xùn)練過程中,本應(yīng)享受優(yōu)先待遇的熱數(shù)據(jù),結(jié)果和冷數(shù)據(jù)一起排隊(duì);而本該躺平的冷數(shù)據(jù),卻抓出來一起卷,結(jié)果緩存擺爛、分布式訓(xùn)練時全員卡頓。
存儲優(yōu)化,讓數(shù)據(jù)跑起來!
算力和存儲就像印刷廠的神仙CP,計(jì)算會像“機(jī)器印刷文字”一樣生成大量token(詞元),而存儲就是“紙張”。AI模型訓(xùn)練,大規(guī)模的算力要求存儲系統(tǒng)提供更高性能的數(shù)據(jù)訪問,就如印刷機(jī)提速了,紙張的質(zhì)量和供應(yīng)速度也要同頻給力。那如何優(yōu)化存儲呢?
1 智能分層:數(shù)據(jù)科學(xué)分管
智能分層存儲系統(tǒng)通過實(shí)時監(jiān)控?cái)?shù)據(jù)訪問模式,自動將頻繁訪問的"熱數(shù)據(jù)"配"超跑",常駐高速存儲,將不常訪問的冷數(shù)據(jù)妥善保管,"溫?cái)?shù)據(jù)"存在平衡性能與成本的中間層??娠@著提升緩存命中率,減少等待時間。
2并行存儲:突破帶寬瓶頸
分布式存儲系統(tǒng),通過將數(shù)據(jù)分散在多個節(jié)點(diǎn)上,實(shí)現(xiàn)了聚合帶寬的線性增長。把數(shù)據(jù)分散部署,系統(tǒng)統(tǒng)一指揮,團(tuán)隊(duì)?wèi)?zhàn)速!告別"單車道堵車",滿足大規(guī)模分布式訓(xùn)練的需求。
作為分布式存儲系統(tǒng)的其中一部分,HDD硬盤在其中大有作為。東芝MG10系列20TB企業(yè)級硬盤,采用CMR傳統(tǒng)磁記錄技術(shù),20TB海量存儲空間+7200rpm轉(zhuǎn)速、最大數(shù)據(jù)傳輸速度達(dá)268MiB/s,讓數(shù)據(jù)輸送從"鄉(xiāng)村小路"升級為"高鐵"!且額定工作負(fù)載高達(dá)550TB/年,平均無故障時間達(dá)250萬小時,高耐用性適用于寫入密集的訓(xùn)練場景。
By the way,云存儲的彈性優(yōu)勢也不容忽視,突發(fā)性訓(xùn)練任務(wù),資源秒擴(kuò)容,絕不掉鏈子。結(jié)合本地緩存加速,可構(gòu)建混合云訓(xùn)練環(huán)境,速度省錢它都給!
在AI訓(xùn)練的全棧優(yōu)化中,存儲配置往往能以較小杠桿,撬動顯著的加速效果,根據(jù)分析訓(xùn)練任務(wù)的數(shù)據(jù)訪問模式、帶寬需求和延遲敏感度,選擇匹配的存儲架構(gòu),可以給企業(yè)狠狠上大分,充分釋放計(jì)算資源潛力,保持競爭優(yōu)勢!
-
東芝
+關(guān)注
關(guān)注
6文章
1428瀏覽量
122139 -
存儲
+關(guān)注
關(guān)注
13文章
4469瀏覽量
86895 -
AI
+關(guān)注
關(guān)注
87文章
33554瀏覽量
274198
原文標(biāo)題:福利 | 解決AI“龜速”煩惱的性能優(yōu)化秘籍
文章出處:【微信號:Toshiba-Electronics,微信公眾號:東芝硬盤】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
東芝固態(tài)硬盤解決方案

將電腦硬盤變成云存儲,怎么做到把多余電腦硬盤變成云存儲

SATA硬盤的性能優(yōu)化技巧
SATA硬盤與NVMe硬盤的比較
服務(wù)器數(shù)據(jù)恢復(fù)—多塊硬盤離線導(dǎo)致EVA存儲崩潰的數(shù)據(jù)恢復(fù)案例

如何優(yōu)化ipc監(jiān)控系統(tǒng)的存儲方案
什么是大硬盤存儲能力強(qiáng)的服務(wù)器?
東芝PC級機(jī)械硬盤助力新聞工作者有效存儲數(shù)據(jù)
如何優(yōu)化emc存儲性能
關(guān)于對象存儲和云硬盤區(qū)別,你了解多少?
東芝推出新一代Mx11系列機(jī)械硬盤
東芝推出MG10-D系列企業(yè)級硬盤

評論