存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境&故障:
某單位一臺(tái)EMC某型號(hào)存儲(chǔ)中有12塊STAT接口的硬盤,其中10塊硬盤組建了一組RAID5陣列,剩下2塊設(shè)置為熱備盤使用。
RAID5陣列中的2塊硬盤出現(xiàn)故障離線,但是只有一塊熱備盤成功激活,導(dǎo)致RAID5陣列不可用,上層LUN無法使用。
存儲(chǔ)數(shù)據(jù)恢復(fù)過程:
1、將故障存儲(chǔ)設(shè)備中所有硬盤編號(hào)后取出,硬件工程師對(duì)所有磁盤做檢測(cè)后沒有發(fā)現(xiàn)有硬盤存在物理故障。使用壞道檢測(cè)工具檢測(cè)也沒有發(fā)現(xiàn)有硬盤存在壞道。
2、將所有磁盤以只讀方式進(jìn)行全盤鏡像,由于源磁盤的扇區(qū)大小為520字節(jié),鏡像完成后將所有備份數(shù)據(jù)做520字節(jié) to 512字節(jié)的轉(zhuǎn)換,便于后續(xù)的數(shù)據(jù)恢復(fù)。
3、上述步驟的檢測(cè)并沒有發(fā)現(xiàn)有磁盤存在物理故障或者是壞道,北亞企安數(shù)據(jù)恢復(fù)工程師推斷導(dǎo)致故障發(fā)生的原因是某些磁盤讀寫不穩(wěn)定。由于EMC存儲(chǔ)的控制器針對(duì)磁盤的檢查策略比較嚴(yán)格,一旦檢測(cè)到某些磁盤性能不穩(wěn)定,EMC存儲(chǔ)上的控制器就很大可能性將這些磁盤識(shí)別為壞盤,并踢出RAID。一旦RAID中掉線的盤數(shù)到達(dá)到該級(jí)別RAID所允許掉盤的最大數(shù)量,RAID就會(huì)崩潰,上層基于RAID的LUN也將不可用。本案例中基于RAID的LUN只有一個(gè),分配給SUN小機(jī)使用,上層文件系統(tǒng)為ZFS。
4、EMC存儲(chǔ)的LUN是基于RAID的。分析每一塊磁盤,發(fā)現(xiàn)其中有2塊盤完全沒有數(shù)據(jù)。從存儲(chǔ)管理系統(tǒng)上發(fā)現(xiàn)這2塊盤都是熱備盤,其中一塊盤替換了一塊壞盤。雖然該塊熱備盤成功激活,但級(jí)別為RAID5的RAID中還缺失一塊硬盤,導(dǎo)致數(shù)據(jù)沒有同步到這塊激活的熱備盤中。分析其他10塊硬盤,分析數(shù)據(jù)在硬盤中分布的規(guī)律、RAID條帶的大小、盤序等重組raid所需的raid相關(guān)信息。
5、根據(jù)分析獲取到的RAID信息虛擬重組RAID。但由于RAID中有兩塊盤掉線,因此需要分析這兩塊硬盤掉線順序。分析每一塊硬盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個(gè)條帶上的數(shù)據(jù)和其他硬盤明顯不一樣,因此初步判斷此硬盤是先掉線的,通過RAID校驗(yàn)程序校驗(yàn)這個(gè)條帶,確定先掉線的硬盤。
6、LUN是基于RAID的,根據(jù)上述分析出來信息重組RAID。分析LUN在RAID中的分配信息和LUN分配的數(shù)據(jù)塊MAP。根據(jù)這些信息使用北亞企安自主開發(fā)的raid恢復(fù)程序,解釋LUN的數(shù)據(jù)MAP并導(dǎo)出LUN的所有數(shù)據(jù)。
7、使用ZFS文件系統(tǒng)解釋程序?qū)ι傻腖UN做文件系統(tǒng)解釋,解釋某些文件系統(tǒng)元文件的時(shí)候程序報(bào)錯(cuò)。北亞企安開發(fā)工程師對(duì)ZFS文件系統(tǒng)解釋程序做debug調(diào)試,分析程序報(bào)錯(cuò)原因。經(jīng)過數(shù)小時(shí)的分析與調(diào)試,發(fā)現(xiàn)存儲(chǔ)突然出現(xiàn)故障導(dǎo)致ZFS文件系統(tǒng)中某些元文件損壞,從而導(dǎo)致正常解釋。
8、由于ZFS文件系統(tǒng)部分元文件損壞,因此需要先修復(fù)這些損壞的文件系統(tǒng)元文件,然后才能正常解析ZFS文件系統(tǒng)。北亞企安數(shù)據(jù)恢復(fù)工程師手工修復(fù)這些損壞的元文件,直到ZFS文件系統(tǒng)能夠正常解釋。對(duì)修復(fù)好的ZFS文件系統(tǒng)做解析,解析所有文件節(jié)點(diǎn)及目錄結(jié)構(gòu)。
9、用戶方工程師對(duì)恢復(fù)出來的數(shù)據(jù)進(jìn)行驗(yàn)證,經(jīng)過驗(yàn)證確認(rèn)恢復(fù)出來的數(shù)據(jù)完整可用。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9795瀏覽量
88001 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
650瀏覽量
18157
發(fā)布評(píng)論請(qǐng)先 登錄
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列多塊硬盤離線導(dǎo)致raid崩潰的數(shù)據(jù)恢復(fù)

raid5數(shù)據(jù)恢復(fù)—Raid陣列重建后如何恢復(fù)原陣列的數(shù)據(jù)?
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列中硬盤壞道導(dǎo)致陣列崩潰的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—Raid5陣列熱備盤上線失敗的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—RAID5陣列熱備盤同步數(shù)據(jù)失敗的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列崩潰導(dǎo)致上層lun無法正常使用的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—用5盤RAID5陣列中的4塊盤重建RAID5陣列后如何恢復(fù)原始數(shù)據(jù)?
RAID5數(shù)據(jù)恢復(fù)—如何重組RAID5陣列?

服務(wù)器數(shù)據(jù)恢復(fù)—RAID5陣列硬盤離線但熱備盤未激活的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—Raid5陣列兩塊硬盤指示燈亮黃色的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤上線同步失敗的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—雙循環(huán)RAID5陣列崩潰,數(shù)據(jù)如何恢復(fù)?
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤未全部成功啟用的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—硬盤離線導(dǎo)致Raid5陣列熱備盤上線失敗的數(shù)據(jù)恢復(fù)案例

評(píng)論