數(shù)字化時代,企業(yè)需要更加復雜的 IT 基礎架構以確保業(yè)務的正常開展。因此,IT 基礎架構一旦出現(xiàn)問題就有可能給企業(yè)帶來巨大的損失,甚至使企業(yè)消失。因此,現(xiàn)代企業(yè)中,IT 災害仍然是對生產(chǎn)過程最大的威脅。
什么是災難?
災難是具有挑戰(zhàn)性的麻煩,它能夠立即讓可用的人力、IT、財務和其他資源的能力不堪重負,并導致寶貴資產(chǎn)(例如文檔、知識產(chǎn)權對象、數(shù)據(jù)或硬件)的重大損失。
在大多數(shù)情況下,災難是導致非典型威脅的突然事件鏈,一旦災難開始,這些威脅就很難或不可能停止。根據(jù)災難的類型,企業(yè)必須制定嚴格的預警方案。
災難主要有三種類型:
1)自然災害:當聽到“災難”一詞時,大部分人可能會想到的第一件事就是自然災害。不同類型的自然災害包括洪水、地震、森林火災、異常高溫、強雪、暴雨、颶風和龍卷風以及海洋風暴。
2)技術和人為災害:技術災難是與技術基礎設施故障、人為錯誤或邪惡意志有關的任何事物,包括軟件中斷、發(fā)電故障等在內(nèi)的任何問題。
3)混合災害:這些災難包括全球軟件中斷、關鍵硬件故障、停電和任何電力供應問題、惡意軟件(包括勒索軟件)、電信問題(包括網(wǎng)絡隔離)、軍事沖突、恐怖主義事件、大壩故障、化學事件。
要說明的是,第三類災害包括了將自然和技術因素的特征結合在一起的混合災害。例如,大壩故障可能導致洪水,導致整個地區(qū)或國家的停電和通信問題。
什么是災難恢復?
災難恢復 (DR) 是在發(fā)生全球破壞性事件后應采取的一組操作(方法),用于恢復和還原操作。主要的災難恢復活動側重于重新獲得對數(shù)據(jù)、硬件、軟件、網(wǎng)絡設備、連接和電源的訪問權限。災難恢復行動還可以涵蓋重建后勤、搬遷工作人員和購買辦公設備,以防資產(chǎn)損壞或毀壞。
若要創(chuàng)建災難恢復計劃,需要考慮在以下時間段內(nèi)要完成的操作序列:
1)災難發(fā)生前(構建、維護和測試 DR 系統(tǒng)和策略)。
2)在災難期間(采取即時響應措施以避免或減輕資產(chǎn)損失)。
3)災后(應用災備系統(tǒng)恢復運營,聯(lián)系客戶、合作伙伴,分析損失和恢復效率)。
災難恢復計劃中包含的12大要素
1)業(yè)務影響分析和風險評估數(shù)據(jù)
在此步驟中,主要研究對組織造成的典型和最危險威脅和漏洞。有了這些知識,能夠計算特定災難發(fā)生的概率,衡量對生產(chǎn)的潛在影響,并更加輕松地實施合適的災難恢復解決方案。
2)恢復目標:定義的 RPO 和 RTO
RPO 恢復點目標:該參數(shù)定義在不對生產(chǎn)產(chǎn)生重大影響的情況下可以丟失的數(shù)據(jù)量。
RTO 恢復時間目標:即企業(yè)可以容忍的最長停機時間,因此也是完成恢復工作流的最長時間。
3)職責分配
建立一個了解每個成員在發(fā)生災難時的負責的主要工作的團隊,是高效災難恢復計劃的必備組成部分。組建一個特殊的災難恢復團隊,為每位員工分配特定角色,并培訓他們在實際災難發(fā)生之前履行自己的角色,這是在需要實際行動來保存企業(yè)資產(chǎn)和生產(chǎn)時避免混淆和缺失鏈接的方法。
4)災難恢復站點創(chuàng)建
任何規(guī)模或性質(zhì)的災難都可能嚴重損壞企業(yè)主服務器和生產(chǎn)數(shù)據(jù),使恢復運營變得不可能或非常耗時。在這種情況下,具有關鍵工作負載副本的 DR 站點是將 RTO 降至最低并在緊急情況期間和之后繼續(xù)向企業(yè)客戶端提供服務的最佳選擇。
5)故障恢復準備
故障恢復是在主數(shù)據(jù)中心再次運行時,將工作負載返回到主站點的過程,在規(guī)劃災難恢復時可能會忽略。
盡管如此,事先建立故障恢復順序,有助于使整個過程更加順暢,并避免可能發(fā)生的輕微數(shù)據(jù)丟失。此外,災難恢復站點通常不是為長時間支持基礎結構的功能而設計的。
6)關鍵文檔和資產(chǎn)的遠程存儲
如今,即使是小型企業(yè)也會生成和處理大量關鍵數(shù)據(jù)。丟失硬拷貝或數(shù)字文檔可能會使其恢復變得耗時、昂貴甚至不可能。
因此,準備遠程存儲(例如,用于數(shù)字文檔的 VPS 云存儲和用于硬拷貝資產(chǎn)的受保護物理存儲)是確保在發(fā)生災難時重要數(shù)據(jù)可訪問性的可靠選擇。
7)注明設備要求
此 DR 計劃需要審核支持企業(yè) IT 基礎結構正常運行的節(jié)點。這包括計算機、物理服務器、網(wǎng)絡路由器、硬盤驅(qū)動器、基于云的服務器托管設備等。
這些知識使您能夠查看在災難發(fā)生后恢復 IT 環(huán)境的原始狀態(tài)所需的元素。此外,企業(yè)還可以查看至少支持任務關鍵型工作負載所需的設備列表,并確保在主要資源不可用時生產(chǎn)連續(xù)性。
8)通信通道定義
確保為員工、管理層和災難恢復團隊提供穩(wěn)定可靠的內(nèi)部通信系統(tǒng)。設置通信通道的使用順序,以處理災難發(fā)生后主服務器和內(nèi)部網(wǎng)絡不可用的情況。
9)概述響應程序
在災難恢復計劃中,最初的幾個小時至關重要。創(chuàng)建有關如何執(zhí)行 DR 活動、監(jiān)視和執(zhí)行流程、故障轉(zhuǎn)移序列、系統(tǒng)恢復驗證等的分步說明。盡管采取了所有預防措施,但如果生產(chǎn)中心仍然發(fā)生災難,對特定事件的集中和快速響應可以幫助減輕損害。
10)快速報告事件
在災難發(fā)生并中斷生產(chǎn)后,不僅應通知災難恢復團隊成員。您還需要通知相關人員,包括營銷團隊、第三方供應商、合作伙伴和客戶。
作為災難恢復計劃的一部分,創(chuàng)建大綱和腳本,向員工展示如何通知每個關鍵組其關注的問題。此外,事先創(chuàng)建的基本新聞稿可以幫助您避免在實際事件中浪費時間。
11)災難恢復計劃測試和調(diào)整
成功的企業(yè)會隨著時間的推移而變化和擴展,其災難恢復計劃應根據(jù)相關需求和恢復目標進行調(diào)整。完成計劃后立即對其進行測試,并在每次引入更改時執(zhí)行其他測試。因此,企業(yè)可以衡量災難恢復計劃的效率并確保資產(chǎn)的可恢復性。
12)應用最佳災難恢復策略
災難恢復策略可以在DIY(自己動手)的基礎上實施,也可以委托給第三方供應商。前一種選擇是為了經(jīng)濟而犧牲可靠性的方式,而后者可能更昂貴但更有效。
災難恢復策略的選擇完全取決于企業(yè)的功能,包括團隊規(guī)模、IT 基礎架構復雜性、預算、風險因素和所需的可靠性等。
總結
災難是突然的破壞性事件,可能使組織無法運行。自然、人為和混合災害具有不同級別的可預測性,但在組織級別上幾乎無法預防。確保組織安全的唯一方法是根據(jù)組織的特定需求創(chuàng)建可靠的災難恢復計劃。
-
IT
+關注
關注
2文章
881瀏覽量
64078
原文標題:IT系統(tǒng)災難恢復計劃的12大要素
文章出處:【微信號:D1Net11,微信公眾號:存儲D1net】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
虛擬化數(shù)據(jù)恢復—VMware虛擬化環(huán)境下重裝系統(tǒng)導致服務器數(shù)據(jù)丟失的數(shù)據(jù)恢復

HPC工作負載管理的關鍵要素
網(wǎng)絡恢復比災難恢復更加復雜
服務器數(shù)據(jù)恢復—Zfs文件系統(tǒng)服務器數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—EVA存儲誤刪除VDISK的數(shù)據(jù)恢復案例

TAS5805M如果DVDD選用1.8V輸入時, 電流最大要選擇多少?
服務器數(shù)據(jù)恢復—從數(shù)據(jù)恢復的角度討論RAID磁盤陣列的存儲安全問題
假如服務器的數(shù)據(jù)丟失,如何快速恢復丟失的數(shù)據(jù)?
通用汽車旗下Cruise據(jù)悉計劃年內(nèi)恢復完全自動駕駛服務
建設智慧城市的要素

評論