運維如何才能不背鍋?這份災備祕籍瞭解一下
不出所料,這次雲硬碟故障,運維人員又“背鍋”了。
運維要想不背鍋,就需要從掌握災備知識做起。不管你是西二旗的小王、陸家嘴軟體園的小孫,還是科興科學園的小張,今天,就讓我們重新武裝自己,一起溫習資料及業務保護的那些知識,早日擺脫背鍋俠的宿命。
備份
備份是指資料或系統的備份,它是容災的基礎,是指為防止系統出現操作失誤或故障導致的資料丟失,而將全部或部分資料集合從應用主機的硬碟或陣列複製到其它儲存介質的過程。
按照備份的資料量,可以分為全量備份、增量備份、差量備份,可以從下圖看出它們之間的差異:
按照備份時間頻率,可以分為定時備份、實時備份。
定時備份——是指有時間間隔的資料備份方式,比如一天一次,一週一次,或者一個月一次,定時備份不能保證資料的零丟失。
實時備份——是指無時間間隔的資料備份方式,通過實時資料複製,保證主備兩端的資料讀寫一致,確保資料的零丟失。
根據資料備份時伺服器是否停機又可分為冷備和熱備;按照資料儲存介質之間的距離又可以分為本地備份和異地備份。
通過網路進行備份是熱備的主要方式,其主要的傳輸模式如圖:
備份是DBA的重要法寶。備份是第一位,有了安全的資料備份,哪怕遭遇一般的災難,也可以從容應對。
快照
快照是指一種快速資料保護技術,快照是某個資料集在某一特定時刻的映象,也稱為即時拷貝,是資料集的一個完整可用的副本。
快照實現的技術方式包括:寫時複製 (COW)、I/O重定向 (I/O Redirect)、映象分離 (Split Mirror)、克隆快照(COW with Copy)、持續資料保護(CDP)等。
快照有兩個作用:
一是能夠進行線上資料恢復,當儲存裝置發生應用故障或者檔案損壞時可以進行及時資料恢復,將資料恢復成快照產生時間點的狀態。
二是為儲存使用者提供額外的資料訪問通道,當原資料進行線上應用處理時,使用者可以訪問快照資料,還可以利用快照進行測試等工作。
目前主流的快照技術包括映象分裂快照技術、按需備份快照技術、指標重對映快照技術、增量快照技術等。
快照產品一般有三種基本形式:基於儲存裝置、卷級別和檔案系統級別。
歸檔
歸檔是把不常訪問的資料遷移到其他儲存裝置上。遷移後可以選擇在原系統中留下歸檔存根,使用者通過對歸檔存根直接訪問,自動回撥歸檔資料,從而實現透明訪問歸檔資料。
歸檔的特點包括改變了系統中的資料及狀態;可大量節省線上儲存空間,提高線上儲存效能;提高備份/恢復速度,並節省備份介質。
歸檔的主要應用物件:檔案系統、NAS;郵件系統:MS Exchange、Lotus Domino;文件系統:SharePoint等。
歸檔的技術路線:
首先設定一個時間線,把檔案分成常用資料和歷史資料兩個部分。
其次要定期進行歸檔操作,把歷史資料存放于歸檔儲存,歸檔後的檔案/郵件在原處可留下存根;使用者訪問存根,歸檔檔案/郵件自動回撥。
最後,歸檔後,只需要對常用資料進行備份,大大減少備份資料量;同理,只要恢復常用資料,系統就能工作,大大降低恢復時間。
CDP
CDP(Continual Data Protection)是一種連續資料保護技術,它兼具資料備份與資料恢復的功能,通過CDP實時備份技術,可以實現到秒級的細粒度抓捕效果。
目前,主流的CDP有很多維度,包括基於儲存資料塊的,儲存快照的,作業系統IO層的。
採取不同的技術維度,所獲得的資料還原細粒度也有所差別,根據恢復的細粒度的大小, 業界將CDP分為真CDP(True CDP)和準CDP(Near CDP)。
真CDP技術是持續不間斷的監控並備份資料變化,可以恢復到過去任意時間點,是真正的實時備份,不會造成資料的丟失。準CDP是指接近持續資料保護,資料備份存在延時,也就是意味著存在部分資料丟失的風險。
根據使用者對RPO的要求以及災備策略的不一樣,CDP技術方案選擇有很大自主性,但是隨著資料量的增長和業務資訊化的加快,未來的趨勢將是以真CDP為主。英方i2CDP屬於真CDP技術,能夠提供細粒度資料持續保護,可恢復至任意歷史時間點。
上面的備份、快照、歸檔和CDP,其實都是為了資料和業務的恢復。
狹義的恢復(Recovery)定義是指重新建立生產系統應用或計算環境的過去操作狀態,包含完全恢復和小顆粒恢復兩種模式。
廣義的災難恢復(國內通常簡稱為災備或容災)則屬於業務連續性的技術層面。在使用者資訊服務中斷後,需要快速調動各種資源,在異地重建資訊科技服務平臺(包括基礎架構、通訊、系統、應用及資料),災難恢復也包括本地的恢復與重建。
容災
通俗地講,這就是容災的範疇。容災,從廣義上講,任何提高系統可用性的措施都可稱之為容災,它的主要作用是幫助使用者快速恢復系統正常功能,持續對外提供服務。
它分為本地容災、異地容災、雲容災。
本地容災,一般指主機叢集,當某臺主機出現故障,不能正常工作時,其他的主機可以替代該主機,繼續進行正常的工作。
異地容災,一般指在與生產機房有一定距離的異地建立與生產機房類似的資訊平臺(備份中心),並採用特定的技術將生產中心的資料傳輸到該備份中心,從而在生產中心發生較大的災難如火災或地質災害時,仍能對生產資料進行保護的容災系統。
雲容災,一般指雲資料中心的物理機或虛擬機器容災。雲主機系統由大量伺服器組成並分佈在不同的地點,同一時間為大量使用者服務,因此雲端計算系統採用分散式儲存的方式儲存資料,用冗餘儲存的方式(叢集計算、資料冗餘和分散式儲存)保證資料的可靠性。這種方式保證分散式資料的高可用、高可靠和經濟性,即為同一份資料儲存多個副本。
綜上,評判資料保護和容災方案優劣的兩個重要參考指標是:RTO和RPO。
RTO是指災難發生後,從系統宕機導致業務停頓之刻開始,到系統恢復至可以支援業務部門運作,業務恢復運營之時,此兩點之間的時間。 RTO可簡單的描述為企業能容忍的恢復時間。
RPO是指災難發生後,容災系統能把資料恢復到災難發生前時間點的資料。它是衡量企業在災難發生後會丟失多少生產資料的指標。 RPO可簡單的描述為企業能容忍的最大資料丟失量。
總而言之,不管是在本地還是雲端,或者兩者之間的災備,資料實時備份、資料恢復粒度越小和容災切換接管越快,將是未來災備領域資料和業務保護的趨勢。