“多活”不易!
“多活”不易!活得有質量更不容易!當然,這裡的“多活”並非生物學概念,一般常將“本地多活”與“異地災備”拿來做比較。但最近“多活”被提起來的次數越來越多,也越來越被重視,GitHub事件成為多活這個技術領域的標誌性事件。
多活不易 GitHub標誌性事件回顧
GitHub在全球擁有2800萬用戶,託管著5700萬個程式碼倉庫,Python、Ruby on Rails等絕大多數開源專案託管於此。被戲稱為“全球最大的同性交友社群”的GitHub,卻在2018年10月22日時出現了一次大規模的故障,導致服務中斷時間24小時,這24小時故障導致絕大部分網際網路企業的技術人員無法正常工作,影響很大。
事實上,GitHub搭建了自己的多活系統,而10月份的故障,正是因為其多活系統出現故障而導致的。GitHub兩個機房之間的網路出現中斷,服務發生切換後,多活系統考慮不全,導致系統發生腦裂,兩邊資料不一致,為了保證使用者資料的一致性,只能直接停服,用了24小時時間恢復資料,最終導致了服務中斷。
GitHub這樣一個實力強勁的技術網站,多活業務也出現瞭如此大的故障。由此可見,實現真正的多活並不容易。
什麼是真正的多活?
不容易的多活技術,催生的不僅是這個市場,更緣於業務對多活的需求。對客戶而言,業務的可靠性、連續性、穩定性才是真正的訴求。
無論是裝置還是硬體,便一定會有故障的機率。電飯煲發生故障便無法做飯;熱水器發生故障就沒法洗澡;資料中心裡需要依賴的硬體也有故障的可能性,伺服器故障時會影響這臺伺服器上執行的所有虛擬主機;交換機故障會影響資料中心網路。即便是整個資料中心,也有可能因為斷電、起火、雷擊等原因發生整體故障。
因而,多活應該是基於多個數據中心的多活,而且最終的多活一定是業務的多活,可以7*24小時保證業務線上,同時必須規避任何的單點,包括一個數據中心內部的單點甚至是整個資料中心宕機的單點。
青雲QingCloud運營副總裁林源在接受企業網D1Net記者採訪時指出:“部署多活,一定要理解多活的目的是什麼?增強系統的可靠性、提升業務的連續性,使業務在執行過程中不受任何故障和災難的影響。這是多活的價值所在,這才是真正的多活。”
多活的兩大技術指標:RTO與RPO
多活有兩個重要的技術指標:一是RTO(業務恢復時間),二是RPO(資料的丟失量)。
這兩個指標無論對於網際網路企業還是對於銀行等核心業務,都至關重要。業務恢復時間決定了客戶體驗,資料的丟失量決定了資料的質量,因此,這兩個指標都必須趨近於0,同時需要保證是7*24小時線上的可用服務。
多活場景探討
並不是所有的場景都需要多活,因為多活需要付出一定的成本。需要多活的業務,一是這個業務很重要,它故障後會影響公司業務,導致客戶資金受損;二是這個業務面向廣泛的客戶,影響較大。一般包括如下幾類:
第一種是大規模線上運營業務,比如電商網站、微信、微博等,業務中斷是不能忍受的,因為每天都有大量的客戶在使用這個服務。雙十一的每秒宕機就可能損失幾十萬筆交易,這樣的業務要求零中斷,必須保證業務的連續性。
第二種是銀行、保險、重型製造等場景,銀行IT架構需要符合銀監會的規定,需要有兩地三中心。即兩個城市,三個資料中心的部署。
多活不易 “不易”的深層原因探討
多活不易,除了我們看到類似GitHub這樣的技術企業都很難搞定的表象外,更深層次的原因在於它是一個系統工程,既需要技術,也需要人才儲備,還有各種大額成本投入等等因素。
首先,構建多活系統成本極高,比如銀行兩地三中心的業務至少需要在兩個城市投入三個機房,三個機房需要有網路連線,在每個機房裡要投入大規模的硬體,業務在兩個機房都要部署,成本極高。
其次,多活系統需要招聘和培養專業人員;
第三,需要花費大量的時間,挑機房、鋪光纖、鋪網路。
實際上,要做好支撐業務的多活,首先需要在資料中心、網路、資料、負載等層面做準備,其次,作為一個複雜的系統工程,只要底層任意一個環節出現問題,便有可能造成整套多活系統的崩潰。
青雲多活以服務形式交付多活能力
據林源介紹,青雲多活推出的Region服務,可以從基礎設施、基礎架構(IaaS)、分散式應用等各個層面提供多活基礎架構服務,以服務形式交付多活能力,從而讓客戶以更低的成本、更低的門檻部署他們自己的多活業務。
第一,青雲將從基礎設施層持續投入,青雲現有三個大區提供多活服務:北京3區、廣東2區、上海1區。北京3區最早便上線了多活Region架構。
第二,青雲將在基礎架構(IaaS)給使用者提供足夠多的通用元件,當用戶部署業務時,會需要負載均衡器、網路、公網頻寬等。青雲提供的負載均衡、網路和公網本身均是多活架構。
第三,青雲將在應用層或者PaaS層給使用者提供支撐,通過青雲的SQL/">MySQL Plus(基於MySQL的資料庫服務)、MongoDB,為客戶提供資料庫服務,讓使用者部署業務更簡單。
同時,青雲擁有全方位一體化的交付能力,不僅提供公有云服務,也可以提供混合雲和私有云的交付。在公有云上,青雲可以交付多活的基礎設施;在混合雲架構下,也可以利用青雲的SD-WAN骨幹網加上私有云和公有云統一架構,給客戶提供混合雲架構下的多活基礎設施。
寫在最後
事實上,GitHub事件在前,讓多活解決方案提供商及服務商驚出一身冷汗的同時,也倒逼各供應商從技術與流程入手,更加努力為客戶提供一個更加穩定的服務。這對行業而言無疑是從教訓中長進。
青雲QingCloud推出的真正多活Region架構服務,是良機也是挑戰!