【重慶銀行副行長 隋軍】同城雙活秒級切換——重慶銀行“雙活”核心建設實踐
2018年9月23號16點16分,凝聚著重慶銀行人心血的新一代核心業務系統與應用級雙活資料中心成功上線。本次應用級雙活資料中心與新一代核心業務系統的順利上線,實現了重慶銀行資料中心架構與業務系統的整體重構,帶來了重慶銀行業務與技術的全面轉型,開啟了重慶銀行科技賦能業務發展的新篇章。在新一代核心系統的建設部署過程中,使用多層業務排程框架(DLLB)構架應用雙活體系,實現核心系統雙活部署執行,併成功實現秒級應用災備切換。
啟用“新核心”打造金融科技新優勢
重慶銀行老核心系統於2004年建設上線,對業務經營和發展產生了強有力的支撐作用。近年來,國內外金融環境複雜多變,金融監管要求日趨嚴格,客戶需求日益多樣化,跨界及同業競爭加劇,金融科技迅猛發展,網際網路金融浪潮興起,商業銀行間的競爭已趨白熱化。老核心系統逐漸顯現出客戶支援能力不足、業務處理效率偏低、產品創新速度較慢以及跨渠道服務能力較弱等問題,亟待更新升級以適應外部形勢變化的要求。
正是在這樣的大背景下,2017年6月2日,重慶銀行啟動了新一代核心系統建設專案,行領導親自掛帥管理,科技部和運營管理部雙牽頭實施,總行各業務部門、各分支機構積極參與配合。這是重慶銀行領導層為加大改革創新力度而採取的重大戰略決斷,是一項涵蓋業務轉型、技術轉型和實施轉型在內、事關重慶銀行全域性的企業級系統工程。
重慶銀行新一代核心系統涉及行內50多個渠道及業務系統、20多個管理類系統的配合改造,在吸收了老核心系統優點的基礎上,兼顧了監管、市場、業務的訴求,功能更全面、技術更先進、理念更領先、可擴充套件性好。重點突出了“以客戶為中心、以市場為導向”的戰略理念,實現了更加優質智慧的客戶服務、更加全面精準的業務資料、更加靈活快速的產品創新、更加便捷高效的業務辦理效率和多維科學的安全保護體系。
核心業務系統高可用建設目標
核心業務系統一直是銀行IT系統中保障業務連續性要求的重要系統,監管提到的“商業銀行應根據自身業務的性質、規模和複雜度制訂適當的業務連續性規劃。以確保在出現無法預見的中斷時,系統仍能持續執行並提供服務,並通過採取相應技術措施降低業務中斷的可能性和影響”,也是對核心業務系統的安全穩定高可用架構的監管要求。
正是基於業務連續性以及資源利用率考慮,重慶銀行在新一代核心業務系統建設中選擇以“同城應用級雙活”模式為目標。應用級雙活(Active-Active)就是在正常情況下,應用兩個資料中心都是活動線上並提供服務的,是相對於傳統應用主備模式(Active-Standby)的一種利用率、可用性更高的建設形式。
應用級雙活模式,既兩個資料中心所部署的核心業務系統是對等、不分主從、並同時提供對外服務的:在一個數據中心發生故障或災難的情況下,同城資料中心仍然可以正常執行並對關鍵業務或全部業務實現接管,達到互為備份的效果。正常模式下兩個資料中心的核心業務系統之間協同工作,並行對外提供服務,實現了對IT資源的充分利用,避免某個備份中心處於閒置狀態,造成資源與投資浪費。因此應用級雙活資料中心的服務能力往往雙倍甚至數倍於主備資料中心模式。
核心系統的同城雙活建設部署
在核心業務系統“應用級雙活”部署階段,重慶銀行綜合考慮了本行資料中心機房基礎環境、網路、系統的特點以及第一批次中51套業務系統的相關特性,綜合新一代核心業務系統建設目標和專案要求,最終在跨資料中心“OSPF動態路由+RHI健康路由注入”基礎上,設計了獨特的DLLB(多層業務排程)框架,並率先在國內城商行範圍內使用了純IP訪問、動態分配負載方式的應用級雙活建設部署方案。DLLB多層業務排程框架如下圖所示。
圖 DLLB多層業務排程框架
DLLB多層業務排程框架,就是在同城兩個資料中心的核心網路層部署專用的全域性排程負載均衡裝置來專門處理跨資料中心的交易資料排程;在每個資料中心內的各業務生產區域,同樣部署了區域負載均衡裝置,用於對叢集應用服務的負載均衡交付服務。
全域性排程負載均衡裝置和區域負載均衡裝置通過完善的健康檢查機制與負載分配機制協調工作:當部分應用節點發生異常時,區域負載均衡裝置能夠自動隔離故障節點,保障區域內業務系統執行的高可用性和穩定性;全域性負載均衡裝置將兩個資料中心結合為一個有機整體,實現雙中心同時承載業務,並作為另一個數據中心的災備支援。
通過DLLB多層業務排程框架,實現了每個伺服器節點安全獨立執行,互不影響,同時實現節點的熱插拔功能,方便系統維護調整。當某個資料中心出現整體故障時,只需秒級即可由同城資料中心完成整體業務接管;這種多層業務排程框架分別從跨中心的全域性應用高可用層面和資料中心內部的本地應用高可用層面,為新一代核心業務系統的應用雙活創造了實施條件。
綜合來看,重慶銀行新一代核心業務系統的DLLB多層業務排程框架具有如下優點:同城雙資料中心採用三層網路互聯,區域隔離,保障了每個資料中心及其功能區域的隔離,具有良好的安全特性;藉助於“OSPF動態路由+RHI健康路由注入”技術,實現了跨中心負載均衡裝置同步協調的高可用執行,技術框架穩定可靠;基於純IP負載分配方案,能夠有效減少核心業務系統開發階段的相關改造工作量、優化專案實施進度,降低核心業務系統開發難度;基於純IP流量分配引導方案,相較於基於域名的流量分配引導方式,在故障切換過程中更加迅速,可以將應急切換週期從分鐘級下降至秒級。
2018年8月17日投產演練階段,重慶銀行新一代核心業務系統完成生產雙活部署。8月17日至9月12日,對新一代核心雙活執行模式和應急切換方案進行了最終測試。9月23日16時16分,新一代核心業務系統在雙中心同時上線,同時提供交易服務。
結語:核心同城雙活的效果
新一代核心業務系統上線後,通過收集負載均衡裝置的執行日誌進行分析發現,在現有分配引數下,主資料中心承載了51%~55%的核心交易,同城雙活資料中心承載了49%~45%的核心業務交易,實現了核心業務應用同時提供服務的“雙活”效果,並提升了資源利用效率。
新一代核心業務系統上線投產後,重慶銀行在正常生產執行狀態下組織了模擬交易異常的應急切換演練;當一個數據中心的核心繫統部分交易執行緩慢時,為避免出現業務中斷,保障業務持續執行,按照預案組織緊急切換,迅速將核心交易業務全部引導至另一個數據中心。整個過程中切換指令下發時間小於30秒,渠道類業務切換時間小於10秒,櫃面業務切換時間小於1分鐘,所有業務交易均無明顯中斷,實現了使用者無感知的應急切換操作,達到了核心“雙活”的設計目標。