多雲並非避免雲故障的最優手段,同城容災、資料備份等就可以解決
在單雲就能滿足要求的情況下盲目追求多雲有點像是“何不食肉糜”了。畢竟IT選型第一目標是:適用。
近日,某雲廠商故障問題引起業內關注。有人提出,企業是否要選擇其他方式來避免雲故障損失,其中多雲部署被多次提出。但同時不少人持反對意見,認為從價效比、技術實力等考慮多雲並不現實。有意思的是,幾乎無人質疑雲計算比自建資料中心更為安全穩定。
首先需要確認一點:在全球範圍內主流雲廠商的故障時有發生。例如亞馬遜AWS在2017年2月,就曾因一條錯誤指令引起宕機,影響了包括Slack、Quora和Trello在內的很多企業平臺,停機4小時。去年9月,微軟Azure資料中心還意外遭雷劈發生故障。
有網友評論,凡是IT都有故障概率,相對於傳統IT單機,雲端計算已經通過大規模排程降低了故障率,大多數雲廠商都宣告可用性在99.9%-99.999%之間,且多數在故障後恢復很快。
知名市場研究機構Gartner旗下的CloudHarmony網站通過對48家雲服務商故障發生的次數和市場監測表明,主流雲廠商整體宕機時間在大幅縮短,意味著雲廠商技術更加成熟,整體服務穩定性在逐年提高。
其次,多部署幾個雲就可以避免雲故障帶來的損失?亞馬遜AWS執行長Andy Jassy三年前就曾公開表示,使用多個雲服務商的做法價效比不高。他認為,如果企業想走多雲之路,最基本的要實現最底層的標準化,但是現在的雲平臺大都不同。其次,要維持多個堆疊的執行,不僅對資源要求高,而且昂貴,這對很多人來講都是件傷腦筋的事。
Electric Cloud 公司的首席技術官兼聯合創始人Anders Wallgren也認為,企業在嘗試使用多雲戰略之前,一定要確保自己真正瞭解雲端計算。舉個例子,企業團隊可能具備使用多個 SaaS 應用程式的能力——但並不表示企業就能在多個平臺上管理多個 IaaS 環境。
而修理成本、日常管理和維護成本等也是IT決策者們要清醒認識的問題,如果只是奔著避免雲故障的目標,最後可能發現要付出巨大的成本。
因此,對多雲持猶豫態度的專家提出了一個更為現實的選項:相比用多雲來解決穩定問題,更務實的做法是充分利用現有云服務商的最佳實踐,優化自身系統的可用性。
雲廠商基本已提供完善的容災架構設計,包括冷備、熱備、同城雙活、異地多活等策略,可以針對系統可用級別與成本、效率綜合考慮。對於不太重要的業務可以基於冷備或者熱備的方案;對於比較重要的業務至少具備同城雙活的能力;對於非常重要的核心業務需要考慮異地多活。且基礎雲產品基本都做到了跨可用區容災,整體可用性成本很低。
舉例來說,如果做了同城容災,西南1的C機房故障,至少西南 1還有A、B等其他機房做備份。如果做了兩地容災策略,西南1故障,還有華南1、華東2可以用。基本上對於當前99%以上的企業而言,已經足以滿足其可靠性要求。
另外,企業也可以利用雲廠商服務來演練自己的容災能力。除了應對硬體裝置的災難外,企業還會有其他挑戰,包括流量衝擊、引入不合理依賴、依賴環節不可用或者延遲高等。
上述建議適合大部分企業。但確實還有一些企業本身規模龐大,對業務的可用性要求極高,同時自身也有非常強悍的技術能力。在上述方案尚不能滿足需求時,多雲就成了一個待考察的選項了。在單雲就能滿足要求的情況下盲目追求多雲有點像是“何不食肉糜”了。畢竟IT選型第一目標是:適用。