騰訊雲迴應大規模宕機:光纖挖斷後的 150 秒
3 月 23 日下午 4 點左右,騰訊多個產品出現大規模宕機,暖暖、QQ 飛車,王者榮耀,吃雞等 90 多個服務受到影響。下午四點半,騰訊雲釋出公告稱:各位使用者,2019 年 03 月 23 日 16 時左右,因上海當地網路運營商光纖線路大面積故障,騰訊多個產品業務受到影響。目前運營商正在緊急搶修中,我們也正在積極做容災處理,業務陸續恢復中。後續恢復進展會及時向各位公佈。
3 月 35 日,騰訊雲官方微訊號釋出《 光纖挖斷後的 150 秒 》正式迴應此次宕機事件,筆者摘錄了部分內容:
3 月 23 日下午,上海南匯網路光纖因施工被意外挖斷,導致該區不少網際網路公司的業務受到不同程度的影響。
“大概是從下午 3 點左右開始吧,網咖裡面就有不少使用者反饋,多款遊戲開始出現掉線,無法登陸,甚至無法充值等情況。”來自上海的南匯區的一位網友在微信群裡吐槽。這並非個別情況。隨即不少群友開始接連反饋遇到類似的問題。
與網際網路使用者的慌亂鮮明形成對比的是,不少企業使用者的情況卻相對穩定。據騰訊雲的一位使用者反饋,故障發生後,他們運維人員立即啟動監測,但是未發生業務掉線。
下午 4 點 52 分,騰訊雲率先對外公告稱,騰訊雲平臺在 2019 年 03 月 23 日監控到上海電信使用者訪問騰訊雲外網有抖動,目前已經逐漸恢復。
在雲服務越來越普及的今天,如何在面對網路故障的情況下,儘可能保證服務的穩定性和連續性,是所有企業都需要重視的問題。
啟動智慧化流量排程系統
當天下午,騰訊雲網絡監控平臺監測到上海到浙江電信出現小範圍公網質量下降。騰訊雲隨即啟動流量智慧排程系統,將上海地區公網流量通過騰訊雲內部 T 級骨幹網,引導至騰訊雲廣州區電信出口,再由電信骨幹網直達浙江電信。
從架構上看,騰訊雲公網流量智慧排程系統,一方面通過介面自動執行並反饋管理臺下發的各種排程和控制資訊;另一方面和公網出口裝置建立 BGP(公網路由協議)連線,通過採集裝置路由資訊,根據排程需求向不同路由裝置下發流量排程命令,從而實現領先的公網自動化流量工程技術。
此次光纖故障,騰訊雲從發現到恢復故障,全程花費了 2 分鐘(抖動時間:14:40:15-14:42:45),並且所有流程自動化執行,在 150 秒之內恢復網路。
“四纖三路由”高冗餘架構
能否做到上述效果與騰訊雲自身高度冗餘的網路架構以及智慧自愈機制有很大關係。
首先,騰訊雲在基礎設施的高可用方案為網路的平穩運營提供了重要前提和支撐。騰訊雲目前在每個區域,例如上海南匯,引入並劃分了多個可用區,可用區之間提供可靠的風火水電物理全隔離,同時又妥善考量了各個可用區之間的網路低延遲,這就從基礎設施層面有效保證使用者的網路高可用性和穩定性。
另外,從架構層面看,此次光纖故障,騰訊雲網絡能夠在極短時間內自動恢復,一個重要原因要歸功於它可用區之間互聯的底層網路,這套網路採用了運營商級“四纖三路由”的高冗餘架構設計。什麼意思呢?通俗一點來說就是騰訊雲每個可用區與可用區之間都採用 3 條獨立光纖連線(分別來自不同方向),並同時接入兩套完全物理分離的波分系統,從而有效保障光纖意外中斷時,能夠在 50 毫秒級自動切換。
除此之外,騰訊雲波分系統中部署有光時域反射儀,在產生光纜中斷時,系統可以主動探測光纜具體中斷情況,第一時間精準定位光纜中斷的具體位置,並及時反饋給運營商,為此次光纜的順利修復提供非常準確的資訊。