不畏:智慧排程的核心是對業務資料的價值挖掘和有效利用
據統計,2017年的“雙十一”,開場28秒,淘寶系交易額超10億;2018年,優酷直播了世界盃64場高清賽事,6月23日,其移動端DAU破億。這兩個高併發場景,都是阿里雲在保駕護航。InfoqQ有幸請到了阿里視訊雲運維專家不畏,來聊一聊在業務請求量高峰階段,排程策略如何進行分配優化,排程系統有哪些智慧化運維的思考和實踐。
InfoQ:阿里雲現在有多少個CDN節點?頻寬呢?
不畏:阿里雲目前有1500+的CDN節點,儲備頻寬超過120TB,覆蓋全球六大洲七十多個國家及國內主流運營商。
InfoQ:隨著業務型別的快速變化,阿里雲視訊雲排程系統是怎麼演進的?
不畏:視訊雲的排程系統最早使用的是商業裝置,在2011年開始走上自主研發的道路,2014年CDN開始商業化對外售賣,排程系統為更好地服務商業使用者,開始進行多終端的排程系統研發和全球化佈局;2015年阿里雲商業CDN使用者量井噴,業務形態發生了巨大變化,我們進行了排程系統的全盤自動化改造,正式告別人工時代;2017年,精細化、多維度的自動資源規劃、精準流控、主動鏈路探測等產品功能逐一上線,排程系統在流量規劃的粒度、時效性、流量控制的精準性和區域性鏈路異常的處理速度都上了一個新的臺階。
InfoQ:在排程系統的演進過程中,有哪些智慧化運維的思考和實踐?
不畏:在2012年到2013年,一方面,是阿里自身的電商業務量隨著“雙十一”“雙十二”等活動以每年至少翻倍的速度快速增長。另一方面,處在阿里CDN商業化的前夕,可預見對外售賣後的業務爆發;我們在當時預感到了未來大資料的重要性,排程系統開始從資料角度做業務/來源維度的流量成分、頻寬大小、頻寬穩定性的系統化分析,並結合業務模型來做分時分來源的流量預測。也是從這個階段開始,排程系統的運維從簡單的軟體釋出、流量切換開始向以資料驅動的精細化運營轉變。我覺得對資料的敏感性和價值挖掘能力的變化,是整個運維智慧化歷程中非常重要的里程碑。
InfoQ:今年優酷直播的64場世界盃比賽,全部由阿里雲提供技術保障,高清熱門體育賽事的直播和“雙十一”相比,哪個挑戰更大?排程策略有什麼不同?
不畏:挑戰都很大,世界盃和“雙十一”,是兩個不同的業務場景。“雙十一”在CDN上,有兩個業務階段,一個是晚高峰,頻寬形態大致與日常差距不大,但在波峰段有更高的頻寬衝擊,上量斜率更大,在這個階段,排程策略大致與日常相近,我們會適當調整頻寬預測的步長,讓預測頻寬和自動調整對比日常更加激進一些,以適應頻寬的變化。第二個階段是11號0點活動正式開始的時候,海量的交易請求衝擊到CDN系統上,呈現一個脈衝式的請求量突峰,這個階段,頻寬、節點粒度的CPU、記憶體、IO的壓力都會非常大,我們在排程策略上會預先進行分配優化,將脈衝式的突發流量往高效能節點上進行分流。
而世界盃或其他高清熱門體育賽事的場景,更像是“雙十一”兩個場景的結合,在比賽開始後,頻寬會快速的攀升,傳統的流量預測比較難準確規劃合適的資源。針對這個場景,我們特別研發了智慧資源鎖功能,提供了一種重保業務在多租戶場景下的頻寬資源優先分配模型,以此來保障世界盃的服務質量。
InfoQ:世界盃期間,運維保障工作遇到了什麼難題,是怎麼解決的?
不畏:世界盃護航對運維的挑戰其實非常大,大家看世界盃這樣的高清直播,最在意的是播放的流暢度,而從技術角度出發,影響播放流暢度的因素非常多,有使用者本身的網路環境問題,有骨幹網的因素,有CDN節點資源的鏈路問題,也有軟體的問題,每一類問題會有不同的處理方案。在海量的使用者樣本中,找到哪些使用者有卡頓,卡頓的原因是什麼,如何進行有效地緩解,一系列動作都需要在幾分鐘內一一執行到位,這是擺在運維保障工作中的核心難題。
針對這些難題,阿里視訊雲團隊選擇了主動出擊,第一時間和優酷播放端進行了客戶端埋點資料的對接,將客戶端的資料與服務端資料進行一一對應,結合服務端對全鏈路的質量監控,在客戶端上報卡頓的瞬間,對比客戶端到節點鏈路、節點水位和網路指標、節點內軟體鏈路、節點到直播中心鏈路的各項指標,找出對應時間資料惡化最明顯的指標進行鍼對性調整優化,再由調整後的效果來反向修正指標閾值的合理性。整個世界盃期間,這種對比->調節->反饋->再對比的模式很好地幫助我們解決了運維保障的核心問題,同時我們利用建立在優酷端資料上的大網質量體系,反向來服務其他的直播客戶,很好地保證了整個世界盃期間的直播體驗。
InfoQ:有哪些智慧排程的新技術?
不畏:AI、多終端結合排程、IPv6是目前行業內智慧排程比較普遍的技術方向,我覺得歸根結底,智慧排程的核心仍然是對業務資料的價值挖掘和有效利用。
InfoQ:簡單聊聊排程系統全盤智慧化之下的運維價值?
不畏:我覺得在排程全盤智慧化,自動化之下,運維的價值會更多的體現在業務場景的抽象能力和系統化解決方案制訂上;從一個商業業務場景,轉化為一系列技術問題,從離散的技術問題,提煉平臺化的功能需求,再將一個個平臺化功能整合成行業解決方案,以系統化思維不斷的優化解決方案的穩定性、效率和成本,是未來運維的核心價值。
近年來,隨著大資料、機器學習和AI技術的飛速發展,智慧化運維成為運維的熱點領域。
CNUTCon全球運維技術大會特設「AIOps實踐與探索」專場,目前,已經邀請到BAT的技術專家,從智慧排程、智慧異常檢測、故障知識圖譜、變更釋出智慧檢查等多方面闡述落地AIOps過程中的實踐經驗。另外,大會還有其他11個專場,涉及自動化運維、監控分析、日誌處理、Kubernetes、CI/CD、微服務、SRE等運維熱門方向。
目前,大會8折限時優惠,立減720元,團購更優惠。點選ofollow,noindex" target="_blank">這裡 瞭解更多,有任何問題,歡迎諮詢票務經理Joy,電話:13269078023(微信同號)。