阿里巴巴大資料運維平臺實踐
作者介紹:矮魚,2012年開始從事網際網路,現負責阿里大資料計算服務保障和平臺研發,在運維領域內有豐富經驗積累。秉承 "Service unavailable? Our problem, whatever the reason"的理念,致力於保證線上穩定性和推進團隊平臺產品的迭代演進。
MaxCompute是阿里巴巴內部唯一的大資料處理平臺,且在全球十幾個地區提供公有云服務,併為上百家專有云輸出計算能力。
作為支撐如此龐大系統的SRE團隊,要面對的是EB級資料,TB級頻寬,上百萬塊硬碟,還有上萬的客戶發工單。
我們在全流程的釋出管理,全球的配置同步,高效的監控感知等基礎運維領域都實現了高度的自動化。同時,從底層硬體到上層應用各個環節,我們掌握並分析使用了大量的資料來幫助我們突破傳統思路的侷限。
本次聚焦於近期在平臺落地的幾項成果,多地域的容量線性規劃調優,硬體故障發現及自愈,執行作業的資料化診斷,分享我們在構建下一代運維平臺的探索和思考。
幻燈片
更多交流諮詢歡迎加入“MaxCompute開發者社群”釘釘群,群號: 11782920,或掃描二維碼入群。
作者:矮魚 V8kJIOXHzPBcbltCm9CfHHhwM6q" rel="nofollow,noindex" target="_blank">閱讀原文