纖維藝術

阿里如何做到百萬量級硬體故障自愈?

阿里妹導讀:隨著阿里大資料產品業務的增長,伺服器數量不斷增多,IT運維壓力也成比例增大。各種軟、硬體故障而造成的業務中斷,成為穩定性影響的重要因素之一。本文詳細解讀阿里如何實現硬體故障預測、伺服器自動

應用監控的選型思考

最近由於專案的緣故,經常會和同學們聊到一個話題,那就是企業如何在應用效能管理(Application Performance Monitoring, 簡稱APM) 領域的開源和商業化產品中選擇合適自己的產品,下

記一次 Kafka 叢集的故障恢復

女主宣言 本文是作者根據實際經驗總結出的關於Kafka叢集的故障恢復相關的總結,希望對大家有所幫助。 PS:豐富的一線技術、多元化的表現形式,盡在“ HULK一線技術雜談 ”,點關注哦!

運維的最終目標是什麼?

序言 閒來無事,聊聊運維的終極目標。。。反正是瞎扯,畢竟麼有風。。。天氣還這麼寒冷。。。思維不能靈動,不能起一絲波瀾。。。 風言風語 運維,從來都不能登上大雅之堂。。。WHY? 縱觀

TableStore輕鬆實現軌跡管理與地理圍欄

摘要: 基於TableStore輕鬆實現億量級軌跡管理與地理圍欄 一、方案背景 軌跡管理系統日常生活中使用非常普遍,如外賣派送軌跡、快遞物流流轉、車輛定位軌跡等。該場景與地理位置管理類似,核心點與瓶

如何進行有效測試

1、有了快速構建體系為什麼還是不能做到有效測試? 在穩態和敏態雙態並存的情況下,測試也在經歷著轉變,當構建越來越快,測試人員發現想要做到深入測試越來越難。在測試過程中,往往很多版本都在走過場;再加之並不是版

2018年就要到了,這一年都做了什麼呢?

一年又這麼過去了,到年底的時候就應該總結一下過去的一年做了哪些事情,學到了什麼,悟到了什麼,有什麼是需要改進的。 2017年,要說發生的重大事情,第一是換了一份工作,發現自己原來想做的是高效能自研軟體的研發

運維如何才能不背鍋?這份災備祕籍瞭解一下

不出所料,這次雲硬碟故障,運維人員又“背鍋”了。 運維要想不背鍋,就需要從掌握災備知識做起。不管你是西二旗的小王、陸家嘴軟體園的小孫,還是科興科學園的小張,今天,就讓我們重新武裝自己,一起溫習資料及業務保護的那些知

網站運維技術與實踐之測試評估

在一個網站應用系統的完整生命週期中,上線之前還有漫長的開發和測試階段。作為系統未來的管理者和負責人,運維人員有必要在這個階段就參與進來,根據業務的預期,完成系統層面的容量和壓力測試,根據測試資料做出切實的運維規劃,包

運維效率之資料遷移自動化

overmind系統上線三個月,累計執行任務800+,自動稽核執行SQL超過5000條,效率提升相當明顯,離“一杯咖啡,輕鬆運維”的目標又進了一步。 自吹自擂 起初在寫overmind時就有考慮到之後的

1714812182.2852