關於運維工程師的一些見解
說實話,之前並沒有將計算機體系納入我的寫作範圍的打算。
雖然我從事計算機行業多年,對計算機行業也算有一些自己的見解,且偶爾也會寫寫技術文件。
但我一直都覺得,計算機思維與文學思維是屬於兩種思想的東西,不可混為一談。
不過,後來想想,有些體會還是拿筆寫下來好一些,不說是給別人帶來些什麼吧,只是想記住偶爾靈光一閃的體會,留到日後細細品味。
這裡的話,就說說我對運維這個職位的見解吧。
實際上,一開始的時候,我和很多人一樣,並沒有運維這個概念。
什麼是運維?
當別人問起來的時候,我是一臉懵逼的。
後來,偶爾有閒暇的時候,我都會去思考這個問題“運維是什麼?什麼是運維?怎麼做好一個運維?”,於是,慢慢地,對於運維我有了一些自己的看法。
運維是什麼?
在我看來,它是一個貫穿整個計算機體系,從最底層硬體到上層軟體應用層都存在它影子的職業。
為什麼這麼說?
因為在我看來,無論是底層的硬體維護,機房運維,還是往上軟體層次的桌面運維,系統管理員,以及監控組,運維工程師,運維開發,他們都屬於運維。
所以,再次回到那個問題,運維是什麼?
運維就是維護計算機體系,保證計算機體系可以正常穩定且安全執行的一群人。
這時候很多人都會說,那不就是修機嗎?
沒錯,是修機,桌面運維修普通電腦,系統管理員修ERP,機房運維修伺服器。
但運維僅僅只是修機嗎?不,不是的,如果只是修機就可以稱之為運維的話,那它也不可能自立一個體系,稱之為一個職業了。
在我看來,修機只是最低層的運維,只是運維工作的一部分。
實際上,一個合格的運維是需要做到走在錯誤發生之前的。
什麼叫走在錯誤發生之前?
比如說,在你的電腦即將崩潰之前,這邊已經通過軟體檢測到你CPU溫度過高而提前給你加了散熱矽膠。
“運維,運維,以預防為主!”
這是我一直堅信的理念,運維是需要在錯誤可能出現之前,就能估算到它出現的可能性,並提供足夠的預備方案,保證哪怕出現了這個錯誤,也不會影響計算機體系的正常執行。
所以,我們再次回到那個運維的宗旨,保證計算機體系正常穩定且安全地執行。
怎樣才能保證計算機體系正常穩定且安全地執行?
難道僅僅是靠出了問題的時候去維修嗎?不,那樣可不是運維,那是救火隊員。
運維真正要做的是做合理的規劃,建立規範的體系,提供足量的應急方案,然後在此基礎上對整個計算機體系進行合理的優化,效能的改進,安全性的提升。
反正不管是用什麼手段,通俗一點來講,就是盡你所能,保證你要維護的電腦(不管是普通電腦還是伺服器),一年365天都不出問題。
當然這裡所說的不出問題,指的不是電腦本身不出問題,而是理論上的不出問題,指的主要是出了問題,也能有解決方案,把損失降到最小。
就像為了防止ERP伺服器出問題而影響分院業務,所以我需要搭建雙機熱備和負載均衡機制,而為了防止伺服器效能過高,導致伺服器崩潰,我需要搭zabbix做伺服器監控並配置效能過高報警。
時間損耗產生的損失才是最大的損失,而如何能預防問題的出現,並提供預備方案在問題出現的時候能迅速解決,這是身為一個運維人員最主要的工作。
以上,就是我理解中的運維!