微博伺服器癱瘓!運維:該拿什麼拯救我?
頭條新聞想必大家都已經知道了吧!是的,沒錯,我們的穎寶嫁人了,額,,,小編複雜的內心不知該如何形容,不過只要穎寶幸福開心就好!
這固然是件喜事,但是,這事真是幾家歡喜幾家愁!呵呵。。。沒錯,毫無意外地,微博癱瘓了(說好的能同時抗住8個明星出軌的誓言呢)!
趙麗穎微博截圖
微博癱瘓介面
微博再次宕機,相關的運維們也不得不執行各種緊急擴容預案。那麼,運維該如何應對每次的服務保障呢?提前保證運維體系正常運轉呢?
雲端計算裝置或者伺服器作為企業業務的重要IT支援,承載關鍵業務資料和流程,Linux運維們欲舒心,伺服器安全檢查也需要面面俱到。在此列出伺服器安全檢查的幾大注意點,算是個給運維們提個醒。讓系統做到最大程度的安全,讓運維安心度過每一次網路“地震”吧!
1.對硬體設施進行全面體檢
不同的企業對IT裝置的運維有不同的標準,有些公司節假日期間可以部分停機,有一些公司必須7*24小時的執行。那麼怎麼保證系統執行穩定呢?首先讓我們對硬體設施進行全面體檢吧!
PC機的檢測及準備至少應該包括以下幾個方面:
(1)、對PC機的硬體進行檢查,包括電源、硬碟和網絡卡等。
(2)、要安裝作業系統的最新補丁包,還要對防毒軟體的病毒庫進行更新。
(3)、將最新的應用程式和資料做備份。
(4)、做一個最新的DVD Ghost克隆備份。一旦因使用者誤刪檔案或者使用移動儲存導致機器染病毒,造成機器癱瘓,拿事先做好的DVD Ghost備份盤恢復系統。
注意點一:UPS不間斷電源檢查:
電源檢查往往是容易被忽視的一環。如今大部分企業的業務需要7*24小時不間斷執行,甭管是自動還是手動,反正不能停。那麼選用UPS電源習以為常。UPS的新舊或者老化程度如何,能否在伺服器出現異常情況時,實現正常關閉伺服器的效能。需要對其進行檢查,其出現故障的概率有多高,故障的自動應對舉措有哪些,都需要預先思考周全。
注意點二:電纜線路與佈線情況檢視:
對連線伺服器的各條線路進行精細檢視,關鍵是檢查配線箱,看看插座是否對應插頭,不插頭與非適配插座亂串。電纜線路正常傳輸和佈線合理與否都將影響到伺服器正常執行情況,務必檢視清楚。若有異常,最好找電纜線路的承包商來進行修復或優化。
2.伺服器的檢測及其準備
(1)、在適當的時間對伺服器進行進行一次冷關機斷點,然後對其電源、硬碟、網絡卡、風扇等進行檢查,確保其效能良好。
(2)、如果伺服器做了RAID,一定要檢查RAID卡和熱插拔硬碟工作狀態是否正常。
(3)、清理檔案系統的歷史資料,要保持檔案系統有足夠的可用磁碟空間,避免假日期間因檔案系統空間不足造成應用故障。
(4)、清理資料庫的歷史資料,保持資料庫有足夠的可用空間。
(5)、備份應用程式和相關配置引數。
(6)、檢測確保備份伺服器,確保其有足夠的磁碟空間以備份假日期間的資料資料。
注意點一:系統補丁是否安裝完備;
補丁較容易配置而且是免費提供,但有些網管可能會覺得系統執行效果不錯,無需為其打補丁。殊不知,沒有安裝補丁的系統,一旦假期伺服器出現問題,企業員工就將面臨與自身的檔案失去聯絡危機。網管需要檢查伺服器系統是否已安裝補丁,以防萬一。
注意點二:資料備份忘不得;
企業資料一旦丟失是“致命”的,防止資料丟失,對伺服器資料進行備份必不可省。別企圖在伺服器上某一區新建備份資料夾或者建立一個備份區,如果僅僅只做此項工作,如此備份方法仍非常危險,一旦伺服器的硬碟區“失火”,那麼所有分割槽的資料就將統統“銷聲匿跡”,如此備份有後患。建議外接使用專門單獨時裝置對資料進行二次備份,可使用較普遍的交叉備份方法或者成本較高的磁帶。
此外,已備份的資料也有可能發生被盜,建議網管在備份時能夠通過密碼對備份介質進行保護。
注意點三:強化伺服器本地檔案格式安全級別;
伺服器安全檢查有來自自身裝置問題,很大一部分來自防範外部攻擊。因此有必要在節假日中檢查伺服器本地檔案格式級別是否夠高,別給黑客可乘之機。檢查伺服器作業系統是否已經對使用者訪問許可權進行限制,避免因使用者使用統一訪問伺服器的許可權而存在不安全因素。
同時,網管需檢查系統是否使用了相關的網路檢測軟體對企業網路執行情況進行全天候監視。
3.對於交換機/路由器的檢測及其準備
(1)、在情況容許的情況下對交換機/路由器進行重啟對其功能進行檢測,測試的專案諸如介面測試、效能測試、協議一致性測試和網管測試等,測試最好進行遠端測試。
(2)、對其進行衛生清潔是非常必要的,最好能夠開啟交換機/路由器,清除其主機板電路上及其外圍的灰塵,因灰塵導致的故障也是屢見不鮮。
(3)、備份也是必須的,諸如思科路由器的IOS備份和網路配置備份,最好將其備份到一個固定的地方,例如專門用於備份的某UNIX主機的某個目錄下或者某個專用的備份行動硬碟。
4.實時監控掌握系統狀況
節日期間,因為無人值守,一旦系統有故障怎麼辦?實時系統監控成為系統運維人員的定心丸,選擇一個能對所有系統進行統一監控的運維平臺,能在最大程度上解放運維工程師。
在節日期間,實時監控的運維平臺就是運維人員的“眼睛”。因此,在節日前,一定要檢測運維平臺的安全以及效能,確保在節日期間能及時準確的系統狀況的監控。
以以往的經驗,運維平臺要能監控全面,最好能在一個平臺裡對整個系統進行監控,把系統中所有可能出現故障的環節都進行監控,並且能設定相關預警,以便運維人員在系統出現異常訊號的時候及時處理,防止出現故障後進行補漏。
另外,對於運維平臺最少必須能支援實時告警,以簡訊方式實時將系統中的異常訊號傳送運維人員,以便運維人員及時準確的掌握系統執行狀況。
5.遠端維護渠道的暢通
休假在家,常規的遠端維護還是必須的。當然,如果網路出現故障,遠端維護當然是最快捷、高效的手段了。因此,一定要確保遠端維護渠道的暢通。
平常情況下,為了安全一般不建議大家開啟遠端維護通道,但假日期間又另當別論,只有做好相應的安全措施這樣做也未嘗不可。首先,要確定需要開啟遠端維護的裝置。
也可以在網路中部署專門的遠端維護機器,在網路邊界緊開啟公網訪問遠端運維機器,再由該運維機器跳轉至需要維護的機器。其次,要選擇安全的遠端連線方式。比如開通vpn訪問等方式,先通過vpn認證,後使用相關軟體進行登入。比如pcanywhere/radmin就很不錯。
對於防火牆、路由器/交換這樣的網路裝置,建議大家關閉其Web管理方式,採用安全加密的SSL連線,進行登入管理。最後,記得一定要為其設定足夠強大的密碼,同時對密碼的管理應該做到專人管理。
最後希望這些經驗能夠對運維們有所幫助。運維內心OS:熱點即是運維的痛點啊!(小編內心OS:也是運營的痛點啊。。。)o(╥﹏╥)o