依我過去幾年所見,系統(tǒng)宕機最主要成因是硬件故障。不管是服務器硬件還是基礎設施(數(shù)據(jù)中心電源或者制冷設備),硬件故障使得系統(tǒng)損壞,造成運行中斷,比用戶人為錯誤或者軟件配置錯誤造成的故障都要多。
工作人員的士氣遭受了宕機的挑戰(zhàn)。在宕機時,必須支持鼓勵工作人員的工作,使他們有足夠士氣修復錯誤,令服務重回正軌,至于批評還是留在解決完問題之后吧。當IT人員肩負壓力,努力解決宕機時,管理層不能揪住他們的脖子說:這都是你們的錯!怎么還沒修好?這會讓他們精神崩潰的。不如等機器運轉正常,服務恢復之后,開個會好好討論一下故障的起因、解決措施,做好決議。
診斷和解決運行中斷,確實比起日常的管理壓力要大。對于管理層來說,讓IT人員加班加點修復,在短期內把問題解決,這樣做會導致IT人員身心的雙重疲勞。由此可能會導致更多問題。
管理層應當意識到IT人員需要付出多少額外的努力和時間,并公開承認這事實。所以應當給他們一定的休假來補償加班花費的額外時間,總之要把他們當人,而不是當機器人。
做好計劃可以減少宕機。比如說:時機合適的管理步驟改變,造成計劃內的運行中斷要好于意外斷電。
在技巧方面,敏捷的頭腦最為重要。打破慣例思考問題,盡可能快地提出解決方法。有時候修復也與大力膠鐵絲網(wǎng)有關,這也可以,只要你能做出計劃好的維護窗口期,能夠應對長期解決方案就行。
最糟的狀況 最好的方法
我們知道了,預防宕機沒有絕對的方法。人和裝置太多,對于各個因素的依賴也越來越多,導致公司已經無法控制。所以預防系統(tǒng)宕機的工作固然重要,仔細考慮發(fā)生宕機以后每一步該做什么同樣重要。宕機之后,有很多東西值得學習,明智的企業(yè)會通過宕機,吸取教訓,提升自己。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。