2015年5月28日,黑色星期四,滬指一日連續(xù)下破整數(shù)關(guān)口,上證指數(shù)收盤下跌6.5%,深成指下跌6.19%,創(chuàng)業(yè)板下跌5.39%,創(chuàng)4個(gè)月來(lái)單日最大跌幅,全國(guó)股民人均賠兩萬(wàn)!正當(dāng)股民們心灰意冷,打算出去看看世界的時(shí)候,攜程掛了!
從11:09分開始,到晚上22:45分恢復(fù),此次攜程網(wǎng)站崩潰時(shí)間共持續(xù)了近12個(gè)小時(shí)。事后攜程的官網(wǎng)解釋:經(jīng)攜程技術(shù)排查,確認(rèn)此次事件是由于員工錯(cuò)誤操作導(dǎo)致。由于攜程涉及的業(yè)務(wù)、應(yīng)用及服務(wù)繁多,驗(yàn)證應(yīng)用與服務(wù)之間的功能是否正常運(yùn)行,花了較長(zhǎng)時(shí)間。
從攜程的聲明來(lái)看,導(dǎo)致此次事件的直接原因是員工誤操作造成,但有一個(gè)現(xiàn)象非常形象地描述了目前IT運(yùn)維的真實(shí)狀況:
系統(tǒng)出現(xiàn)故障后
1、業(yè)務(wù)使用者最先發(fā)現(xiàn)應(yīng)用受到影響,開始抓狂和投訴。
2、繼而運(yùn)營(yíng)監(jiān)控的各種大屏幕會(huì)出現(xiàn)流量的異樣圖、系統(tǒng)告警圖。
3、最后輪到攻城獅們手忙腳亂進(jìn)行troubleshooting,挨個(gè)設(shè)備的各種telnet/ssh抓取信息。
4、可以定位故障的,對(duì)癥解決;不明所以的,嘗試重新啟動(dòng)設(shè)備或者切換備份方案。
5、提交故障報(bào)告、問(wèn)責(zé)、致歉、危機(jī)公關(guān)等等
目前的IT運(yùn)維系統(tǒng),可以查看鏈路狀態(tài),監(jiān)控設(shè)備資源利用率,故障告警,但從業(yè)務(wù)的角度來(lái)說(shuō),還缺乏一種手段對(duì)這些數(shù)據(jù)進(jìn)行系統(tǒng)性的分析,呈現(xiàn)出更明確更有意義的結(jié)論,以便在突發(fā)事件時(shí),啟動(dòng)預(yù)案、快速定位和給出指導(dǎo)性建議。
攜程事件再次向我們表明了新常態(tài)下,系統(tǒng)可靠性的重要作用,據(jù)統(tǒng)計(jì),這次宕機(jī)給攜程網(wǎng)造成的直接損失超過(guò)數(shù)百萬(wàn)美元,股價(jià)暴跌11%。云計(jì)算、大數(shù)據(jù)、互聯(lián)網(wǎng)+ 的空前繁榮,讓IT運(yùn)維面臨前所未有的挑戰(zhàn),如何及時(shí)全面的掌握網(wǎng)絡(luò)、主機(jī)、數(shù)據(jù)庫(kù)、存儲(chǔ)、桌面等各類資源的運(yùn)行情況?如何使我們的運(yùn)維工作未雨綢繆,做到防患于未然呢?
【IT運(yùn)維人員八種痛】
東華網(wǎng)智認(rèn)為,互聯(lián)網(wǎng)+時(shí)代,系統(tǒng)化的運(yùn)維管理對(duì)企業(yè)有著不可估量的作用,規(guī)?;腎T系統(tǒng)和復(fù)雜的業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行是信息部門的重要職責(zé),如果發(fā)生故障不能及時(shí)準(zhǔn)備定位,引發(fā)業(yè)務(wù)中斷,給企業(yè)帶來(lái)的損失是巨大的,同時(shí),企業(yè)IT治理、流程規(guī)范、智能巡檢將有效減少違規(guī)操作、消弭隱患,降低故障發(fā)生機(jī)率。換言之,企業(yè)需要一套清晰、智能化的運(yùn)維管理系統(tǒng)來(lái)幫助IT人員提高對(duì)整個(gè)業(yè)務(wù)系統(tǒng)的把控能力,而東華網(wǎng)智正是致力于精細(xì)化IT服務(wù)管理,幫助企業(yè)建立健全I(xiàn)T運(yùn)維管理體系,實(shí)現(xiàn)IT“監(jiān).管.控”一體化,全面提升IT服務(wù)質(zhì)量。
【東華IT服務(wù)綜合管理解決方案技術(shù)架構(gòu)】
“監(jiān)”之綜合監(jiān)控
對(duì)IT基礎(chǔ)架構(gòu)和業(yè)務(wù)系統(tǒng)的實(shí)時(shí)監(jiān)控,能夠幫助管理人員準(zhǔn)確定位故障,及時(shí)處理問(wèn)題,并在警戒閾值達(dá)到前,將系統(tǒng)隱患扼殺于搖籃。東華IT綜合監(jiān)控范圍涵蓋機(jī)房動(dòng)力環(huán)境、網(wǎng)絡(luò)設(shè)備、服務(wù)器、數(shù)據(jù)庫(kù)、中間件、虛擬化資源、桌面終端、通用服務(wù)等IT資源的運(yùn)行狀態(tài)及性能,支持SNMP、telnet、SSH、WMI、JMX、JDBC等遠(yuǎn)程非代理監(jiān)測(cè)和Agent代理監(jiān)測(cè),根據(jù)管理規(guī)模不同支持分布式采集和集中管理模式,提供7X24不間斷監(jiān)測(cè)服務(wù)。系統(tǒng)將復(fù)雜的技術(shù)指標(biāo)、監(jiān)控狀態(tài)等以圖形化方式展現(xiàn)給客戶,支持機(jī)房、辦公區(qū)域、場(chǎng)所的3D可視化展現(xiàn),大大提高用戶的操作便捷性及工作效率。
“管”之性能管理
系統(tǒng)不宕機(jī)、應(yīng)用可訪問(wèn)只是保障業(yè)務(wù)連續(xù)性的入門級(jí)要求,在“永遠(yuǎn)在線”的互聯(lián)網(wǎng)+時(shí)代,最終用戶的應(yīng)用體驗(yàn)成為關(guān)鍵要素。東華網(wǎng)智強(qiáng)調(diào)“業(yè)務(wù)服務(wù)視角”,分段監(jiān)測(cè)業(yè)務(wù)系統(tǒng)的每個(gè)過(guò)程環(huán)節(jié),快速解析應(yīng)用問(wèn)題并將問(wèn)題范圍定位到具體的應(yīng)用組件,幫助運(yùn)維者實(shí)現(xiàn)對(duì)業(yè)務(wù)應(yīng)用問(wèn)題的監(jiān)測(cè)、定位和診斷,達(dá)到先于用戶發(fā)現(xiàn)問(wèn)題,提前建立緊急預(yù)案,保障業(yè)務(wù)可用性,提高用戶體驗(yàn)。
“控”之流程把控
攜程宕機(jī)的問(wèn)題最終定位為“員工誤操作”,實(shí)際是流程管控和權(quán)限設(shè)置不當(dāng),“人為因素”在很多IT事故中不是小概率事件,必須要依賴必要的IT手段將流程僵化再優(yōu)化,將人為因素將至最低,操作是否合規(guī),變更是否合理,訪問(wèn)是否越權(quán),數(shù)據(jù)是否備份,一切全部由流程鐵律進(jìn)行約束。東華網(wǎng)智IT運(yùn)維管理系統(tǒng)的目的正是通過(guò)建立一套標(biāo)準(zhǔn)的運(yùn)維服務(wù)流程,圍繞事件管理、問(wèn)題管理、變更管理、配置管理、發(fā)布管理、服務(wù)級(jí)別管理等ITIL最佳實(shí)踐,幫助用戶實(shí)現(xiàn)IT運(yùn)維服務(wù)的流程化、規(guī)范化管理,最終讓IT的“精確化”制約人力的“隨機(jī)化”。
5.28攜程的重大故障雖然是一次災(zāi)難,但也為所有的企業(yè)敲響了警鐘,安全生產(chǎn)重于泰山,一個(gè)誤操作帶來(lái)的可能就是毀滅性的損失。在互聯(lián)網(wǎng)企業(yè)各項(xiàng)業(yè)務(wù)都依賴IT系統(tǒng)的今天,做好IT系統(tǒng)的運(yùn)維管理工作無(wú)疑是保障業(yè)務(wù)正常運(yùn)行的核心所在。
專業(yè)的事一定要交給專業(yè)的系統(tǒng)來(lái)做,讓5.28事件不再重演,讓企業(yè)長(zhǎng)青!
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。