就在攜程癱瘓前一天,支付寶也出現(xiàn)無法正常使用的情況。5月27日傍晚,杭州、北京、上海、武漢等地用戶反映支付寶無法正常使用。
前不久的5月11日,網(wǎng)易也突然出現(xiàn)大面積服務(wù)癱瘓問題,網(wǎng)易新聞、云音樂、網(wǎng)易游戲等多款服務(wù)均無法使用。
有人說“互聯(lián)網(wǎng)黑色五月”來了。連續(xù)多日,互聯(lián)網(wǎng)大公司、主流產(chǎn)品如此頻繁發(fā)生安全事件,讓人感慨:貌似強大的互聯(lián)網(wǎng)產(chǎn)業(yè)在安全風(fēng)險面前何等脆弱。
近年來,網(wǎng)絡(luò)故障情況多有發(fā)生。2013年7月22日,微信故障影響輻射全國及海外。事故原因與支付寶類似:騰訊微信團隊稱,故障系市政道路施工致機房光纜被挖斷,影響服務(wù)器連接所致,令全國30%的用戶受到影響。
遭遇威脅并不可怕,可怕的是,當(dāng)遭遇威脅時,沒有一套完備的預(yù)案措施。
假如攜程有一個完善備份
如果備份做好了,攜程會這樣嗎?
360安全專家林偉對早報記者分析稱,如果是一般的系統(tǒng)故障,一旦出現(xiàn)故障,按照預(yù)案,系統(tǒng)會自動用備份恢復(fù)數(shù)據(jù),然后人工進行檢測和修訂。系統(tǒng)恢復(fù)大約需要幾分鐘到半個多小時的時間。
一般情況下,互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)會有三四個備份,包括本地服務(wù)器同城機房、跨城機房、云端以及內(nèi)網(wǎng)。即使其中一份出現(xiàn)問題,也會有別的備份補上。
“像攜程這樣規(guī)模的企業(yè)訪問量很大,但是其數(shù)據(jù)存儲量不會太大,多做幾個備份也不會有多大的成本。”林偉說。
一位攜程技術(shù)人員告訴早報記者,“備份也一并被黑了。”
前藝龍信息安全負(fù)責(zé)人說,在各個行業(yè)內(nèi),金融機構(gòu)對于BCP/BCM(業(yè)務(wù)連續(xù)性)是最重視的?;ヂ?lián)網(wǎng)公司和傳統(tǒng)的金融機構(gòu)并不是一個量級的,還需要 進一步努力。比如,大型銀行的重要系統(tǒng),一套運行、一套熱備、一套測試,所有數(shù)據(jù)做到同城和異地備份,恢復(fù)時間是以小時計算的。互聯(lián)網(wǎng)公司講究快速迭代、 靈活性、可擴展性,而可能會犧牲穩(wěn)定性和安全性。
光纜也該“備份”
5月28日,據(jù)新華社“我在現(xiàn)場”客戶端,光纜承建方中國電信杭州公司給阿里巴巴發(fā)函,由于市政建設(shè)工程在電信管道上方野蠻施工,導(dǎo)致電信管道內(nèi)4條大光纜中斷,影響阿里巴巴集團業(yè)務(wù)。5月27日20:40至5月28日03:57,光纜陸續(xù)搶通。
按照一般情況,大型企業(yè)為了保證機房數(shù)據(jù)安全,都會實行“雙光纜”保護。一旦其中一條光纜出現(xiàn)故障(比如地震、洪水等),可以迅速接入另一條光纜。
并且,兩條光纜應(yīng)該保持一定距離。在2013年微信宕機事件中,騰訊與運營商把雙光纜放在了同一管道中。打個比方,現(xiàn)在是一條路上開了兩輛車,這條路斷了,兩輛車都開不過去。
一位運營商人士當(dāng)時坦承,他們?yōu)楹芏嗥髽I(yè)客戶所建的雙光纜都是單路由,但也并非不會做雙路由,“只要出得起錢,就能做。”
騰訊之前在廣東采用“雙光纜同路由”的機房發(fā)生過QQ連接故障的教訓(xùn),所以目前騰訊一些重要機房已經(jīng)按要求換成“雙光纜雙路由”,以保萬全。
淘寶已完成“異地多活”
不過值得注意的是,到5月27日晚上7時,支付寶服務(wù)恢復(fù)正常。也就是說,在光纜搶修完成之前,支付寶就已經(jīng)憑借自己能力給用戶提供服務(wù)。
支付寶稱,支付寶的異地多活系統(tǒng)架構(gòu)在此次意外中發(fā)揮了巨大作用。斷網(wǎng)發(fā)生后,支付寶緊急將用戶請求切換至國內(nèi)其他機房。
據(jù)阿里技術(shù)保障部微博,此次受光纜挖斷影響的不止支付寶,還包括淘寶。
那么,為何淘寶用戶沒受影響,而支付寶用戶受影響呢?阿里技術(shù)保障部稱,淘寶于去年8月完成異地多活的架構(gòu)改造,經(jīng)歷了“雙十一”的洗禮,技術(shù)已經(jīng)非 常成熟,所以能及時切走流量,用戶沒有任何感知,業(yè)務(wù)毫發(fā)無損。而支付寶目前正在部署異地雙活的階段,等到架構(gòu)完全改造完成后,將不會出現(xiàn)此類問題。
所謂異地多活,一位專家解釋道,與傳統(tǒng)的災(zāi)備技術(shù)相比,異地多活系統(tǒng)的特點是:在不同地點的數(shù)據(jù)中心都可以同時支持業(yè)務(wù),且每個地點發(fā)生的交易都是真 實業(yè)務(wù)流量,而不是常見的一主一備。若主中心沒問題,備份中心永遠(yuǎn)都是“備胎”。在傳統(tǒng)災(zāi)備方案中,一般提的都是同城災(zāi)備、異地災(zāi)備、兩地三中心。
這種多活數(shù)據(jù)中心的好處是:因為所有的數(shù)據(jù)中心都在支持交易,所以能節(jié)約IT成本;另外傳統(tǒng)方式中備份系統(tǒng)都不在真實的交易活動狀態(tài),所以很難判斷它的狀態(tài)到底怎么樣,在出現(xiàn)問題時,都不一定敢切過去。
可以比較的是2013年工商銀行ATM機宕機事件。2013年6月23日上午,中國工商銀行在全國多地的柜臺、ATM、網(wǎng)銀業(yè)務(wù)出現(xiàn)故障,用戶報告無法正常使用。故障持續(xù)至少近1個小時,波及北京、上海等多個城市。
當(dāng)時,一位IT業(yè)內(nèi)人士告訴早報記者,銀行等金融機構(gòu)的容災(zāi)系統(tǒng)不會輕易啟用整體切換,因為切換成本非常高。一般,非極端情況(如地震、機房著火等) 不會進行切換。另一位專家稱,大部分公司和網(wǎng)站都是沒有備份的。小部分公司做了同城災(zāi)備,還有一些公司做了異地災(zāi)備,比較難的就是異地雙活。大規(guī)模的“異 地多活”,目前在全球僅谷歌、Facebook等少數(shù)幾家互聯(lián)網(wǎng)公司實現(xiàn)。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。