Amazon剛剛經(jīng)歷的云服務(wù)停機事故引發(fā)業(yè)界對云技術(shù)的又一番爭論。
就在上周日上午時段,Amazon Web Services數(shù)據(jù)中心遭遇一起相當(dāng)嚴(yán)重的意外事故。
美國東部時間清晨六點,該公司負(fù)責(zé)承載AWS東弗吉尼亞區(qū)域負(fù)載的名為DynamoDB的大規(guī)模NoSQL數(shù)據(jù)庫發(fā)生使用率暴漲狀況——順帶一提,東弗吉尼亞州區(qū)域為該公司歷史最悠久、規(guī)模最大的九個全球性區(qū)域之一。到當(dāng)日上午七點五十二分,AWS判斷出問題根源:該數(shù)據(jù)庫的元數(shù)據(jù)管理機制出現(xiàn)問題,直接影響到其服務(wù)的分區(qū)與表。
Amazon Web Services
Amazon Web Service的運行狀況儀表板所示之上周日故障事件時間流程,其中包含引發(fā)問題的根本原因。
由于AWS服務(wù)使用極為復(fù)雜的互連機制,因此該問題滾雪球般影響到了總計117項受運行狀況儀表板監(jiān)控的服務(wù)類別當(dāng)中的34項。從Elastic Comupte Cloud(即彈性計算云,簡稱EC2)到虛擬機、到Glacier存儲服務(wù)再到Relational Database Service(即關(guān)系數(shù)據(jù)庫服務(wù))皆受到波及。根據(jù)媒體報道所言,其它采用AWS方案的企業(yè)客戶亦遭到影響,其中包括Netflix、IMDB、Tinder、Pocket以及Buffer等知名公司。
截至上周日中午,AWS方面報告稱問題已經(jīng)得到解決,但在其期間Twitter及其它社交平臺上出現(xiàn)了大量投訴與抱怨之聲。
那么我們該從此次事故當(dāng)中吸取哪些經(jīng)驗教訓(xùn)?下面請大家一同探討其中的三項重點。
1.云服務(wù)巨頭也有失蹄的時候
Amazon Web Services是目前公有IaaS云領(lǐng)域當(dāng)之無愧的王者——雖然微軟公司似乎也在這類業(yè)務(wù)身上砸下重金,但似乎仍然無法動搖Amazon的強勢地位。上周日的事故則提醒我們,即使是規(guī)模最大、經(jīng)驗最為老到的云服務(wù)供應(yīng)商,也仍然有可能遭遇意料之外的突發(fā)狀況。
2.時刻準(zhǔn)備迎接停機事故
考慮到即使是市場上成熟程度最高的云方案也仍然有可能——或者說實際遭遇到長達六個小時的服務(wù)停機,客戶應(yīng)當(dāng)提前為此做好準(zhǔn)備。AWS長久以來一直建議客戶對自有系統(tǒng)進行架構(gòu)規(guī)劃,從而更加主動地應(yīng)對可能出現(xiàn)的虛擬機或者其它服務(wù)停機。
DownDetector.com網(wǎng)站統(tǒng)計圖表顯示,Netflix公司上周日早晨的錯誤報告頻率遠(yuǎn)高于正常狀況。不過根據(jù)該公司的一位發(fā)言人所說,其服務(wù)并沒有受到顯著影響。
作為Amazon公司旗下規(guī)模最大且最具知名度的云服務(wù)客戶之一,Netflix公司通過發(fā)言人強調(diào)稱,此次停機事故給其服務(wù)造成的影響被控制在了最低程度,這是因為其以自動化方式將工作負(fù)載從出現(xiàn)問題的美國東部區(qū)域設(shè)施遷移到了其它運行正常的區(qū)域。任何使用AWS承載關(guān)鍵性業(yè)務(wù)應(yīng)用的客戶都應(yīng)當(dāng)對系統(tǒng)架構(gòu)進行調(diào)整,從而確保其能夠在相關(guān)云服務(wù)出現(xiàn)意外狀況時做好應(yīng)對措施。Netflix公司還開發(fā)出了一系列開源工具,旨在幫助自身系統(tǒng)進行隨機崩潰測試。盡管Netflix方面并不承認(rèn)其客戶因此次事故受到嚴(yán)重影響,不過第三方停機追蹤站點卻發(fā)布報告稱,Netflix在上周日早間遭遇到遠(yuǎn)超過正常水平的服務(wù)中斷頻率。換言之,即使是做好了充分準(zhǔn)備的高水平客戶,也沒辦法完全避免云服務(wù)中斷造成的影響。
3.“莫謂言之不預(yù)”
福布斯網(wǎng)站的一位博主認(rèn)為,此次服務(wù)中斷并不會改變云計算的未來普及趨勢。我個人基本同意這種看法。如果大家身為AWS的擁護者,那么肯定會從積極的角度看待此次事件,例如中斷事故的發(fā)生頻率遠(yuǎn)低于以往,如果客戶采取AWS推薦的最佳實踐、那么這些意外也不會造成太大影響等等。
不過換個角度來看,像上周日這樣的服務(wù)中斷狀況將成為有力證據(jù),促使那些不愿將工作負(fù)載交給公有云打理的客戶抱持更加頑固的心態(tài)。
事實上中斷事故是不可避免的,其可能出現(xiàn)在公有云服務(wù)中、任意供應(yīng)商處甚至連企業(yè)自己負(fù)責(zé)運行的內(nèi)部數(shù)據(jù)中心也不放過。而這正是IT事務(wù)的本質(zhì)與宿命,所以一味強調(diào)公有云存在可用性問題確實不太客觀。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。