臺(tái)風(fēng)、颶風(fēng)、海嘯以及遠(yuǎn)超機(jī)房承受能力的洪水,這些自然災(zāi)害使得保持?jǐn)?shù)據(jù)穩(wěn)定的工作變得極具挑戰(zhàn)性。
自然的力量在有些時(shí)候顯得異常強(qiáng)大并且難以控制,比如2005年肆虐橫行美國(guó)東南各州的katrina颶風(fēng),在自然界的超能力面前,人類的力量顯得不值一提。如果在災(zāi)害中電源及數(shù)據(jù)連接同時(shí)損壞,這使得確保足夠的正常運(yùn)行時(shí)間徹底淪為空談——再說,這種時(shí)候誰(shuí)還會(huì)指望維護(hù)人員來干活呢?在這種情況之下,如果數(shù)據(jù)中心實(shí)在無法保證全天候的設(shè)備運(yùn)作(例如主機(jī)托管及代管業(yè)務(wù)),那么在可預(yù)警的災(zāi)害襲來之前主動(dòng)斷電也許是更好的選擇。因?yàn)橐坏┱_\(yùn)轉(zhuǎn)中的設(shè)備在遭遇這些災(zāi)害時(shí),電力中斷及數(shù)據(jù)丟失幾乎是無法避免的悲劇。
大家也許會(huì)問,服務(wù)器與存儲(chǔ)設(shè)備的潛在損壞風(fēng)險(xiǎn)又有多大呢?事實(shí)上,即使有最可靠的UPS系統(tǒng)及后備發(fā)電機(jī)組保駕護(hù)航,損壞風(fēng)險(xiǎn)仍然不容忽視。比如說,惡劣的氣候環(huán)境導(dǎo)致建筑物頂板破損,暴露于室外的設(shè)備必然危如累卵。此外,常見的通信線路中斷意味著除非整個(gè)設(shè)施的各個(gè)部分都有專人看管并手動(dòng)操作,否則管理員們將無法通過遠(yuǎn)程控制的方式檢測(cè)設(shè)施狀況或者是進(jìn)行斷電后的關(guān)機(jī)保護(hù)。具體的應(yīng)對(duì)措施取決于大家設(shè)施部署中的種種細(xì)節(jié),但我們永遠(yuǎn)要把安全放在第一位,因此消極回避并祈求好運(yùn)顯然是下下之策。
以katrina颶風(fēng)為例,由于氣象災(zāi)害預(yù)警已經(jīng)提前發(fā)出,預(yù)料到可能到來的災(zāi)難后,我選擇了通過遠(yuǎn)程手段關(guān)閉兩個(gè)處于不同狀態(tài)的數(shù)據(jù)中心,關(guān)閉后數(shù)據(jù)中心中只有交換機(jī)與VPN設(shè)備仍在運(yùn)作。當(dāng)然,這些數(shù)據(jù)中心內(nèi)的幾乎任何組成部分都能夠進(jìn)行遠(yuǎn)程控制,從開啟、關(guān)閉服務(wù)器到在網(wǎng)絡(luò)上獲取每臺(tái)相關(guān)設(shè)備的控制臺(tái)訪問權(quán),其中包括存儲(chǔ)控制器、核心切換等等。關(guān)閉數(shù)據(jù)中心的工作只花費(fèi)半個(gè)小時(shí),會(huì)用到的是通過特殊命令關(guān)閉每臺(tái)Linux服務(wù)器的腳本工具——值得一提的是,當(dāng)下普及度極高的虛擬化應(yīng)用使關(guān)閉虛擬機(jī)的工作異乎尋常的簡(jiǎn)單。
我再舉另外一個(gè)例子:另一家網(wǎng)站沒有采取同樣的應(yīng)對(duì)措施,本來他們計(jì)劃在下午三點(diǎn)實(shí)施關(guān)閉,但該網(wǎng)站卻在當(dāng)天中午十一點(diǎn)四十五分莫名其妙地遭遇電力中斷,這時(shí)風(fēng)暴其實(shí)還尚未襲來。而且,他們受相關(guān)規(guī)定及網(wǎng)站自身的限制,也沒有準(zhǔn)備后備發(fā)電機(jī)組。就在那個(gè)時(shí)段,我剛剛在某個(gè)停車場(chǎng)中通過自己的iPhone將服務(wù)器全部關(guān)閉。我利用腳本關(guān)閉了約半數(shù)的服務(wù)器,但在存儲(chǔ)系統(tǒng)中Windows對(duì)話框卻惱人地彈出,導(dǎo)致腳本無法順利執(zhí)行。關(guān)于數(shù)據(jù)中心,我最后收到的信息來自一條殘缺的短信,通知那套怪物級(jí)UPS系統(tǒng)中的電池已經(jīng)用盡,接下來就是一團(tuán)沉寂。不過想想也好,畢竟我所管理的基礎(chǔ)設(shè)施在兩百五十英里之外,任何所謂積極的應(yīng)對(duì)措施都只能在風(fēng)暴經(jīng)過之后才有可能得以開展。
之后發(fā)生的事情是這樣的:隨著電力供給恢復(fù)正常,后備數(shù)據(jù)中心立即自動(dòng)開始備份工作。由于除了彈出對(duì)話框的設(shè)備之外,其它大部分硬件早已正常關(guān)閉,因而在檢測(cè)到電力供應(yīng)后其它服務(wù)器按照預(yù)定計(jì)劃自動(dòng)啟動(dòng)起來。網(wǎng)絡(luò)設(shè)備運(yùn)行良好,存儲(chǔ)系統(tǒng)也同樣未受損傷。實(shí)際上,與發(fā)生故障時(shí)的啟動(dòng)過程不同,這次的災(zāi)后啟動(dòng)極為順暢無阻。對(duì)于某幾臺(tái)服務(wù)器,我不得不手動(dòng)開機(jī)、對(duì)存儲(chǔ)狀況發(fā)生異常的網(wǎng)絡(luò)文件系統(tǒng)進(jìn)行重新安裝,這一異常影響到了其它幾臺(tái)服務(wù)器的正常啟動(dòng)并連帶給幾套虛擬機(jī)系統(tǒng)帶來麻煩,不過也就僅此而已,并未發(fā)生太糟的事態(tài)。
有組織、有計(jì)劃地關(guān)閉數(shù)據(jù)中心設(shè)施帶來的良好結(jié)果令人欣慰,而負(fù)面影響相比之下也為害甚輕。如果大家所運(yùn)維的數(shù)據(jù)中心除了自然災(zāi)害之外,還有可能在正常的業(yè)務(wù)操作中遇上需要徹底關(guān)閉的情況,那么盡早制訂一套具備可操作性的關(guān)閉計(jì)劃絕對(duì)比臨時(shí)抱佛腳要好得多。不管怎樣,這次關(guān)機(jī)經(jīng)歷增強(qiáng)了我對(duì)硬件事故承受能力的信心。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。