數(shù)據(jù)中心的重要性不言而喻,尤其要保證其業(yè)務(wù)正常運轉(zhuǎn)的連續(xù)性,要常年不間斷正常運轉(zhuǎn)。不過,數(shù)據(jù)中心里有很多子系統(tǒng)。就應(yīng)用業(yè)務(wù)這部分來說,有服務(wù)器、網(wǎng)絡(luò)、存儲、安全等幾個部分,每部分都涉及一系列技術(shù),牽扯到成百上千臺的設(shè)備,這樣龐大的系統(tǒng)難免會出現(xiàn)這樣那樣的問題,如何在出現(xiàn)故障之后,保持系統(tǒng)正常連續(xù)性運轉(zhuǎn)是每個數(shù)據(jù)中心都必須要重視的問題。因此,保障技術(shù)就是為了提升數(shù)據(jù)中心可靠性的,尤其是在局部出了故障之后,系統(tǒng)依然具備短時正常運轉(zhuǎn)的能力,這就好比飛機(jī)有常備有兩個發(fā)動機(jī),萬一其中一個發(fā)動機(jī)出了故障,另外一個發(fā)動機(jī)可以即刻啟動工作,兩個發(fā)動機(jī)完全獨立,互不干擾,避免出現(xiàn)兩個發(fā)動機(jī)同時故障的情況出現(xiàn),數(shù)據(jù)中心也是如此,從多個角度去考慮冗余備份,提升可靠性,冗余是提升數(shù)據(jù)中心可靠性最簡單最有效的方式。那么,接下來我們就擴(kuò)展討論一下數(shù)據(jù)中心的可靠性保障技術(shù)。
可以將數(shù)據(jù)中心的可靠性保障技術(shù)分為兩個大類:一是數(shù)據(jù)中心內(nèi)部的可靠性保障技術(shù);另一個是數(shù)據(jù)中心間的可靠性保障技術(shù)。先來說數(shù)據(jù)中心內(nèi)部的可靠性技術(shù),主要包括三部分:冷備份、熱備份、輕量級備份。冷備份指的是數(shù)據(jù)中心發(fā)生故障時,備份系統(tǒng)未安裝或未配置成與當(dāng)前使用的系統(tǒng)相同或相似的運行環(huán)境, 應(yīng)用系統(tǒng)數(shù)據(jù)沒有及時裝入備份系統(tǒng)。備份系統(tǒng)需要臨時準(zhǔn)備,數(shù)據(jù)備份介質(zhì)(磁帶或光盤)恢復(fù)應(yīng)用數(shù)據(jù),手工逐筆或自動批量追補(bǔ)孤立數(shù)據(jù),將終端用戶通過通訊線路切換到備份系統(tǒng),恢復(fù)業(yè)務(wù)運行。顯然冷備份恢復(fù)時間較長,數(shù)據(jù)完整與一致性都很差。冷備份不適用于要求業(yè)務(wù)零中斷或無狀態(tài)應(yīng)用的可靠性保障,當(dāng)然冷備份方式投資較少,節(jié)省運維費用,可在一些承載不重要業(yè)務(wù)的中小型數(shù)據(jù)中心使用;熱備份指的是數(shù)據(jù)中心在正常運轉(zhuǎn)時,會實時將數(shù)據(jù)同步到備份系統(tǒng),備份系統(tǒng)的指令、內(nèi)存、所有狀態(tài)數(shù)據(jù)均與正在運行的應(yīng)用系統(tǒng)完全同步。當(dāng)數(shù)據(jù)中心發(fā)生故障時,不用追補(bǔ)或只需追補(bǔ)很少的孤立數(shù)據(jù),備份系統(tǒng)可快速接替系統(tǒng)運行,恢復(fù)業(yè)務(wù)。顯然熱備份業(yè)務(wù)恢復(fù)時間短,甚至沒有中斷,數(shù)據(jù)保存完好。不過,熱備份投資大,平時運行管理較復(fù)雜,運維難度大,需要維護(hù)人力和資金都大,一般只在重要的數(shù)據(jù)中心業(yè)務(wù)中部署,尤其是一些不差錢的超大型數(shù)據(jù)中心有部署。有的數(shù)據(jù)中心業(yè)務(wù)即使有幾秒的中斷,都會帶來嚴(yán)重?fù)p失,這就必須部署熱備份的技術(shù)。冷備份和熱備份走兩個極端,對于那些中型的或者業(yè)務(wù)不是那么重要的數(shù)據(jù)中心,讓數(shù)據(jù)中心很難做選擇,于是又出現(xiàn)了介于兩者之間的可靠性技術(shù):輕量級備份。輕量級備份方式中,備份系統(tǒng)的數(shù)據(jù)和應(yīng)用系統(tǒng)周期性保持同步,時間上不是實時,當(dāng)數(shù)據(jù)中心出現(xiàn)故障時,恢復(fù)時間介于冷備份和熱備份之間,輕量級備份數(shù)據(jù)實時性也較差,但不至于丟失嚴(yán)重,曾經(jīng)備份過的數(shù)據(jù)會留下來。輕量級備份投資不是很大,運維難度也不高,適用于中型數(shù)據(jù)中心部署。
另一部就是數(shù)據(jù)中心間的可靠性保障技術(shù),主要也包括三部分:同步容災(zāi)、異步容災(zāi)及半同步容災(zāi)。同步容災(zāi)就是建立異地數(shù)據(jù)中心,異地保存一份與本地數(shù)據(jù)中心完全一致的數(shù)據(jù)備份。當(dāng)本地數(shù)據(jù)中心出現(xiàn)災(zāi)難時,業(yè)務(wù)系統(tǒng)自動切換到異地的數(shù)據(jù)中心繼續(xù)運行向外提供不間斷服務(wù)。要保持兩個數(shù)據(jù)中心的數(shù)據(jù)完全一致,不僅技術(shù)實現(xiàn)上難度非常大,投資也非常大,同步容災(zāi)意味著要建設(shè)一座或多座和現(xiàn)有本地數(shù)據(jù)中心完全一致的數(shù)據(jù)中心,投資往往高達(dá)數(shù)億資金,就是日常運維也要數(shù)千萬,一般只有金融和互聯(lián)網(wǎng)行業(yè)的大型數(shù)據(jù)中心才有部署。同步容災(zāi)一步到位,對整個數(shù)據(jù)中心進(jìn)行冗余備份,備份最為徹底,可靠性自然最高,可以自如應(yīng)對地震、洪水等極端自然災(zāi)害。異步容災(zāi)也需要在異地建多座數(shù)據(jù)中心,不過對數(shù)據(jù)備份方式是異步的,周期性地進(jìn)行同步,異步容災(zāi)技術(shù)實現(xiàn)難度小,雖然數(shù)據(jù)落后,但必須保證數(shù)據(jù)完整一致性和可用性,異地數(shù)據(jù)會比本地數(shù)據(jù)落后一定時間,這個時間隨著采用的技術(shù)、帶寬、距離、數(shù)據(jù)流特點的不同而不同。異步容災(zāi)對帶寬和距離的要求低很多,只要求在某個時間段內(nèi)能將數(shù)據(jù)全部復(fù)制到異地即可。不過,既然數(shù)據(jù)不是同步的,在數(shù)據(jù)中心發(fā)生故障時,最近的一段時間數(shù)據(jù)會丟失,也許幾分鐘,也許幾個小時,這要看異步容災(zāi)周期性同步數(shù)據(jù)的時間頻率。在同步和異步之間還有一個半同步容災(zāi)。半同步容災(zāi)基本等同于同步容災(zāi),同步容災(zāi)要求前部分?jǐn)?shù)據(jù)沒有同步完,不能進(jìn)行下一組數(shù)據(jù)的同步。但在某些環(huán)境下,如帶寬距離時延均較大的情況下,這對性能影響非常顯著。半同步容災(zāi)就是同步數(shù)據(jù)時遇到這種情況時,對數(shù)據(jù)多進(jìn)行幾次讀寫,沒有及時同步過來的數(shù)據(jù),通過后面的同步依然可以追回來,所以半同步容災(zāi)更適合于實際應(yīng)用。在數(shù)據(jù)中心間的可靠性技術(shù)中,實際上采用的基本都是這種半同步容災(zāi)技術(shù)。
可靠性是一個與時間相關(guān)的標(biāo)準(zhǔn),時間越長,可靠性越低。理論上任何一個數(shù)據(jù)中心隨著運行時間的增長,遲早都會出現(xiàn)故障。如果要求數(shù)據(jù)中心長期向外提供不間斷業(yè)務(wù),就需要部署可靠性保障技術(shù),提升數(shù)據(jù)中心可靠性,哪個數(shù)據(jù)中心都離不開它的護(hù)佑。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。