想要弄清楚磁盤陣列恢復(fù),首先就得知道什么是磁盤陣列,磁盤陣列多用于存儲服務(wù)器,數(shù)據(jù)服務(wù)器等企業(yè)級大數(shù)據(jù)存儲領(lǐng)域,磁盤陣列是把多塊獨(dú)立的物理硬盤按 不同方式組合起來形成一個邏輯硬盤,當(dāng)磁盤癱瘓或硬件損壞后,為了恢復(fù)存儲在陣列平臺的數(shù)據(jù)被稱之為磁盤陣列數(shù)據(jù)恢復(fù),而磁盤陣列能夠提供比單個硬盤有著 更高的性能和提供數(shù)據(jù)冗余的技術(shù)。
對于做數(shù)據(jù)恢復(fù)人員來講,最怕的是什么,那就是在客戶發(fā)現(xiàn)數(shù)據(jù)丟失后,沒有停止對其他的操作,而是隨意根據(jù)自己的理解或者是某些未證實(shí)的方法進(jìn)行隨 意操作,導(dǎo)致數(shù)據(jù)恢復(fù)難上加難,因此如果你的服務(wù)器或存儲平臺組建了RAID磁盤陣列,無論因哪種原因?qū)е碌拇疟P陣列癱瘓,請勿進(jìn)行僥幸心理嘗試或執(zhí)行盲 目性無安全操作,這是十分危險的事情!在RAID數(shù)據(jù)恢復(fù)案例統(tǒng)計(jì)中發(fā)現(xiàn),不能恢復(fù)的RAID數(shù)據(jù)往往是再次的操作導(dǎo)致的,因此一旦發(fā)現(xiàn)磁盤陣列發(fā)現(xiàn)問 題,請立即停止一切操作,咨詢相關(guān)技術(shù)人員,確定好后再操作。
那么當(dāng)磁盤陣列不正常或無法啟動的時候,該如何有效的保護(hù)數(shù)據(jù)不被破壞呢,先簡單介紹下幾種可能會對磁盤陣列數(shù)據(jù)恢復(fù)造成數(shù)據(jù)破壞的操作:
1.強(qiáng)制Online
這個操作是很容易對陣列造成數(shù)據(jù)破壞的,尤其是當(dāng)有2塊或以上的盤掉線的時候,如果不知道哪個盤先掉,哪個盤后掉的話,一但破壞了,數(shù)據(jù)將有可能變成舊的,而且無法恢復(fù)。
2.Rebuild
比如:RAID5陣列,4塊盤,Rebuild操作的實(shí)際意義是,用其中3塊盤做異或運(yùn)算,將結(jié)果寫到另一塊盤中。這里要求,用來做異或運(yùn)算的3塊盤的數(shù)據(jù)一定要是正確的,如果其中有一塊或多塊不正確哪么異或出來的結(jié)果也就是不正確的。
3.更換RAID卡或主機(jī)
目前大部分RAID卡都是支持這種操作的,在陣列正常的情況下這個操作是不會破壞數(shù)據(jù)的。但是,在陣列已經(jīng)癱瘓或是無法正常工作的時候,這個操 作將有可能導(dǎo)致RAID對硬盤做不正常的Rebuild和校驗(yàn),所以當(dāng)陣列出現(xiàn)問題的時候,要準(zhǔn)確判斷是陣列卡有問題,還是硬盤有問題,不要輕易去嘗試更 換RAID卡或主機(jī)。
4.把報(bào)錯的硬盤全部拔下來再插上去
拔下來沒關(guān)系,但是如果再全插上去的話陣列將重新去識別插上去的硬盤,這時如果硬盤中的陣列信息或數(shù)據(jù)有誤的話,會導(dǎo)致陣列做出錯的 Rebuild操作。如果是懷疑硬盤接觸不好的話,可以一塊一塊的拔,再一塊一塊的插上去。不要一次都拔下來?;蛘呖梢缘脑?,關(guān)機(jī)后,再進(jìn)行插拔。
5.操作系統(tǒng)的check disk
Windows,Linux,Unix等操作系統(tǒng)都有自己的一個硬盤檢測程序,當(dāng)你硬盤中的分區(qū)或文件出現(xiàn)問題無法正常讀取的時候,操作系統(tǒng)就 會在重啟的時候去自動運(yùn)行Check disk去試圖修復(fù),這時,如果是陣列的檢驗(yàn)出現(xiàn)問題而導(dǎo)致分區(qū)或文件出錯的話,運(yùn)行Check disk將有可能破壞陣列中數(shù)據(jù)。
6.對RAID中單塊硬盤進(jìn)行寫操作
一件事情或一個工作做的多了,你可能什么情況都能遇到,這一項(xiàng)我們是很不愿意列出來,但是就有人這么做了,所以不得不拿出來提醒一個。陣列中的硬盤是一個整體,破壞其它一塊硬盤就是破壞整個陣列。
7.磁盤掉線
對于RAID5來說,掉線1塊盤陣列還是可以正常運(yùn)行的,如果超出1塊,陣列將無法啟動。當(dāng)陣列掉線超出1塊盤的時候,最好不要做強(qiáng)制 Online。尤其是在你不知道是哪個盤先掉線哪塊盤后掉線的時候,絕對不可以強(qiáng)制Online。RAID0和1算法簡單,這里就不詳細(xì)說明了。 RAID5當(dāng)一塊硬盤OFFLINE之后負(fù)載會比較重,此時最好做脫機(jī)的REBUILD,如一定要在線REBUILD,應(yīng)盡可能少得對磁盤做高負(fù)荷的讀 寫,應(yīng)保障這個過程的順利完成。建議條件許可的話,加入HOTSPARE DISK
8.磁盤有壞道
陣列中的磁盤如果有壞道的話,會導(dǎo)致磁盤掉線或陣列不穩(wěn)定,這時應(yīng)盡早將有壞道的硬盤換掉,如果出現(xiàn)多壞硬盤有壞道的話,陣列將可能癱瘓。
9.斷電或意外關(guān)機(jī)
陣列是由RAID卡控制硬盤,通過某種算法將多塊硬盤整合成一塊硬盤提供給用戶使用。在陣列運(yùn)行過程中,會有大量的輸入輸出信息放在RAID卡 的緩沖或主機(jī)的緩沖中的,如果發(fā)生突然斷電和意外關(guān)機(jī)的情況,將導(dǎo)致碏的信息無法寫回到硬盤或RAID卡的ROM中,這樣極易導(dǎo)致陣列信息丟失、陣列癱 瘓。
10.擴(kuò)容失敗或擴(kuò)容過程中意外中斷
這里強(qiáng)烈建議,雖然目前很多陣列都支持不破壞數(shù)據(jù)直接擴(kuò)容,但是這種操作十分危險,在擴(kuò)容的過程中如果出現(xiàn)意外情況,比如說,突然斷電,硬盤有壞道等,那數(shù)據(jù)是無法恢復(fù)的。所以要盡量將數(shù)據(jù)備份后再進(jìn)行擴(kuò)容。
11.文件目錄混亂,部分或全部文件無法訪問
這種情況是由于陣列中某塊硬盤的數(shù)據(jù)是不正確的,導(dǎo)致校驗(yàn)出錯,其實(shí)并不是文件本身的問題。這時如果重啟系統(tǒng)的話,操作系統(tǒng)會對這個分區(qū)做Check disk,注意不要讓系統(tǒng)做Check disk。
12.Rebuild失敗或Rebuild過程中意外中斷
Rebuild過程中陣列是不能斷電的,否則陣列將有可能癱瘓。而且磁盤中有壞道的活,在Rebuild過程中也會使Rebuild失敗。
甲馭科技數(shù)據(jù)恢復(fù)中心專業(yè)從事數(shù)據(jù)恢復(fù)服務(wù)及其產(chǎn)品研發(fā)。是國內(nèi)較早專業(yè)從事數(shù)據(jù)恢復(fù)服務(wù)的公司,擁有資探數(shù)據(jù)恢復(fù)技術(shù)團(tuán)隊(duì)??梢詰?yīng)付各種類型 的raid陣列故障。對各種raid類型,例如raid0,1,5,6,5e,5ee,6e,惠普雙循環(huán)等情況都可以進(jìn)行恢復(fù),我們研發(fā)了業(yè)界知名的 raidgenius,磁盤陣列自動分析工具,全自動恢復(fù)以及檢測各類型的raid陣列上千例
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。