過去20年,自共享存儲引入以來,數(shù)據(jù)的指數(shù)式增長對企業(yè)是一個重大管理挑戰(zhàn)。人們對于存儲的需求難以得到滿足,每年對數(shù)據(jù)增長速度的預(yù)測都從50%-100%不等。為了有效管理數(shù)據(jù)增長,存儲供應(yīng)商們實施了一些能夠優(yōu)化物理存儲容量使用的軟件功能。這些功能讓數(shù)據(jù)存儲變得更加智慧,而企業(yè)存儲技術(shù)名詞對于一般用戶而言更多比較“高端”,讓我們一起去了解一下這些“高富帥”。
精簡配置,這是一種空間節(jié)省技術(shù),可以僅存儲主機(jī)在磁盤上寫入的數(shù)據(jù)。通過僅存儲實際寫入每個卷的數(shù)據(jù),而不是像“厚”配置實施中儲備整個卷容量,從而實現(xiàn)空間的節(jié)省。雖然精簡配置解決方案可以節(jié)省 35%-75%的物理磁盤容量(具體取決于數(shù)據(jù)配置文件),但需要持續(xù)不斷的清理工作,才能保持效率并達(dá)到最優(yōu)的性能水平。
零頁回收,這種空間節(jié)省技術(shù)可以識別空頁或“為零的”數(shù)據(jù),并從物理磁盤中將它們刪除,保留元數(shù)據(jù)信息以識別卷中的邏輯頁是否為空。大多數(shù)解決方案使用后處理零頁回收 (ZPR),因為以實時方式識別空頁的消耗會影響 I/O 性能。
數(shù)據(jù)壓縮,這種空間節(jié)省技術(shù)可以識別重復(fù)樣式或冗余數(shù)據(jù)并將其刪除,保留允許重新創(chuàng)建原始信息的元數(shù)據(jù)。雖然壓縮可以實現(xiàn)大幅空間節(jié)省,但對處理器消耗的要求意味著很多供應(yīng)商都不會選擇實施這種技術(shù)。
空間高效快照和克隆,并不是一種空間節(jié)省技術(shù),但對主數(shù)據(jù)的快照和克隆可以通過節(jié)省空間的方式進(jìn)行,使用元數(shù)據(jù)跟蹤主卷和快照之間的不同。在一些架構(gòu)中,使用快照有一些性能隱憂;一些架構(gòu)還要求保留空間來用于快照池,但一些平臺中并沒有限制。
在企業(yè)存儲技術(shù)中,除了上面提到的技術(shù)名詞,最多的應(yīng)該是—重復(fù)數(shù)據(jù)刪除技術(shù)。它可以識別物理存儲中冗余或重復(fù)的數(shù)據(jù),刪除冗余副本,在磁盤上僅保留一份數(shù)據(jù)副本。元數(shù)據(jù)(在內(nèi)存中保存為查找表)用于將邏輯卷映射到數(shù)據(jù)的單個實例副本。在包含很多類似或重復(fù)數(shù)據(jù)的系統(tǒng)中,例如虛擬服務(wù)器和虛擬桌面環(huán)境中,可實現(xiàn)物理磁盤容量的大幅節(jié)省。截至目前,重復(fù)數(shù)據(jù)刪除已經(jīng)在磁盤備份系統(tǒng)中廣泛使用,實現(xiàn)物理容量節(jié)省幅度達(dá)到90%-95%或20:1以上。
重復(fù)數(shù)據(jù)刪除的一些技術(shù)特性包括:
內(nèi)聯(lián)/后處理,重復(fù)數(shù)據(jù)刪除可在向磁盤傳輸數(shù)據(jù)時進(jìn)行(稱為內(nèi)聯(lián)),也可以在數(shù)據(jù)已位于磁盤上時進(jìn)行(稱為后處理)。內(nèi)聯(lián)處理要求使用快速高效的算法,將對性能的影響降至最低,從而立即增加空間節(jié)省的收益。后處理雖然可以消除任何直接的性能影響,但對物理磁盤空間的使用將有所不同,因為在數(shù)據(jù)寫入磁盤后,重復(fù)數(shù)據(jù)刪除僅作為后臺任務(wù)運(yùn)行。
固定/可變塊大小,重復(fù)數(shù)據(jù)刪除技術(shù)可識別使用固定或可變數(shù)據(jù)塊技術(shù)生成的潛在重復(fù)數(shù)據(jù)??勺儔K算法通常比固定塊解決方案的重復(fù)數(shù)據(jù)刪除率更高,但要求的處理消耗也更大。而更小的固定塊則傾向于產(chǎn)生更為高效的結(jié)果,但在額外元數(shù)據(jù)查找方面對處理器消耗和系統(tǒng)內(nèi)存要求的成本也更高。
數(shù)據(jù)哈希,哈希指通過數(shù)據(jù)塊生成唯一校驗和值的過程。每個塊的哈希值用作在元數(shù)據(jù)表中引用該數(shù)據(jù)且將新數(shù)據(jù)與重復(fù)數(shù)據(jù)刪除相比較的特征。哈希技術(shù)在可靠性上有所不同,一些算法可為不同數(shù)據(jù)生成相同的哈希值,稱為“哈希沖突”。哈希算法的復(fù)雜性與對性能的影響之間應(yīng)保持平衡,一些實施方案使用少量哈希,并會在確認(rèn)重復(fù)數(shù)據(jù)刪除前驗證所有數(shù)據(jù)。
數(shù)據(jù)配置文件,對于訪問單個卷的重復(fù)數(shù)據(jù)刪除結(jié)果更為隨機(jī),因為邏輯卷布局尚未決定數(shù)據(jù)塊的原始物理位置。隨機(jī)數(shù)據(jù)訪問對基于HDD的存儲陣列而言更為困難,因為機(jī)械磁盤頭的轉(zhuǎn)動會使隨機(jī)I/O結(jié)果發(fā)生大量延遲。另一方面,閃存存儲就不會有這類問題,這使此技術(shù)非常適用于管理因重復(fù)而被刪除的數(shù)據(jù)。
對于企業(yè)存儲技術(shù)有了概念上的認(rèn)知,在陸續(xù)應(yīng)用內(nèi)容上可以進(jìn)一步結(jié)合名詞來深入了解企業(yè)方案中這些技術(shù)所帶來的真正效果。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。