近年來,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算的快速發(fā)展催生并積累了大量的用戶、業(yè)務(wù)數(shù)據(jù)。據(jù)市場調(diào)研機構(gòu)IDC預(yù)計,未來全球數(shù)據(jù)總量年增長率將維持在50%左右,到2020年,全球數(shù)據(jù)總量將達(dá)到40ZB。據(jù)統(tǒng)計,這些海量數(shù)據(jù)中只有10%~15%的數(shù)據(jù)是被經(jīng)常訪問的,而絕大部分都會在產(chǎn)生之后逐漸變冷。這些“冷數(shù)據(jù)”的訪問率雖然很低,但用戶還是希望保留這些數(shù)據(jù),對于企業(yè)而言,還有很多數(shù)據(jù)需要進(jìn)行備份和存檔。
且不管數(shù)據(jù)的冷熱及其冗余備份,如果將這40ZB的數(shù)據(jù)都使用目前已量產(chǎn)的最大容量藍(lán)光盤來存儲,按照單盤容量300GB計算,則需要1300多億張盤;如果使用10TB的機械硬盤來存儲,需要40億個硬盤;如果采用磁帶庫來存儲,目前也有量產(chǎn)的10TB磁帶,按照這個存儲能力計算,也需要40億個磁帶。這不僅為數(shù)據(jù)存儲行業(yè)帶來了巨大的市場空間,同時也對海量數(shù)據(jù)的存儲、處理和管理能力提出了前所未有的挑戰(zhàn)。
量冷數(shù)據(jù)存儲面臨諸多挑戰(zhàn)
首先,面對快速增長的數(shù)據(jù)存儲需求,成本是需研究的首要問題。如果只從物理上增加存儲容量,則必然導(dǎo)致存儲數(shù)據(jù)的成本持續(xù)、快速增加,且將受制于機房空間、供電能力等其他因素而難以為繼。
其次,是冷熱數(shù)據(jù)的分級。業(yè)界根據(jù)數(shù)據(jù)的訪問頻次將數(shù)據(jù)分為熱數(shù)據(jù)、溫數(shù)據(jù)和冷數(shù)據(jù),但具體到海量的數(shù)據(jù),哪些屬于冷數(shù)據(jù),應(yīng)該相應(yīng)采用什么存儲策略、存儲方式,則是一個需要長期研究探索、實踐積累的問題。
再者,海量的已存數(shù)據(jù)的維護(hù)也成為新的挑戰(zhàn)。一方面需要定期檢測存儲介質(zhì)的健康情況及數(shù)據(jù)的完整性,在發(fā)現(xiàn)壞盤的情況下及時進(jìn)行更換;另一方面是數(shù)據(jù)的搬遷,存儲介質(zhì)大都有相對固定的使用壽命,在設(shè)備生命周期結(jié)束之后,需要將數(shù)據(jù)遷移到新的存儲介質(zhì)上。
海量數(shù)據(jù)的價值體現(xiàn)是又一挑戰(zhàn)。海量數(shù)據(jù)的存儲必然占用一定的成本,而數(shù)據(jù)的存儲價值并非只是為了保存,而是在需要的時候能夠被盡可能快地找到。為用戶提供盡可能好的訪問體驗,這就要求海量數(shù)據(jù)存儲具備可快速查詢的能力。
最后,數(shù)據(jù)的安全也是海量冷數(shù)據(jù)存儲的一大挑戰(zhàn)。一方面是數(shù)據(jù)的可靠性,即數(shù)據(jù)的冗余備份。數(shù)據(jù)的存儲最基本的要求就是數(shù)據(jù)不丟失,目前最常用的辦法就是對數(shù)據(jù)進(jìn)行多副本的冗余保存,或者采用可恢復(fù)數(shù)據(jù)的校驗方法。這種冗余存儲在本來就海量的基礎(chǔ)上又增加了一定比例的數(shù)據(jù)量,而海量數(shù)據(jù)的存儲通常需要大量的存儲設(shè)備和其他配套設(shè)備,在相同的故障概率下,可能發(fā)生故障的設(shè)備也就相應(yīng)較多,因此這些設(shè)備的定期巡檢、故障定位和維修更換,都因“海量”而極具挑戰(zhàn)。另一方面是數(shù)據(jù)的隱私保護(hù),即數(shù)據(jù)的訪問權(quán)限控制。由于大量的數(shù)據(jù)被聚集在一起,當(dāng)發(fā)生數(shù)據(jù)泄露時,泄露的數(shù)據(jù)將會更多,甚至可能包括比攻擊目標(biāo)更加重要的數(shù)據(jù)。此外,海量的數(shù)據(jù)也增加了數(shù)據(jù)被篡改的風(fēng)險,影響數(shù)據(jù)的實際價值。
為了實現(xiàn)用盡可能低的成本獲得盡可能持久、敏捷、可靠、安全的數(shù)據(jù)存儲,海量冷數(shù)據(jù)的存儲面臨著諸多挑戰(zhàn),同時也給產(chǎn)業(yè)鏈上下游企業(yè)帶來了更多的發(fā)展機遇,從存儲介質(zhì)、控制器、數(shù)據(jù)中心等硬件技術(shù),到數(shù)據(jù)分級、數(shù)據(jù)壓縮、冗余備份等軟件技術(shù),相關(guān)企業(yè)都在進(jìn)行相應(yīng)的技術(shù)攻關(guān),也取得了很多突破性的發(fā)展。
海量冷數(shù)據(jù)存儲的關(guān)鍵技術(shù)
一是數(shù)據(jù)的分級,主要是指從海量的數(shù)據(jù)中根據(jù)文件的訪問頻率、價值等因素,進(jìn)行冷熱數(shù)據(jù)的分類,甚至分出更細(xì)的數(shù)據(jù)類型,如“溫數(shù)據(jù)”、“冰數(shù)據(jù)”等。目前常見的數(shù)據(jù)分級方法主要有兩類,一類是業(yè)務(wù)數(shù)據(jù)的分類,即基于具體的業(yè)務(wù)類型,結(jié)合長期以來的運營經(jīng)驗,進(jìn)行運營級的數(shù)據(jù)分類。另一類是基于數(shù)據(jù)存取特性的分類,即借助存儲軟件系統(tǒng)自動進(jìn)行數(shù)據(jù)的冷熱分級。通過存儲軟件系統(tǒng)對數(shù)據(jù)進(jìn)行冷熱監(jiān)控,統(tǒng)計分析一個時間周期內(nèi)的IO冷熱程度,并按照設(shè)定的分類策略自動進(jìn)行數(shù)據(jù)的分類,并將冷數(shù)據(jù)從前端業(yè)務(wù)存儲系統(tǒng)遷移到冷數(shù)據(jù)存儲系統(tǒng)。
二是存儲密度的提升,幾乎所有的存儲部件廠商都在努力通過提升單盤的存儲容量來應(yīng)對數(shù)據(jù)的快速增長。在磁、光存儲密度快速提升的同時,電存儲也表現(xiàn)出色,32TB的SSD盤已經(jīng)問世,且預(yù)計未來還有更大的增長空間。
三是數(shù)據(jù)的壓縮去重,提高有效數(shù)據(jù)的存儲比例。為了提升數(shù)據(jù)存儲的可靠性,通常會對數(shù)據(jù)進(jìn)行多副本存儲,但多副本的方式會帶來存儲數(shù)據(jù)量的倍增。為了進(jìn)一步提升存儲效率,在一些讀寫性能要求較低的場景下,可以選擇只保存校驗數(shù)據(jù)。
四是運營能力的提升,海量數(shù)據(jù)的存儲需要更智能化的運維系統(tǒng),包括對數(shù)據(jù)的定期巡檢、數(shù)據(jù)的精細(xì)化分類、自動化的數(shù)據(jù)遷移、故障預(yù)測及定位、設(shè)備的休眠等機房節(jié)能措施。此外,存儲的架構(gòu)設(shè)計也是當(dāng)前的研究熱點,包括設(shè)備的分級、存儲介質(zhì)的選型、數(shù)據(jù)存儲格式、數(shù)據(jù)檢索、對外服務(wù)接口等。
此外,數(shù)據(jù)訪問延遲、整體讀取速率以及數(shù)據(jù)持久性等,也是海量冷數(shù)據(jù)存儲的關(guān)鍵技術(shù)。這些關(guān)鍵技術(shù)相互制約影響,尤其是在運營能力提升方面,涉及的因素眾多,對冷數(shù)據(jù)存儲的選型提出了新的挑戰(zhàn)。
海量冷數(shù)據(jù)存儲選型策略
國內(nèi)外大型互聯(lián)網(wǎng)企業(yè)已根據(jù)自身的業(yè)務(wù)特點,結(jié)合多年的運營經(jīng)驗和業(yè)務(wù)預(yù)測,進(jìn)行存儲架構(gòu)的整體設(shè)計,并基于其在冷存儲方面的經(jīng)驗和技術(shù)積累,對外提供了相關(guān)的冷數(shù)據(jù)存儲服務(wù)。以亞馬遜網(wǎng)絡(luò)服務(wù)推出的“AWS冰川”數(shù)據(jù)存儲服務(wù)為例,用戶可以采用它來存儲無限量的數(shù)據(jù),并建立存儲庫列表進(jìn)行管理,包括各種檔案的生命周期管理和訪問策略。此外,還有谷歌公司提供的“近線云存儲”服務(wù),以及微軟公司提供的“CoolBlob”存儲產(chǎn)品,都是具有一定代表性的海量冷數(shù)據(jù)存儲服務(wù),而它們都有一個共同的特點就是“無限量”。
對于數(shù)據(jù)量較小且在快速增長的企業(yè)而言,可以選擇使用一部分的云存儲服務(wù),同時也逐步探索建設(shè)自己的數(shù)據(jù)存儲中心。
海量冷數(shù)據(jù)存儲的關(guān)鍵還在于運營,在于存儲策略和業(yè)務(wù)需求的匹配程度,因此,還需積極參與各種社區(qū)、聯(lián)盟組織活動,借助產(chǎn)業(yè)發(fā)展的力量,更多地借鑒先行者的經(jīng)驗,了解行業(yè)的技術(shù)發(fā)展情況,及時更新制定適合自身需求的存儲架構(gòu)和技術(shù)路線。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。