首先,讓我們快速定義和區(qū)分這兩個(gè)術(shù)語(yǔ)。
數(shù)據(jù)湖:它是以原始格式存儲(chǔ)的數(shù)據(jù)存儲(chǔ)庫(kù)。它通常是所有企業(yè)數(shù)據(jù)的單一存儲(chǔ),在初始階段不會(huì)排除或轉(zhuǎn)換任何內(nèi)容。
數(shù)據(jù)倉(cāng)庫(kù):它是一種預(yù)定義的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),其中包含業(yè)務(wù)交易的聚合數(shù)據(jù)和其他支持信息,以根據(jù)各個(gè)主題領(lǐng)域提供業(yè)務(wù)的抽象視圖。
數(shù)據(jù)倉(cāng)庫(kù)的概念并不新鮮,已廣泛應(yīng)用于各行業(yè)的報(bào)告和分析。然而,隨著各種格式和文件類(lèi)型的數(shù)據(jù)源以及經(jīng)濟(jì)高效的存儲(chǔ)的出現(xiàn),數(shù)據(jù)湖的概念出現(xiàn)了,可以使用任何格式和大小的數(shù)據(jù)。數(shù)據(jù)湖的設(shè)計(jì)和構(gòu)建沒(méi)有針對(duì)任何特定要求。這使得它們非常有價(jià)值,因?yàn)椴煌牟块T(mén)和團(tuán)隊(duì)可以從數(shù)據(jù)湖中提取數(shù)據(jù)并將其用于各種操作。數(shù)據(jù)湖在存儲(chǔ)時(shí)不強(qiáng)制執(zhí)行任何模式定義,團(tuán)隊(duì)在出于特定目的進(jìn)行處理時(shí)實(shí)施其所需的模式。
隨著數(shù)據(jù)湖的出現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有失去其重要性。它們都有各自的特定目的。理解這兩個(gè)概念對(duì)于弄清楚這兩個(gè)系統(tǒng)的需求以及對(duì)它們的關(guān)注程度非常重要。
例如,如果一個(gè)組織只是處理結(jié)構(gòu)良好且表格格式的數(shù)據(jù),他們可能不需要數(shù)據(jù)湖。但是,如果組織正在處理來(lái)自各種來(lái)源的數(shù)據(jù)(可能是 xml、csv、json、圖像、電子表格等),那么數(shù)據(jù)湖就有意義。
對(duì)于大多數(shù)實(shí)際目的,我們需要表格格式的分析數(shù)據(jù)來(lái)創(chuàng)建報(bào)告、儀表板、預(yù)測(cè)等,從而使數(shù)據(jù)倉(cāng)庫(kù)變得合適。數(shù)據(jù)湖補(bǔ)充了數(shù)據(jù)倉(cāng)庫(kù),以使用任何格式的數(shù)據(jù),然后對(duì)其進(jìn)行處理以獲得分析解決方案。
由于數(shù)據(jù)湖旨在存儲(chǔ)所有數(shù)據(jù),無(wú)論何種格式,它都可能成為數(shù)據(jù)沼澤,導(dǎo)致數(shù)據(jù)源效率低下、無(wú)法訪(fǎng)問(wèn)或管理不善,為業(yè)務(wù)提供的價(jià)值非常小。
在使用數(shù)據(jù)湖時(shí),我們需要清楚我們的目標(biāo)數(shù)據(jù)模型。它幫助我們構(gòu)建正確的邏輯,通過(guò)以下方式從數(shù)據(jù)湖中提取正確且有價(jià)值的數(shù)據(jù)集:
結(jié)構(gòu):數(shù)據(jù)湖中的數(shù)據(jù)可以是任何格式,目標(biāo)數(shù)據(jù)模型有助于定義所需數(shù)據(jù)集的所需結(jié)構(gòu)。
數(shù)據(jù)量:數(shù)據(jù)湖巨大,因此為特定目的提取最少但足夠的數(shù)據(jù)以確保效率非常重要。
清理:目標(biāo)數(shù)據(jù)模型幫助我們用模式信息豐富數(shù)據(jù),以便我們可以在開(kāi)始時(shí)進(jìn)行清理,以避免后期錯(cuò)誤的傳播。
在使用數(shù)據(jù)湖時(shí),擁有適當(dāng)?shù)陌姹究刂葡到y(tǒng)非常重要。數(shù)據(jù)湖是動(dòng)態(tài)的,并且隨著時(shí)間的推移不斷獲取新數(shù)據(jù)。即使使用廉價(jià)的存儲(chǔ)空間,簡(jiǎn)單地維護(hù)文件的所有版本也可能會(huì)適得其反。
數(shù)據(jù)湖的另一個(gè)挑戰(zhàn)是數(shù)據(jù)治理。由于數(shù)據(jù)湖旨在供組織中的每個(gè)人為了特定目的提取和使用數(shù)據(jù),因此采用適當(dāng)?shù)脑L(fǎng)問(wèn)控制來(lái)確保數(shù)據(jù)安全性和合規(guī)性變得很棘手。
數(shù)據(jù)湖被構(gòu)建為任何原始格式數(shù)據(jù)的存儲(chǔ)庫(kù)。由于這種印象,許多組織并不關(guān)注數(shù)據(jù)湖中的元數(shù)據(jù)管理,這使得后期很難識(shí)別和找到所需的數(shù)據(jù)。
通過(guò)正確了解數(shù)據(jù)湖實(shí)施的業(yè)務(wù)需求、優(yōu)勢(shì)和挑戰(zhàn),組織可以通過(guò)共同使用數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)來(lái)挖掘可用數(shù)據(jù)的巨大潛力。
數(shù)據(jù)倉(cāng)庫(kù)在跨所有領(lǐng)域和部門(mén)的組織報(bào)告和分析中發(fā)揮了非常重要的作用。然而,由于非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生,數(shù)據(jù)湖幫助我們利用這些數(shù)據(jù)來(lái)促進(jìn)我們的組織發(fā)展。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。