在微軟的云中,我們也將看到MPP數(shù)據(jù)倉庫的身影。
據(jù)了解,微軟將在Azure云平臺(tái)上發(fā)布一款大規(guī)模并行處理(MPP)數(shù)據(jù)倉庫,并命名為Azure SQL DataWarehouse。MPP可以通過將數(shù)據(jù)分布到各個(gè)計(jì)算節(jié)點(diǎn)中,來解決海量數(shù)據(jù)處理難題。在此之前,MPP數(shù)據(jù)倉庫往往只能部署在企業(yè)內(nèi)部數(shù)據(jù)中心,而微軟發(fā)布Azure SQL Data Warehouse則意味著將MPP能力推向云端。
目前,Azure SQL Data Warehouse仍處于測試階段。參與了beta項(xiàng)目的數(shù)據(jù)庫咨詢顧問Denny Cherry向TechTarget記者表示,云端的大規(guī)模并行處理是一項(xiàng)新的技術(shù),這也將是微軟云數(shù)據(jù)倉庫最大的亮點(diǎn)。而全程參與該項(xiàng)目并第一時(shí)間試用了有限預(yù)覽版的Denny Cherry認(rèn)為,SQL Azure技術(shù)正在經(jīng)歷“成長的煩惱”。
“微軟希望能夠?yàn)橛脩籼峁┱嬲捎玫漠a(chǎn)品,他們每周都會(huì)發(fā)布新的更新包來努力將MPP技術(shù)推向云端。但目前為止,beta測試的產(chǎn)品還是有不少問題,比如需要重啟數(shù)據(jù)倉庫才能進(jìn)入新的版本。”DennyCherry說。
AzureSQL Data Warehouse是一個(gè)PB級(jí)的數(shù)據(jù)倉庫服務(wù),它支持分布式架構(gòu)并采用了全托管的模式,可以根據(jù)客戶的需求自由地?cái)U(kuò)展伸縮。它可以與發(fā)布的SQL Server 2016緊密集成。由于Azure SQL Data Warehouse在AnalyticsPlatform System基礎(chǔ)上采用了并行處理架構(gòu),因此它可以與其他微軟生態(tài)系統(tǒng)中的產(chǎn)品與服務(wù)兼容。Azure SQL DataWarehouse目前仍在beta測試階段,微軟并沒有給出具體的發(fā)布日程表。但微軟已經(jīng)在6月底發(fā)布了一個(gè)Azure SQL Data Warehouse的有限公共預(yù)覽版本。
目前這個(gè)預(yù)覽版只對(duì)一小部分客戶開放,而隨著越來越多的新客戶注冊(cè)Azure來申請(qǐng)?jiān)囉肁zure SQL Data Warehouse,微軟也將發(fā)放更多預(yù)覽賬號(hào)。作為微軟Early Access Program的成員之一,Denny Cherry已經(jīng)使用了Azure SQL Data Warehouse兩個(gè)月時(shí)間。他還幫助兩個(gè)零售業(yè)客戶進(jìn)行了概念驗(yàn)證(poc)測試。
由于零售企業(yè)對(duì)大規(guī)模數(shù)據(jù)倉庫以及在此基礎(chǔ)上的BI和數(shù)據(jù)分析應(yīng)用非常熟悉,且需求巨大,Denny Cherry十分看好Azure SQL DataWarehouse在零售業(yè)的應(yīng)用前景。他表示,分析客戶的長期購買行為對(duì)零售業(yè)的成功至關(guān)重要,由于BI和大數(shù)據(jù)分析在零售業(yè)的應(yīng)用從很早以前就已經(jīng)開始了,所以這個(gè)領(lǐng)域的公司都希望能夠以更低的成本和更快的速度來分析數(shù)據(jù)。
對(duì)于早期的測試用戶,他們也在第一時(shí)間接觸到了除MPP之外的一些新功能。微軟宣稱,Azure SQL Data Warehouse是業(yè)界首個(gè)企業(yè)級(jí)的云數(shù)據(jù)倉庫服務(wù),它能夠進(jìn)行秒級(jí)的擴(kuò)展,具備極佳的彈性。在Azure SQL DataWarehouse中,數(shù)據(jù)和計(jì)算的擴(kuò)展是獨(dú)立的,系統(tǒng)使用Data Warehouse Units (DWU)作為一個(gè)基礎(chǔ)單元來衡量使用中的節(jié)點(diǎn)規(guī)模。因此,如需更快的查詢速度,你只需要購買更多DWU就可以了。反之,如果計(jì)算資源過剩,你還可以減少DWU的數(shù)量。Azure SQL DataWarehouse按照DWU的數(shù)量收費(fèi),對(duì)企業(yè)來說這是非常大的成本節(jié)約。
此外,當(dāng)你不需要運(yùn)行查詢或使用計(jì)算資源的時(shí)候,你可以在任意時(shí)間里暫停節(jié)點(diǎn)并移除所有分配給Azure SQL DataWarehouse 的DWU,但數(shù)據(jù)存儲(chǔ)還可以繼續(xù)提供服務(wù)。由于暫停的時(shí)候DWU不再分配給數(shù)據(jù)倉庫,因此就不需要再為它們付費(fèi)。也正是由于這個(gè)擴(kuò)展性,Danny Cherry認(rèn)為Azure SQL Data Warehouse最棒的一點(diǎn)就是它適合各種規(guī)模的企業(yè)。你需要做的,只是在Azure SQL DataWarehouse的門戶中調(diào)整DWU的數(shù)量。
列存儲(chǔ)索引同樣是活的更快查詢速度的關(guān)鍵。數(shù)據(jù)倉庫查詢特別適合列存儲(chǔ)索引,因?yàn)樗鼈兺枰獟呙枵麖埍?,而列存?chǔ)索引會(huì)把這個(gè)過程做到最快。另外,列存儲(chǔ)索引相比于傳統(tǒng)索引能夠提供5倍以上的數(shù)據(jù)壓縮效果和10倍以上的性能提升。
由于Azure SQL Data Warehouse是基于SQL Server關(guān)系型數(shù)據(jù)庫引擎的,因此它支持存儲(chǔ)過程、用戶定義函數(shù)、表分區(qū)、索引和排序規(guī)則。更為關(guān)鍵的是,你還可以使用Transact-SQL(T-SQL)對(duì)數(shù)據(jù)庫進(jìn)行操作,這對(duì)許多用戶來說是最大的福音。
此外,Azure SQL Data Warehouse包含了PolyBase功能,這是一個(gè)SQL on Hadoop技術(shù),它能夠查詢并導(dǎo)入存儲(chǔ)在Azure BLOB和HDFS中的非關(guān)系型數(shù)據(jù)。此外,它使用標(biāo)準(zhǔn)化的SQL Server T-SQL命令,而不是Hadoop語言。由于PolyBase使用外部表來訪問非關(guān)系型數(shù)據(jù),所以表定義會(huì)存儲(chǔ)在Azure SQL DataWarehouse之中,而真正的數(shù)據(jù)還是放在Azure BLOB存儲(chǔ)和HDFS中。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。