現(xiàn)在,云計算和大數(shù)據(jù)無疑都是很火的概念,業(yè)內對他們的探討也愈演愈烈,那么云計算與大數(shù)據(jù)的不期而遇又產生了怎樣的聯(lián)系呢?有人說云計算和大數(shù)據(jù)是雙胞胎,兩個是不同的個體,互相依賴又相輔相成,也有人說大數(shù)據(jù)是來攪局的。
云計算 VS 大數(shù)據(jù)
有人說云計算和大數(shù)據(jù)是雙胞胎,兩個是不同的個體,互相依賴又相輔相成,也有人說大數(shù)據(jù)是來攪局的。
對此,IBM全球高級副總裁、系統(tǒng)與科技部(STG)總經理Rod Adkins認為,當前全球IT領域有了令人振奮的發(fā)展趨勢和挑戰(zhàn),現(xiàn)在每天有大量數(shù)據(jù)和信息生成,這為大數(shù)據(jù)分析提供了機會;數(shù)據(jù)中心的挑戰(zhàn)也為IT提供了新機會,比如云計算,能降低數(shù)據(jù)中心成本;IBM希望通過智慧的運算,實現(xiàn)智慧的地球的愿景。
英特爾亞太研發(fā)有限公司總經理、軟件與服務事業(yè)部中國區(qū)總經理何京翔認為,大數(shù)據(jù)本身其實是信息革命的一個新引領。在未來幾年隨著物聯(lián)網的發(fā)展,可能會有2100億個RFID或者集群,在我們的環(huán)境之中,如果未來的移動互聯(lián)、物聯(lián)網如果變成現(xiàn)實,我們的生活會被傳感器、會被數(shù)據(jù)采集裝置所擁抱,這時候數(shù)據(jù)量將更大。這些數(shù)據(jù)量僅僅是數(shù)據(jù),并不能解決問題,它要從數(shù)據(jù)變成信息、變成智能、變成商業(yè)價值,這才能夠體現(xiàn)出真正的大數(shù)據(jù)的價值。
VMware全球高級副總裁范承工認為,在過去三年當中,看到大數(shù)據(jù)的發(fā)展從無到有,市場上大家說大數(shù)據(jù)的趨勢,三年前可能還沒有人說這個詞,現(xiàn)在已經如火如荼。然而,現(xiàn)在除了數(shù)據(jù)本身發(fā)生了改變,云計算也使數(shù)據(jù)變得更加分散,在這樣的趨勢下,傳統(tǒng)數(shù)據(jù)庫對于海量數(shù)據(jù)的需求、快的需求、開發(fā)者數(shù)據(jù)多樣化的需求難以滿足,使各種各樣的解決方案大行其道。
EMC的大數(shù)據(jù)和存儲專家、EMC資深產品經理李君鵬認為,大數(shù)據(jù)本身就是一個問題集,云技術是目前解決大數(shù)據(jù)問題集最重要有效的手段。云計算提供了基礎架構平臺,大數(shù)據(jù)應用在這個平臺上運行。目前公認處理大數(shù)據(jù)集最有效手段的分布式處理,也是云計算思想的一種具體體現(xiàn)。
對于大數(shù)據(jù)給云計算帶來的影響,Teradata技術總監(jiān)Stephen Brobst表示,公有云架構對數(shù)據(jù)倉庫沒有影響,因為企業(yè)的CIO不會無緣無故把財務數(shù)據(jù)或者客戶數(shù)據(jù)放到云上,那樣很危險。然而,是私有云架構確實有影響:第一,通過私有云,可以鞏固數(shù)據(jù)集市,減少利用率不足的問題;第二,可以通過靈敏的方式將數(shù)據(jù)集成,實現(xiàn)業(yè)務價值。
大數(shù)據(jù)和云計算應用各不同
其實云計算與大數(shù)據(jù)的不同之處在于應用的不同,主要在兩個方面:
第一,在概念上兩者有所不同,云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務。然而大數(shù)據(jù)必須有云作為基礎架構,才能得以順暢運營。
第二,大數(shù)據(jù)和云計算的目標受眾不同,云計算是賣給CIO的技術和產品,是一個進階的IT解決方案。而大數(shù)據(jù)是賣給CEO、賣給業(yè)務層的產品,大數(shù)據(jù)的決策者是業(yè)務層。由于他們能直接感受到來自市場競爭的壓力,必須在業(yè)務上以更有競爭力的方式戰(zhàn)勝對手。
大數(shù)據(jù)不僅僅是Hadoop
Hadoop是Apache基金會發(fā)起和研發(fā)的,是目前業(yè)界公認的開放平臺之一。授權公司可以發(fā)布自己相應的Hadoop版本。以Hadoop為代表的分布式系統(tǒng),是大數(shù)據(jù)系統(tǒng)必要組成部分。必要性體現(xiàn)在現(xiàn)在的大數(shù)據(jù)中很多數(shù)據(jù)是機器產生的數(shù)據(jù),或者是物聯(lián)網各種各樣的探測器、電腦產生的日志,這些是人為產生的,而且數(shù)量巨大,不適合把它直接放到數(shù)據(jù)庫中去,而Hadoop就提供了全新的方式,可以輕松進行平面擴展,把這些數(shù)據(jù)放在庫里進行任意的數(shù)據(jù)分析。Hadoop成功的建立了這個環(huán)境,使得圍繞Hadoop的軟件能夠提供各種各樣的功能,完成智能分析工作。
然而,大數(shù)據(jù)不僅僅是Hadoop,在對數(shù)據(jù)進行分析時,用戶可以把數(shù)據(jù)放池子里,Hadoop則把這些數(shù)據(jù)分成幾百個、幾千個節(jié)點,這是在特定的某些應用場景必須進行的部分。但是更多的應用場景是需要實時的反應,互動的反應,這時候就需要其他技術,包括內存類檢索技術,甚至在數(shù)據(jù)產生時要進行實時反應的技術。這些技術都結合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。
各大廠商應對大數(shù)據(jù)
不論大數(shù)據(jù)時代是否真的來臨,作為企業(yè)級服務廠商都應該走在受眾的前面,應對大數(shù)據(jù)。
1.IBM:4V理論+大數(shù)據(jù)分析平臺
IBM基于大數(shù)據(jù)提出了規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)和真實性(Veracity)的4V理論,幫助企業(yè)直觀認知和準確把握大數(shù)據(jù)特質。
IBM早在2007年11月就推出了藍云計算平臺,藍云基于IBMAlmaden研究中心(AlmadenResearchCenter)的云基礎架構,包括Xen和PowerVM虛擬化、Linux操作系統(tǒng)映像以及Hadoop文件系統(tǒng)與并行構建。
此外,IBM還有大數(shù)據(jù)分析平臺——InfoSphere。InfoSphere是IBM進軍大數(shù)據(jù)領域的強有力武器,其包括 BigInsights和Streams,二者互補,Biglnsights基于Hadoop,對大規(guī)模的靜態(tài)數(shù)據(jù)進行分析,它提供多節(jié)點的分布式計算,可以隨時增加節(jié)點,提升數(shù)據(jù)處理能力;而Streams采用內存計算方式分析實時數(shù)據(jù)。InfoSphere大數(shù)據(jù)分析平臺還集成了數(shù)據(jù)倉庫、數(shù)據(jù)庫、數(shù)據(jù)集成、業(yè)務流程管理等組件。
2.英特爾:硬件+軟件 火力很猛
硬件上,英特爾從CPU、存儲、內存一切的技術考慮怎么樣使得新一代的系統(tǒng)架構,以及數(shù)據(jù)中心的解決方案能夠更適合大數(shù)據(jù)的要求。
軟件上,英特爾提供優(yōu)化的中間件。以Hadoop為例,英特爾在Hadoop系統(tǒng),在Hbase、HDFS上都做了增強和優(yōu)化,使它們在英特爾的平臺上,在英特爾的硬件上性能得到顯著的提高,并推出了Intel Hadoop Manager2.0。
據(jù)介紹,Intel Hadoop Manager2.0 優(yōu)化了Hadoop的處理能力,把擬數(shù)據(jù)采集到數(shù)據(jù)處理縮短到近于實時處理,且在英特爾平臺上性能會成倍增長。
3.VMware:虛擬化架構+云平臺
VMware公司大中華區(qū)總裁宋家瑜認為,云的平臺才是唯一能解決爆炸性大數(shù)據(jù)使用的需求,把關鍵應用移到云平臺已經是一個必然趨勢。因此,VMware把嘗試著把大數(shù)據(jù)應用到虛擬環(huán)境的云端。
VMware推出的開源項目Serenget,支持企業(yè)在云端和虛擬環(huán)境中,在vSphere上部署和管理Hadoop。據(jù)介紹,在這樣的環(huán)境下,Hadoop部署時間可以從很多天縮短到10分鐘。
此外,VMware在統(tǒng)一的vSphere虛擬化架構之上,提供GemFire實時處理、GreenPlum交互處理及Hadoop批處理三種模式,滿足用戶的海量、快速及靈活的大數(shù)據(jù)處理需求,并為開發(fā)者、數(shù)據(jù)分析師、數(shù)據(jù)科學家和商務用戶提供數(shù)據(jù)分析及可視化的數(shù)據(jù)展示。VMware還公布了一個大數(shù)據(jù)分析平臺 UAP(Universal Analytics Platform),其中包括Greenplum database、Hadoop和Chorus分析軟件,幫助客戶同時分析處理結構化和非結構化的數(shù)據(jù)。
4.EMC:EMC HADOOP
EMC發(fā)布了EMC HADOOP版本,它主要進行實時、非結構化的數(shù)據(jù)處理。EMC的產品系列在HADOOP包括三個方面:Greenplum HD社區(qū)版;Greenplum企業(yè)版;Greenplum HD Data Computing Appliance。
據(jù)介紹,在Greenplum HD中有一些核心的技術創(chuàng)新:可插拔I/O,可以用Isilon OneFS奪存儲系統(tǒng),也可以用Atmos等,提高效率和性能;實時處理可以實時數(shù)據(jù)交互和分析處理;在容錯方面,消除名稱節(jié)點的單點鼓掌,作業(yè)跟蹤其及其他關鍵組件方面有很多優(yōu)化。它最大的亮點是Greenplum Database與Apache HADOOP強強聯(lián)合,這樣的一個一體機實現(xiàn)了結構化、非結構化數(shù)據(jù)之間無縫的集成。
此外,甲骨文也推出了大數(shù)據(jù)機,為企業(yè)提供一種處理海量非結構化數(shù)據(jù)的方法,集成了硬件、存儲和軟件,包括Apache Hadoop軟件的開源代碼分發(fā)、新的甲骨文NoSQL數(shù)據(jù)庫和用于統(tǒng)計分析的R語言開源代碼分發(fā)。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網頁分享至朋友圈。