大數(shù)據(jù)剛出現(xiàn)的時候,基本上只會用在高端科技類或者硅谷網(wǎng)絡(luò)分析公司中;到了今天,如銀行、電信、保險公司等更為傳統(tǒng)的行業(yè)也逐漸搭上了這輛列車。然而,在Teradata(數(shù)據(jù)倉庫公司)技術(shù)總監(jiān)Stephen Brobst(寶立明)看來,這還僅僅是個開始。
2012年,許多IT業(yè)內(nèi)人士都發(fā)起了關(guān)于大數(shù)據(jù)的討論,寶立明就是其中之一。在今年TechTarget對他的采訪中,他兩次提到了他眼中的大數(shù)據(jù)熱潮。在以下的精選采訪中,你會讀到寶立明對云端數(shù)據(jù)倉庫的憧憬、對內(nèi)存技術(shù)流行的看法以及對移動消費智能的期待。
問:對于大數(shù)據(jù)現(xiàn)象,你有什么看法?
寶立明:大數(shù)據(jù)熱潮主要關(guān)注的是大數(shù)據(jù)的容量,這卻恰恰是大數(shù)據(jù)中最不重要的一方面。拿Geoffrey Moore的crossing the chasm采用曲線圖(見下圖)來說,我們現(xiàn)在就處在裂口(chasm)的左邊,即發(fā)明者與早期采用者階段,所有的企業(yè)都是高端科技與網(wǎng)絡(luò)公司。不過,今年有了一點改變,更多的主流公司開始采用大數(shù)據(jù)分析;這些企業(yè)都不是技術(shù)公司,或者說得準確一點,與網(wǎng)絡(luò)無關(guān),比如銀行、電信等等。
問:但是像Hadoop和MapReduce這樣的大數(shù)據(jù)技術(shù),它們不仍然是硅谷網(wǎng)絡(luò)公司一些核心軟件工程師的專長領(lǐng)域嗎?
寶立明:在這個的過程中,Hadoop非常重要。但是,大數(shù)據(jù)不等于Hadoop;Hadoop目前只適合高端科技和非常專業(yè)的公司。其實,Moore的理論對技術(shù)專業(yè)人士和實用主義者(只為應用技術(shù)而對技術(shù)本身不感興趣的人)同樣適用。對于Teradata來講,我們的Aster Data在大數(shù)據(jù)普及過程中起到了橋梁的作用。去年,使用Aster Data的大客戶都是網(wǎng)絡(luò)公司,像LinkedIn、BarnesandNoble.com等。今年的業(yè)務明顯偏向主流企業(yè)——電信和銀行;它們大部分都在美國,這點沒錯,但相信用不了多久就能夠推廣到其他地區(qū)。
問:現(xiàn)在很多人都在討論開源與傳統(tǒng)商用關(guān)系數(shù)據(jù)庫的利弊。你是怎么看這兩者的關(guān)系的?
寶立明:我們現(xiàn)在和Hortonworks的合作關(guān)系就是一個典型的例子。他們有很多Hadoop原創(chuàng)開發(fā)者,運用的都是開源技術(shù);有趣的是,開發(fā)出來的元數(shù)據(jù)架構(gòu)不僅可對原始數(shù)據(jù)進行處理,還能夠使數(shù)據(jù)獲取變得更加高效。
問:你對內(nèi)存分析的看法是什么?
寶立明:太火了??梢赃@么說,內(nèi)存價格每過18個月就會下降30%,但即便如此,存儲所有數(shù)據(jù)還是花費不菲。當然還有一點,數(shù)據(jù)容量每18個月就會增長40%,所以內(nèi)存依舊無法滿足數(shù)據(jù)量需求。SAP正在大肆宣揚HANA可以解決所有問題,這完全是因為受到了甲骨文的影響。知道困獸之斗吧,是Oracle的產(chǎn)業(yè)鏈引發(fā)了SAP的不理智行為。SAP每年花在甲骨文身上的錢實在太多了,他們想要剝離Oracle數(shù)據(jù)庫,因此而收購了Sybase,甚至在收購之前Sybase還沒有通過SAP應用的認證,他們要將Sybase作為SAP唯一的數(shù)據(jù)庫平臺。但要知道Sybase的規(guī)模還不足以支撐,對于理性的用戶來說肯定不會想簡單地聽從廠商的擺布。相比較而言,IBM的DB2要更好一些。
問:但是企業(yè)數(shù)據(jù)倉庫現(xiàn)在是不是有點過時了?Teradata的一些競爭對手肯定會這么認為。
寶立明:這是一個仁者見仁的問題?,F(xiàn)在已經(jīng)不可能把所有數(shù)據(jù)放到同一個地方了。想想看,如果你把所有的電子郵件和.wav文件全都放到一個數(shù)據(jù)倉庫里行不行?很可能不行。但是,企業(yè)內(nèi)容管理與數(shù)據(jù)倉庫還有區(qū)別。對于關(guān)系數(shù)據(jù)來說,集成化數(shù)據(jù)倉庫與一系列小型數(shù)據(jù)集市比起來更省錢,業(yè)務價值也更高。Sybase的模型就是小型數(shù)據(jù)集市;你最后只能不停地拷貝數(shù)據(jù),通過各種方法將它們聚集起來,成本也自然上漲。
問:你認為云計算對數(shù)據(jù)倉庫有什么影響嗎?
寶立明:公有云架構(gòu)對數(shù)據(jù)倉庫沒有影響,因為企業(yè)的CIO不會無緣無故地把財務數(shù)據(jù)或客戶數(shù)據(jù)放到云上。那樣做很危險。但私有云架構(gòu)確實有影響。第一,通過私有云,你可以鞏固數(shù)據(jù)集市,減少利用率不足的問題。經(jīng)過幾次以后,架構(gòu)成本也就省下來了。第二,你可以通過靈敏的方式將數(shù)據(jù)集成,實現(xiàn)業(yè)務價值。在集中化解決方案中,業(yè)務方面的變化總是來得很慢。不過,你可以在私有云中利用data lab的概念,對另一數(shù)據(jù)源(內(nèi)外部皆可)進行集成。這個方法的關(guān)鍵在于,data lab與數(shù)據(jù)倉庫為同一環(huán)境,所以你不需要復制集中化數(shù)據(jù),也沒有安全問題,同時授權(quán)給了用戶一種非真實的網(wǎng)格計算方法,與云的概念類似。
問:在企業(yè)IT中,云計算與移動化常被同時提到,認為會改變游戲規(guī)則。你是怎么看移動技術(shù)對數(shù)據(jù)倉庫與BI的影響?
寶立明:我們的主要概念是消費者智能(consumer intelligence)。我們的團隊主要關(guān)注于公司員工的決策制定。消費者智能就是為那些是我們客戶的消費群體提供智能服務。這樣一來,移動設(shè)備必不可少。我們在英國的案例是萊斯銀行,美國的是富國銀行,提倡你就是自己家庭的CEO。還有一個案例是在公共事業(yè)領(lǐng)域。南加州愛迪生公司(美國第二大電力公司)實施了智能電表(smart metering)以后,在他們的網(wǎng)站Sce.com上,消費者可以分析自己能源消費的類型。移動消費者智能可謂大勢所趨。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。