如果您與數(shù)據(jù)領域有過哪怕一丁點兒關系,我想您已經(jīng)感受過混亂的數(shù)據(jù)生態(tài)系統(tǒng)的細微差別。毫無疑問,數(shù)據(jù)世界已經(jīng)經(jīng)歷了它自己的發(fā)展過程,事實上,它已經(jīng)取得了長足的進步。
如今,由于數(shù)據(jù)生成量巨大,即使是小公司也幾乎無法想象手動寫入、讀取和管理數(shù)據(jù)。如果成功識別出其中的模式,那么每次點擊、每次瀏覽和每個事件都會產(chǎn)生重大且可能有益的業(yè)務成果。
想象一下,這些事件的數(shù)量增加數(shù)倍,達到數(shù)百萬甚至數(shù)十億的規(guī)模。如何處理如此大量的數(shù)據(jù),并確保數(shù)據(jù)不僅占用昂貴的空間,還體現(xiàn)出其存在的價值?
數(shù)據(jù)堆棧的演變
數(shù)據(jù)堆棧一直處于不斷演變的狀態(tài),以適應數(shù)據(jù)增長的速度。實際上,增長的不是數(shù)據(jù),而是數(shù)據(jù)始終存在于宇宙中。增長來自于我們的技術能力,隨著時間的推移,這些技術能力已經(jīng)發(fā)展到可以捕獲各種數(shù)據(jù)流。例如,如今的物聯(lián)網(wǎng)設備甚至可以檢測呼吸和運動來調(diào)節(jié)通風能力。
然而,雖然捕捉和記錄數(shù)據(jù)的感官能力已顯著增強,但處理、管理和理解數(shù)據(jù)的能力卻沒有以同樣的速度進步。所以,我們有眼睛、耳朵、皮膚、舌頭和鼻子,但我們?nèi)匀蝗狈σ粋€能夠理解和操作來自這些渠道的輸入的完善的大腦。
如果流行的數(shù)據(jù)堆棧是人類……
一 數(shù)據(jù)的基奠:傳統(tǒng)數(shù)據(jù)堆棧
數(shù)據(jù)一直存在,未來也不會缺少數(shù)據(jù)生成。作為一個行業(yè),我們明白,這些無處不在的數(shù)據(jù)可以而且應該被利用來優(yōu)化資源和投資回報。
這里要注意的關鍵點是,利用數(shù)據(jù)的主要目的過去是、將來也將是提升企業(yè)競爭力和投資回報。
為了實現(xiàn)數(shù)據(jù)的可操作,第一個具體的基礎是傳統(tǒng)數(shù)據(jù)堆棧。那時它還不是“傳統(tǒng)的”;它是數(shù)據(jù)堆棧。這在某種程度上改變了觀點。十年或二十年后,當今流行的堆棧很容易落入傳統(tǒng)或遺留的范疇。
傳統(tǒng)數(shù)據(jù)堆棧是什么?它為什么會過時?
簡單來說,傳統(tǒng)數(shù)據(jù)堆是本地數(shù)據(jù)系統(tǒng)的別稱,組織管理自己的基礎設施和硬件,這不僅需要大量人工,而且在脆弱性(抗變化性)、高維護成本、缺乏可擴展性(每次堆棧需要擴展時都要提供新的基礎設施或硬件)、自下而上的維護造成的僵化、從頭開始開發(fā)以及極其復雜的根本原因分析或缺乏根本原因分析方面也是一種負擔。
由于傳統(tǒng)數(shù)據(jù)堆棧中的組件(無論是倉庫還是大數(shù)據(jù)集群)彼此緊密耦合,因此將邏輯需求與原始物理數(shù)據(jù)分離極其困難,從而減慢業(yè)務、恢復和 RCA 能力。
人工密集和緊密耦合也是傳統(tǒng)數(shù)據(jù)堆棧及其支持的數(shù)據(jù)管道高度脆弱的原因。轉(zhuǎn)換作業(yè)不僅因為技術陳舊而緩慢,還因為管道不穩(wěn)定,在遇到動態(tài)數(shù)據(jù)或事件時會中斷,而眾所周知,數(shù)據(jù)是不斷變化的。
當然,我們來談談核心問題。數(shù)據(jù)堆棧的整個目標是促進業(yè)務。維護和擴展傳統(tǒng)數(shù)據(jù)堆棧所產(chǎn)生的成本對數(shù)據(jù)團隊的投資回報率造成了重大打擊。即使我們假設堆棧產(chǎn)生的價值是有用的,并在正確的時間到達業(yè)務團隊,過渡的保障費用也會吞噬一半以上的價值。
因此,就質(zhì)量、數(shù)量,尤其是時間敏感性和投資回報率而言,傳統(tǒng)數(shù)據(jù)堆棧的表現(xiàn)一直遠非一流,而這些對于企業(yè)而言至關重要。但有總比沒有好,它讓我們看到了更細微的問題,這些問題比存儲在大量物理文件和文件夾中、沉睡在地下室深處的數(shù)據(jù)問題高出一個層次。
二 數(shù)據(jù)的進階:現(xiàn)代數(shù)據(jù)堆棧
事實就是如此。我們無法否認現(xiàn)代數(shù)據(jù)堆棧相對于傳統(tǒng)數(shù)據(jù)堆棧狀態(tài)帶來的令人印象深刻的演變。最大的成就可能是革命性的向云的轉(zhuǎn)變,這不僅使數(shù)據(jù)更易于訪問,而且更易于恢復。 現(xiàn)代數(shù)據(jù)堆棧是多個點解決方案的集合,這些解決方案由用戶拼接在一起,以實現(xiàn)從物理數(shù)據(jù)到業(yè)務洞察的主動流動。我們都看到了圍繞現(xiàn)代數(shù)據(jù)堆棧的炒作,以及它如何讓數(shù)據(jù)用戶沉浸在潛力和可能性中。
但實際情況是,現(xiàn)代數(shù)據(jù)堆棧只是一組不連貫的解決方案,它針對的是管道不堪重負的傳統(tǒng)數(shù)據(jù)堆棧問題的各個部分,并將所有數(shù)據(jù)轉(zhuǎn)儲到中央湖,最終造成了跨行業(yè)難以管理的數(shù)據(jù)沼澤。
從總體上看,數(shù)據(jù)沼澤并不比地下室里的物理文件好。數(shù)據(jù)沼澤中充斥著豐富、有用但處于休眠狀態(tài)的數(shù)據(jù),由于這些數(shù)據(jù)的語義孤立且不可信,企業(yè)無法將其投入運營。
語義不可信源于現(xiàn)代數(shù)據(jù)堆棧的混亂,其中有太多的工具、集成和不穩(wěn)定的管道,以至于真實而清晰的語義在網(wǎng)絡中丟失了。需要另一個級別的語義來理解低級語義,這只會使問題進一步復雜化。
隨著數(shù)據(jù)生態(tài)系統(tǒng)逐漸發(fā)展成為復雜且孤立的系統(tǒng),每隔一天就會有源源不斷的點解決方案加入到這個瘋狂的組合中,非專家級的最終用戶陷入了混亂。毫不奇怪,它被稱為 MAD(機器學習、人工智能和數(shù)據(jù))格局。下面的這張信息圖立即指出了現(xiàn)代數(shù)據(jù)堆棧的問題;無需多言(一張圖片勝過千言萬語!)。
現(xiàn)代數(shù)據(jù)堆棧生態(tài)表現(xiàn)為選擇困境、集成開銷、維護開銷、專業(yè)知識開銷和資源開銷。無數(shù)點解決方案組成的混亂生態(tài)系統(tǒng)最終會造成數(shù)據(jù)孤島,而不是解決它們。
三 當前解決方案:數(shù)據(jù)優(yōu)先堆棧
與現(xiàn)代數(shù)據(jù)堆棧相反
現(xiàn)代數(shù)據(jù)堆棧的出現(xiàn)幫助我們克服了本地部署和人工密集型挑戰(zhàn)帶來的阻力。然而,現(xiàn)代數(shù)據(jù)堆棧也是一把雙刃劍,它帶來了新的問題,甚至是我們在數(shù)據(jù)生態(tài)體系中樹一片一片長出葉子時沒有預料到的問題。
數(shù)據(jù)優(yōu)先堆棧是一項里程碑式的創(chuàng)新,其靈感來自過去十年來 Uber、Google 和 Airbnb 等幾家數(shù)據(jù)優(yōu)先組織開展的數(shù)據(jù)優(yōu)先運動。但數(shù)據(jù)優(yōu)先意味著什么呢?
顧名思義,數(shù)據(jù)優(yōu)先就是將數(shù)據(jù)和數(shù)據(jù)驅(qū)動的決策放在首位,同時通過抽象或智能設計架構降低其他一切的優(yōu)先級。如果我們從相反的方向來看——“數(shù)據(jù)最后”,就會更容易理解這一點。
當前的做法(包括 現(xiàn)代數(shù)據(jù)堆棧)是“數(shù)據(jù)最后”的實現(xiàn),需要花費大量的精力、資源和時間來管理、處理和維護數(shù)據(jù)基礎設施。數(shù)據(jù)和數(shù)據(jù)應用程序?qū)嶋H上在這種轉(zhuǎn)變中消失了,并成為以數(shù)據(jù)為中心的團隊的最后關注點,為數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者創(chuàng)造了極具挑戰(zhàn)性的業(yè)務雷區(qū)。
投資回報時間 (TTROI)
在過去的十年中,由于技術水平低下、創(chuàng)新有限,尤其是我們對數(shù)據(jù)世界的洞察或理解非常有限,組織花了數(shù)年時間才構建數(shù)據(jù)優(yōu)先堆棧。
如今,企業(yè)能否很好地掌握數(shù)據(jù)是決定競爭優(yōu)勢的關鍵。許多數(shù)據(jù)優(yōu)先型組織早就明白這一點,并致力于實現(xiàn)數(shù)據(jù)優(yōu)先型的重大項目。然而,復制它們并不是解決方案,因為它們的數(shù)據(jù)堆棧是針對其特定的內(nèi)部架構而設計的。
只有根據(jù)企業(yè)的內(nèi)部基礎設施構建的數(shù)據(jù)優(yōu)先堆棧才是真正數(shù)據(jù)優(yōu)先的。
與普遍的觀念相反,建立數(shù)據(jù)優(yōu)先堆棧需要數(shù)年時間,但隨著近幾年新存儲和計算工具以及創(chuàng)新技術的出現(xiàn),這種想法已不再適用。在幾周內(nèi)(而不是幾個月和幾年內(nèi))建立數(shù)據(jù)優(yōu)先堆棧并從中獲取價值并非不可能。
無中斷
輕松過渡到數(shù)據(jù)優(yōu)先堆棧是可行的,因為數(shù)據(jù)優(yōu)先堆棧不會造成破壞,因為它的目的不是推翻和替換現(xiàn)有工具或之前的大量數(shù)據(jù)投資。它通過在復雜子系統(tǒng)之上提供統(tǒng)一的控制平面來促進現(xiàn)有的設計架構。隨著時間的推移,這些子系統(tǒng)可以根據(jù)用戶的過渡難易程度或偏好被數(shù)據(jù)優(yōu)先堆棧原生構建塊取代。
四 數(shù)據(jù)優(yōu)先堆棧的定義因素
1.統(tǒng)一架構的內(nèi)部質(zhì)量高
我們習慣于認為“高質(zhì)量”的東西價格更高。但當涉及到架構和內(nèi)部質(zhì)量的其他方面時,這種關系就顛倒了。高內(nèi)部質(zhì)量可以更快地交付新功能,因為干擾更少。”
統(tǒng)一方法會毫不留情地削減插入數(shù)據(jù)生態(tài)系統(tǒng)的移動部件。更多工具會帶來更多垃圾(債務),并使問題更加復雜。統(tǒng)一方法會組合功能以實現(xiàn)單一管理平面。
創(chuàng)建真正統(tǒng)一的架構的關鍵是清理雜亂,并采用一組簡約的構建塊。這些塊可以按任何必要的順序組合在一起,以構建更大、更精細的解決方案,這些解決方案具有松散耦合和緊密集成的組件。
統(tǒng)一架構只需進行少量調(diào)整即可為非常具體的數(shù)據(jù)應用程序提供支持。最終目標是擁有精心策劃的自助服務層,讓用戶擺脫復雜、孤立和隔離子系統(tǒng)的復雜性,以便他們可以專注于手頭的問題——數(shù)據(jù)。
2.聲明式可管理
真正的數(shù)據(jù)優(yōu)先堆棧會將重點放在數(shù)據(jù)和數(shù)據(jù)應用程序上,而不是將工作分散到底層操作(例如提取、集成、編排、低級存儲細節(jié)等)。此外,數(shù)據(jù)工程團隊花費更多時間來修復管道,而不是創(chuàng)建新管道以推動業(yè)務機會。聲明式管理系統(tǒng)可大幅消除脆弱性范圍,并按需提供 RCA 鏡頭。
聲明式管理數(shù)據(jù)質(zhì)量、治理、安全性和語義曾被認為是不可能的,但得益于最新的革命性數(shù)據(jù)契約理念,數(shù)據(jù)領域的聲明式功能可以輕松實現(xiàn)。最棒的是,契約不會破壞任何現(xiàn)有的基礎設施。
3.快速回顧合同
數(shù)據(jù)合同是對數(shù)據(jù)的期望。這些期望可以是業(yè)務含義、數(shù)據(jù)質(zhì)量或數(shù)據(jù)安全。它是數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者之間的協(xié)議,用于記錄并以聲明方式確保滿足數(shù)據(jù)期望。
請關注此處以深入了解合同。
具有統(tǒng)一架構思想并輔以契約式握手的數(shù)據(jù)開發(fā)平臺是聲明式數(shù)據(jù)生態(tài)系統(tǒng)的目標,因此也是數(shù)據(jù)優(yōu)先堆棧的真正推動者。
4.最先進的開發(fā)者體驗
數(shù)據(jù)優(yōu)先堆棧的主要最終用戶無疑是數(shù)據(jù)開發(fā)人員。數(shù)據(jù)開發(fā)人員在處理數(shù)據(jù)和構建數(shù)據(jù)應用程序時的經(jīng)驗對于資源優(yōu)化和業(yè)務時間表至關重要。數(shù)據(jù)優(yōu)先堆棧提升了開發(fā)人員的體驗并抽象了低級資源管理任務,同時又不損害其靈活性,使數(shù)據(jù)開發(fā)人員可以完全自由地以聲明方式管理不太具戰(zhàn)略性的操作。
合同在策劃最佳開發(fā)人員體驗方面也發(fā)揮著關鍵作用。“我們需要結束沒有數(shù)據(jù)合同的數(shù)據(jù)工程行業(yè)的災難。”數(shù)據(jù)合同的最佳位置在哪里?為什么數(shù)據(jù)工程師要放棄數(shù)千個待處理的請求,去考慮合同對他們?nèi)粘sw驗的影響?
通過在數(shù)據(jù)環(huán)境中分布的合同握手的簡單哲學,合同幾乎完全符合價值金字塔:
提高數(shù)據(jù)生態(tài)系統(tǒng)的功能能力
改善協(xié)作體驗
改善數(shù)據(jù)工程師、數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者的個人體驗
此后,啟用 Data-First 堆棧,用戶可以專注于核心數(shù)據(jù)和核心數(shù)據(jù)應用程序,而不必陷入集成和維護的細節(jié)中。
5.價值在幾周內(nèi)實現(xiàn),而不是幾年
全面數(shù)據(jù)優(yōu)先堆棧,最初的發(fā)展速度很慢,但一旦克服了最初的幾周,其價值就會立即實現(xiàn),因為真正的數(shù)據(jù)優(yōu)先堆棧正如其名稱所言:它將數(shù)據(jù)和指標放在首位,并將流程直接與業(yè)務效益聯(lián)系起來。如果你仔細想想,數(shù)據(jù)優(yōu)先就是效益優(yōu)先的同義詞。
五 數(shù)據(jù)優(yōu)先堆棧的結果
數(shù)據(jù)優(yōu)先堆棧的最終目標是創(chuàng)建數(shù)據(jù)產(chǎn)品。盡管這應該是任何數(shù)據(jù)堆棧、數(shù)據(jù)團隊或數(shù)據(jù)計劃的理想目標,但創(chuàng)建真正有助于實現(xiàn)業(yè)務目標的有價值數(shù)據(jù)的最終目標卻不知何故在普遍的數(shù)據(jù)堆棧的復雜性中被遺忘了。
數(shù)據(jù)優(yōu)先堆??上蓴_,重新將注意力集中在數(shù)據(jù)和數(shù)據(jù)應用程序上。當數(shù)據(jù)通過數(shù)據(jù)優(yōu)先堆棧的組件傳輸時,典型的輸出是數(shù)據(jù)產(chǎn)品,簡而言之,它是持續(xù)可靠地為用戶增加價值的數(shù)據(jù)單元。數(shù)據(jù)產(chǎn)品具有一些獨特的品質(zhì)或?qū)傩?,使其與一般數(shù)據(jù)區(qū)分開來。
如果數(shù)據(jù)產(chǎn)品具備上述特質(zhì),它很容易就成為一個簡單的電子表格、存儲中的文件、一個表、一個數(shù)據(jù)庫、存儲在ML特征存儲中的特征......你明白了。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。