我經(jīng)常與那些準(zhǔn)備投入大量時間和資源用于注定失敗的數(shù)據(jù)質(zhì)量計劃的組織進行交談。激勵措施和關(guān)鍵績效指標(biāo)能夠推動良好行為,這并不是什么秘密。銷售薪酬計劃受到嚴(yán)格審查,因此經(jīng)常成為董事會會議的議題。如果我們對數(shù)據(jù)質(zhì)量記分卡給予同樣的關(guān)注,結(jié)果會怎樣?
即使在Hadoop時代的傳統(tǒng)數(shù)據(jù)質(zhì)量記分卡的鼎盛時期,也很少取得巨大成功。在過去的幾年里,云計算和元數(shù)據(jù)管理方面的進步使得組織大量數(shù)據(jù)成為可能。
數(shù)據(jù)工程流程開始趨向于更長期存在的工程學(xué)科的成熟度和嚴(yán)謹(jǐn)程度。當(dāng)然,人工智能有潛力簡化一切。盡管這個問題還沒有——也可能永遠(yuǎn)不會——完全解決,但我已經(jīng)看到一些組織采用了最佳實踐,而這正是計劃成功與 12 個月后再舉行一次啟動會議之間的區(qū)別。
以下是構(gòu)建數(shù)據(jù)質(zhì)量記分卡的4個關(guān)鍵經(jīng)驗:
了解哪些數(shù)據(jù)重要
測量機制
采取正確的“激勵”政策
自動評估和發(fā)現(xiàn)
一、了解哪些數(shù)據(jù)重要
任何與數(shù)據(jù)相關(guān)的計劃最容易失敗的就是假設(shè)所有數(shù)據(jù)都具有同等價值。而確定哪些數(shù)據(jù)重要的唯一最佳方法就是與企業(yè)進行交流。
下面是一個很好的場景:
“我想問的是:
您如何使用這張表?
您什么時候查看這些數(shù)據(jù)?您什么時候報告這些數(shù)據(jù)?這些數(shù)據(jù)需要更新到分鐘、每小時還是每天?
這有何用處?
如果這些數(shù)據(jù)延遲,誰需要得到通知?”
現(xiàn)在,如果您為一個擁有遍布全球的數(shù)萬名員工的龐大組織工作,這可能說起來容易做起來難。
在這些情況下,我的建議是從對業(yè)務(wù)最關(guān)鍵的數(shù)據(jù)業(yè)務(wù)部門開始(如果您不知道,我?guī)筒涣四?)。開始討論需求和優(yōu)先事項。
只需記?。?strong>先證明概念,再進行擴展。你會驚訝地發(fā)現(xiàn)有多少人恰恰相反。
二 、測量機制
數(shù)據(jù)質(zhì)量難以標(biāo)準(zhǔn)化
簡而言之,這類努力面臨的持久挑戰(zhàn)之一是。質(zhì)量是,也應(yīng)該,從用例的角度來衡量。
數(shù)據(jù)質(zhì)量的六個維度是任何數(shù)據(jù)質(zhì)量記分卡的重要組成部分和重要的起點,但對于許多團隊來說,這只是一個開始——而且每個數(shù)據(jù)產(chǎn)品都是不同的。
例如,財務(wù)報告可能需要高度準(zhǔn)確,并具有一定的時效性,而機器學(xué)習(xí)模型可能恰恰相反。
衡量數(shù)據(jù)質(zhì)量通常已完全聯(lián)合起來
從實施角度來看,這意味著。不同的分析師或管理員會根據(jù)不同的數(shù)據(jù)質(zhì)量規(guī)則和權(quán)重,逐個衡量數(shù)據(jù)質(zhì)量。
這在一定程度上是有道理的,但在翻譯過程中卻丟失了很多內(nèi)容。
數(shù)據(jù)消費者通常很難理解“黃色”分?jǐn)?shù)的含義
數(shù)據(jù)具有多種用途,并可跨用例共享。不僅一個人的“黃色”質(zhì)量分?jǐn)?shù)是另一個人的“綠色”,而且或評分方式。他們還經(jīng)常忽略綠色表格從紅色表格輸入數(shù)據(jù)的含義(你知道,垃圾進,垃圾出……)。
當(dāng)然,公布違反規(guī)則的數(shù)量很重要,但你還需要:
盡可能將其置于情境中,
擁有聚合的端到端數(shù)據(jù)產(chǎn)品視圖,
構(gòu)建一些強大的無代碼數(shù)據(jù)分析,并且
意識到這還不夠。
你需要測量工具。
那么你還需要什么?
換句話說,數(shù)據(jù)生產(chǎn)和交付的組成部分通??梢詭砀哔|(zhì)量。這更容易標(biāo)準(zhǔn)化??鐦I(yè)務(wù)部門和團隊也更容易理解。
他們衡量數(shù)據(jù)的準(zhǔn)確性——但可靠性、管理和可用性實際上占總分的 60%。
Airbnb Midas是最著名的內(nèi)部數(shù)據(jù)質(zhì)量評分和認(rèn)證項目之一,這是理所當(dāng)然的。他們非常依賴這個概念。
許多數(shù)據(jù)團隊仍在制定自己的標(biāo)準(zhǔn),但我們發(fā)現(xiàn)與數(shù)據(jù)健康高度相關(guān)的組成部分包括:
前面提到的數(shù)據(jù)質(zhì)量的六個維度(有效性、完整性、一致性、及時性、唯一性、準(zhǔn)確性)。
可用性和管理
文檔:數(shù)據(jù)資產(chǎn)、其用途和過去事件的某種程度的語義含義。一家在線旅游搜索公司根據(jù)資產(chǎn)的編目方式和位置以及其 6 個類別中的兩個類別的元數(shù)據(jù)的完整性對資產(chǎn)進行評分。
譜系:能夠跨系統(tǒng)在現(xiàn)場級別追蹤數(shù)據(jù)來源。
使用率:表收到的查詢數(shù)量以及具有下游依賴關(guān)系的數(shù)據(jù)產(chǎn)品數(shù)量。這可以成為“關(guān)鍵資產(chǎn)得分”,并且具有飛輪效應(yīng)。您將可靠性工作重點放在最常用的內(nèi)容上,人們信任流行的內(nèi)容。
系統(tǒng)可靠性
監(jiān)控:一般來說,如果數(shù)據(jù)產(chǎn)品不僅在最后一英里表上具有強大的覆蓋范圍,而且在整個上游都有強大的覆蓋范圍,則表明它是一項精心策劃的資產(chǎn)。
新鮮度:數(shù)據(jù)新鮮度要求因數(shù)據(jù)產(chǎn)品類型而異,但它是一種表級指標(biāo),可以識別和顯示與常態(tài)的偏差。許多組織(如羅氏診斷公司)都會為其數(shù)據(jù)產(chǎn)品制定特定的新鮮度SLA,并衡量遵守程度。
數(shù)量:表接收的行數(shù)相對穩(wěn)定通常是管道和數(shù)據(jù)傳輸系統(tǒng)運行良好的標(biāo)志。
架構(gòu):您至少希望消費者能夠看到架構(gòu)變化。對于最關(guān)鍵的管道,理想情況下,您需要某種程度的架構(gòu)實施或數(shù)據(jù)契約,以便您知道源頭的更改何時會破壞下游資產(chǎn)。
行動響應(yīng):
所有權(quán):資產(chǎn)是否有所有者?如果資產(chǎn)同時擁有技術(shù)所有者和業(yè)務(wù)所有者,則可獲得額外獎勵。
通知渠道和通信:數(shù)據(jù)傳遞是一個復(fù)雜的過程,涉及從采集到聚合再到消費的多個交接。除此之外,理想情況下,您最好讓多個團隊使用一個數(shù)據(jù)資產(chǎn)(否則您的網(wǎng)格更像是一個孤島)。在這種環(huán)境中,擁有可靠數(shù)據(jù)產(chǎn)品的唯一方法是擁有一個中央通信渠道來突出顯示和討論變化和事件。
平均修復(fù)時間:可以說,衡量數(shù)據(jù)集可信度的最重要指標(biāo)是支持團隊響應(yīng)和修復(fù)事件的速度。不良數(shù)據(jù)是不可避免的。出色的事件響應(yīng)是有意為之。
三 、采取正確的政策
為生產(chǎn)者和消費者提供高質(zhì)量數(shù)據(jù)激勵。請記住,衡量數(shù)據(jù)健康狀況的目的不是為了衡量數(shù)據(jù)健康狀況。關(guān)鍵在于“推動人們傾向于生成和使用高質(zhì)量數(shù)據(jù)”。
我在這里看到的最佳實踐是,對平臺上的數(shù)據(jù)有一套最低要求,對每個級別有一套更為嚴(yán)格的認(rèn)證要求。
認(rèn)證起到了誘餌的作用,因為生產(chǎn)者確實希望消費者使用他們的數(shù)據(jù),而消費者很快就會辨別并培養(yǎng)對高度可靠數(shù)據(jù)的品味。
四、 自動評估和發(fā)現(xiàn)
如果沒有一定程度的自動化和自助服務(wù)能力,數(shù)據(jù)管理幾乎不可能成功。需要放棄任何 1) 無法立即理解和 2) 無法自動衡量的評分標(biāo)準(zhǔn)。
您的組織也必須這樣做。即使這是有史以來最好的評分標(biāo)準(zhǔn),如果您沒有一套可以自動收集和顯示它的解決方案,它就必須被扔進垃圾箱。
我見過最常見的方法是使用數(shù)據(jù)可觀察性和質(zhì)量解決方案以及數(shù)據(jù)目錄。例如,羅氏公司就是這樣做的,并將訪問管理作為創(chuàng)建、展示和管理可信數(shù)據(jù)產(chǎn)品的一部分。
當(dāng)然,這也可以通過手動將來自多個數(shù)據(jù)系統(tǒng)的元數(shù)據(jù)拼接到自主開發(fā)的可發(fā)現(xiàn)性門戶中來實現(xiàn),但請注意維護開銷。
衡量即管理
數(shù)據(jù)團隊已對其現(xiàn)代數(shù)據(jù)和 AI 平臺進行了巨額投資。但為了最大限度地發(fā)揮投資價值,組織(包括數(shù)據(jù)生產(chǎn)者和消費者)必須完全接受并信任所提供的數(shù)據(jù)。
歸根結(jié)底,衡量結(jié)果是為了管理。這難道不是最重要的嗎?
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。