根據(jù)調(diào)查,大多數(shù)公司希望增加投資的領(lǐng)域是數(shù)據(jù)質(zhì)量,這是未來最受歡迎的投資領(lǐng)域。
這樣做有充分的理由。首先,數(shù)據(jù)質(zhì)量差會導(dǎo)致對數(shù)據(jù)的信任度下降和決策錯誤。其次,公司越來越多地投資于業(yè)務(wù)關(guān)鍵型系統(tǒng),例如直接由數(shù)據(jù)倉庫提供支持的 ML 或面向用戶的分析,而這些系統(tǒng)沒有出錯的余地。
然而,大多數(shù)公司沒有客觀評估其數(shù)據(jù)質(zhì)量的方法,這使得他們無法識別問題區(qū)域或跟蹤一段時間內(nèi)的改進情況。
在這篇文章中,我們探討
.衡量質(zhì)量時的注意事項
.以數(shù)據(jù)資產(chǎn)為中心的方式
.以數(shù)據(jù)產(chǎn)品為中心的方式
.將質(zhì)量洞察與定量指標(biāo)相結(jié)合
.將洞察付諸行動
你在玩什么游戲
如果你和大多數(shù)人一樣,你不會為了好玩而測量數(shù)據(jù)質(zhì)量。相反,你有一個明確的業(yè)務(wù)需求,例如,
•通過強調(diào)問題區(qū)域,讓分布式團隊掌握數(shù)據(jù)質(zhì)量;
•在利益相關(guān)者多次詢問數(shù)據(jù)質(zhì)量被認(rèn)為較低后,向他們展示信心;
•向監(jiān)管機構(gòu)表明您掌握著數(shù)據(jù)質(zhì)量的主動權(quán);
•與數(shù)據(jù)產(chǎn)品的工程師分享您已承諾遵守 SLA 的系統(tǒng)正常運行時間。
在開展測量數(shù)據(jù)質(zhì)量之前,你應(yīng)該清楚自己在玩什么游戲。獲得可靠的指標(biāo)將是一項投資,一旦你發(fā)現(xiàn)問題區(qū)域,更大的投資等待著你,以更好的數(shù)據(jù)質(zhì)量控制來改善這些問題。
一 、衡量質(zhì)量時的注意事項
制定衡量數(shù)據(jù)質(zhì)量的指導(dǎo)方針,以便每個人都能以一致的方式對待它。雖然這些可能取決于業(yè)務(wù)情況,但我們發(fā)現(xiàn)這些指導(dǎo)原則非常有效。
指標(biāo)——衡量覆蓋率和正常運行時間
行動——可操作且后續(xù)步驟明確
細(xì)分——可按關(guān)鍵維度進行細(xì)分
用例——考慮數(shù)據(jù)使用方式
趨勢——隨著時間的推移保持一致且可衡量
在大多數(shù)情況下,需要根據(jù)數(shù)據(jù)的使用方式指定期望。我們建議這樣做,因為您可能不想讓所有資產(chǎn)都遵守相同的標(biāo)準(zhǔn)。記住哪些數(shù)據(jù)對業(yè)務(wù)至關(guān)重要、哪些數(shù)據(jù)會被公開(例如,在儀表板中)以及哪些資產(chǎn)應(yīng)該有 SLA(例如,如果數(shù)據(jù)沒有按時到達(dá),就會產(chǎn)生下游影響),可以幫助您評估需要哪些檢查,從而衡量哪些是重要的。
示例 – 每個表的質(zhì)量規(guī)范和元數(shù)據(jù)
二 、以數(shù)據(jù)資產(chǎn)為中心的方式測量數(shù)據(jù)質(zhì)量
在資產(chǎn)級別監(jiān)控數(shù)據(jù)質(zhì)量非常直觀:可以在表級別計算正常運行時間和覆蓋率,并可以選擇按元數(shù)據(jù)維度(例如所有者域、關(guān)鍵性以及隨時間推移)進行細(xì)分。
這可以鳥瞰數(shù)據(jù)堆棧,了解在哪些領(lǐng)域比較薄弱,哪些領(lǐng)域比較強,以及這與期望有何關(guān)系。
我們建議您考慮兩個指標(biāo)以獲得最完整的信息。
正常運行時間——每次運行時,現(xiàn)有控制措施成功通過的百分比是多少
覆蓋率——有多少比例的數(shù)據(jù)資產(chǎn)已實施必要的控制
將質(zhì)量指標(biāo)分組到語義相似的領(lǐng)域,可以以更貼近業(yè)務(wù)用例的方式討論數(shù)據(jù)質(zhì)量。
(1) 及時性
– 數(shù)據(jù)是否根據(jù)與業(yè)務(wù)商定的 SLA 保持最新和最新狀態(tài),
(2) 正確性
– 所有數(shù)據(jù)是否可用,
(3) 完整性
– 數(shù)據(jù)在語義上是否正確,
(4) 一致性
– 可用數(shù)據(jù)是否在各個系統(tǒng)中一致。
我們還建議明確定義哪些情況是“差”、“還行”或“好”。在我們的示例中,任何低于 50% 的分?jǐn)?shù)都被標(biāo)記為“差”,這意味著需要采取行動。
數(shù)據(jù)質(zhì)量匯總表——跨質(zhì)量維度和隨時間變化的正常運行時間和覆蓋范圍
這種洞察力水平可以讓你開始詢問有關(guān)數(shù)據(jù)質(zhì)量的問題,例如
雖然我們對空值檢查有很好的覆蓋,但我們應(yīng)該研究哪些檢查失敗了,是否可以修復(fù),或者是否應(yīng)該刪除它們。
為什么我們的斷言測試的正常運行時間顯著下降?
鑒于覆蓋率低,我們在唯一性測試上的高正常運行時間是否會給我們一種虛假的安全感?
假設(shè)您已指定域所有者等元數(shù)據(jù)。在這種情況下,您可以細(xì)分?jǐn)?shù)據(jù)以查看正確性分?jǐn)?shù)的下降主要是由數(shù)據(jù)倉庫團隊擁有的表的斷言測試驅(qū)動的,我想您現(xiàn)在知道該找誰了。
三 、以數(shù)據(jù)產(chǎn)品為中心的數(shù)據(jù)質(zhì)量測量方法
雖然上述以數(shù)據(jù)資產(chǎn)為中心的方法有優(yōu)點——它很容易理解、實施,但推理它有一個主要缺點。
以數(shù)據(jù)資產(chǎn)為中心的質(zhì)量指標(biāo)本質(zhì)上與數(shù)據(jù)的用例沒有聯(lián)系。
換句話說,您的及時性得分可以達(dá)到 95%。但是,如果包含關(guān)鍵廣告支出管道的 ML 預(yù)測的數(shù)據(jù)模型在每周運行之前失敗,那么您的情況也不會好轉(zhuǎn),您的 CTO 會生氣地找您,要求您控制數(shù)據(jù)質(zhì)量。
我們提出了一種衡量數(shù)據(jù)質(zhì)量的替代方法——以數(shù)據(jù)產(chǎn)品為中心的方法。
數(shù)據(jù)產(chǎn)品是一組相關(guān)資產(chǎn),例如由曝光鏈接的 DBT 模型、支持營銷自動化的 CLTV 模型使用的表格或 BI 工具中的一組選定儀表板。換句話說,數(shù)據(jù)產(chǎn)品與其業(yè)務(wù)用例緊密相關(guān)。
數(shù)據(jù)產(chǎn)品類似于汽車儀表盤上的警示燈。它們不會立即告訴你有關(guān)底層指標(biāo)的任何信息(例如,油位是否低于 10%),而是告訴你產(chǎn)品存在問題、問題的重要性以及你應(yīng)該如何調(diào)查。
在上面的例子中,您可以立即看到業(yè)務(wù) KPI 數(shù)據(jù)產(chǎn)品上游資產(chǎn)的問題。
您可以跟蹤數(shù)據(jù)產(chǎn)品的健康狀況,同時考慮數(shù)據(jù)產(chǎn)品內(nèi)部和上游的問題。這創(chuàng)造了一種更直觀、以最終用戶為中心的數(shù)據(jù)健康狀況衡量方法。有了這些信息,您可以理直氣壯地告訴您的首席財務(wù)官,您的業(yè)務(wù) KPI 儀表板存在可靠性問題,過去 15 天內(nèi)停機時間為 6 天。
一旦確定數(shù)據(jù)產(chǎn)品的可靠性存在問題,您就可以深入研究不同的數(shù)據(jù)控制以查找根本原因。
四、 將定量指標(biāo)與定性見解相結(jié)合
盡管數(shù)據(jù)質(zhì)量檢查覆蓋率高且錯誤少,但您可能仍存在盲點。您可以通過將質(zhì)量指標(biāo)與有關(guān)數(shù)據(jù)用戶體驗的定性見解和指標(biāo)相結(jié)合來解決這些問題。
調(diào)查利益相關(guān)者
將定量指標(biāo)與利益相關(guān)者調(diào)查相結(jié)合是發(fā)現(xiàn)需要改進領(lǐng)域的好方法。請他們就自助服務(wù)的滿意度、儀表板的質(zhì)量以及他們所在地區(qū)是否有足夠的數(shù)據(jù)人員等問題提供坦誠、匿名的反饋。
宣布和監(jiān)控數(shù)據(jù)事件
數(shù)據(jù)團隊對事件并不陌生。但處理數(shù)據(jù)問題通常沒有標(biāo)準(zhǔn)方法,許多團隊只是偶爾宣布數(shù)據(jù)事件。
與自動化數(shù)據(jù)質(zhì)量指標(biāo)不同,事件是手動聲明和分類的(例如 P1、P2、P3)。記錄歷史事件是補充數(shù)據(jù)質(zhì)量指標(biāo)并向利益相關(guān)者透明的好方法。
監(jiān)控數(shù)據(jù)可用性
雖然嚴(yán)格來說不是數(shù)據(jù)質(zhì)量衡量指標(biāo),但數(shù)據(jù)資產(chǎn)的可用性經(jīng)常被忽視。這可能會導(dǎo)致糟糕的最終用戶體驗,例如對同一指標(biāo)有多個定義,或者堆棧臃腫,包含數(shù)百個未使用的數(shù)據(jù)模型和儀表板。為了克服這個問題,我們建議您使用可用性指標(biāo)來補充您的質(zhì)量衡量指標(biāo),例如
參與度分?jǐn)?shù)——儀表板的用戶數(shù)量以及數(shù)據(jù)模型上的下游依賴項和查詢的數(shù)量
可用性得分– 帶有描述的列和表的百分比
這些指標(biāo)可幫助您實施諸如淘汰未使用的數(shù)據(jù)模型或儀表板等計劃,這是維護健康堆棧的重要部分。
五、 將洞察付諸行動
您經(jīng)常會希望將監(jiān)控數(shù)據(jù)質(zhì)量過程中發(fā)現(xiàn)的洞察付諸實踐。無論是為了改進某個特定領(lǐng)域,還是與利益相關(guān)者分享您的改進方法,還是其他什么。
雖然沒有一勞永逸的解決方案,但我們已經(jīng)看到這些方法效果良好。
通過每周電子郵件摘要自動追責(zé)——成為必須告訴他們數(shù)據(jù)質(zhì)量不佳的人并不總是一件有趣的事。安排每周自動發(fā)送一封電子郵件,其中包含隨時間推移和每個所有者域的質(zhì)量得分,這是一種很好的追責(zé)方式,無需一個人指責(zé)。
當(dāng)人們看到自己的團隊得分低于同行時,他們會引起關(guān)注。
認(rèn)真對待元數(shù)據(jù)— 我們看到數(shù)據(jù)質(zhì)量計劃失敗的最常見原因是每個人都對數(shù)據(jù)質(zhì)量負(fù)責(zé),因此沒有人感到有責(zé)任。只有通過強制執(zhí)行元數(shù)據(jù)(例如關(guān)鍵性和所有者或域),您才能讓人們對其領(lǐng)域的數(shù)據(jù)質(zhì)量負(fù)責(zé)。
警惕“破窗理論”——“破窗理論”可以追溯到犯罪學(xué),它認(rèn)為如果你把院子里一扇窗戶打碎,院子里的其他一切都會開始崩塌。如果居民開始看到一切都崩塌,他們就不會再關(guān)心其他事情了。我們可以將同樣的比喻應(yīng)用到數(shù)據(jù)質(zhì)量上。
如果有很多測試失敗,這通常是信噪比太低或測試實施位置不對的征兆。不要讓失敗的數(shù)據(jù)檢查擱置。相反,應(yīng)留出專門的時間(例如每隔一周的“修復(fù)星期五”)來解決此類問題并刪除不再需要的數(shù)據(jù)檢查。
創(chuàng)建數(shù)據(jù)質(zhì)量運行手冊– 如果您所在的團隊規(guī)模較大,請包含解決每個數(shù)據(jù)質(zhì)量維度的明確步驟,以便每個人都清楚了解。例如,如果及時性分?jǐn)?shù)較低,您可以推薦一些步驟,例如添加數(shù)據(jù)源新鮮度檢查或設(shè)置新鮮度監(jiān)視器。
數(shù)據(jù)質(zhì)量評分的行動并不一定就此結(jié)束。我們已經(jīng)看到最好的團隊更進一步,將質(zhì)量評分嵌入關(guān)鍵儀表板,以向利益相關(guān)者表明數(shù)據(jù)是否值得信賴,并設(shè)定要求,即業(yè)務(wù)關(guān)鍵流程中使用的數(shù)據(jù)資產(chǎn)在公開之前必須獲得“良好”的評分。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。