數(shù)據(jù)建模是業(yè)務(wù)和IT的共同責(zé)任。一個(gè)常見的誤解是,它主要是開發(fā)應(yīng)用程序的必要技術(shù)步驟,是IT專業(yè)人員的任務(wù)。事實(shí)是,只有與業(yè)務(wù)部門的各自專家緊密合作才能產(chǎn)生支持業(yè)務(wù)目標(biāo)的數(shù)據(jù)驅(qū)動應(yīng)用程序。數(shù)據(jù)模型是實(shí)現(xiàn)該目標(biāo)的溝通工具。
領(lǐng)域驅(qū)動數(shù)據(jù)建模是一種現(xiàn)代方法,包含企業(yè)概念數(shù)據(jù)模型和數(shù)據(jù)模型治理等主要元素。該方法結(jié)構(gòu)化且實(shí)用,以業(yè)務(wù)價(jià)值最高的領(lǐng)域?yàn)橹笇?dǎo)。
一、數(shù)據(jù)建模的作用
數(shù)據(jù)模型是人們之間的溝通工具,尤其是業(yè)務(wù)部門和IT部門之間的溝通工具,也是構(gòu)建以數(shù)據(jù)為中心的應(yīng)用程序的藍(lán)圖。人們對數(shù)據(jù)模型的廣泛期望表明,數(shù)據(jù)建模是一項(xiàng)基本活動。然而,實(shí)際上,它往往被低估和忽視。在項(xiàng)目中,人們往往更關(guān)注數(shù)據(jù)建模的語法和技術(shù)方面,而不是受其業(yè)務(wù)價(jià)值的驅(qū)動。從業(yè)務(wù)目標(biāo)中獲得的數(shù)據(jù)開發(fā)會帶來市場競爭優(yōu)勢。
數(shù)據(jù)建模的好處多種多樣,總結(jié)如:
1.數(shù)據(jù)建模支持戰(zhàn)略。良好的數(shù)據(jù)建模實(shí)踐可使數(shù)據(jù)結(jié)構(gòu)更具適應(yīng)性,并在實(shí)施戰(zhàn)略變革時(shí)提高效率。數(shù)據(jù)透明度有助于制定并購戰(zhàn)略。
2.了解和改進(jìn)業(yè)務(wù)流程。數(shù)據(jù)建模迫使公司闡明其業(yè)務(wù)和流程。如果不知道業(yè)務(wù)如何運(yùn)作,就不可能定義數(shù)據(jù)的結(jié)構(gòu)和動態(tài)。
3.不同功能和部門之間的協(xié)作,尤其是業(yè)務(wù)和IT之間的協(xié)作,通過技術(shù)中立的通信數(shù)據(jù)模型來促進(jìn),但仍然具有足夠的細(xì)節(jié)以創(chuàng)建物理數(shù)據(jù)結(jié)構(gòu)。
4.縮短價(jià)值實(shí)現(xiàn)時(shí)間并提高效率。通過數(shù)據(jù)建模,業(yè)務(wù)用戶可以直接定義核心業(yè)務(wù)規(guī)則,這意味著實(shí)施時(shí)需要的修訂更少。這提高了效率并降低了成本。
5.提高性能并降低成本。在現(xiàn)代數(shù)據(jù)存儲解決方案中,最昂貴的組件不是存儲而是計(jì)算。一般來說,良好的數(shù)據(jù)模型將降低查詢成本,并減少代碼的復(fù)雜性,從而提高應(yīng)用程序速度并減少實(shí)施和維護(hù)工作。
6.提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)建模有助于識別數(shù)據(jù)中的錯(cuò)誤和不一致性,從而提高數(shù)據(jù)的整體質(zhì)量。
近年來,數(shù)據(jù)建模變得越來越復(fù)雜。數(shù)據(jù)架構(gòu)格局的復(fù)雜性和動態(tài)性不斷增加、數(shù)據(jù)量呈指數(shù)級增長,以及AI/ML領(lǐng)域的新技術(shù)趨勢和進(jìn)步是最突出的因素。結(jié)合不斷變化的業(yè)務(wù)需求,數(shù)據(jù)建模必須以結(jié)構(gòu)化的方式執(zhí)行才能有效。
好消息是,根據(jù)用例構(gòu)建數(shù)據(jù)模型的想法變得容易得多。關(guān)于數(shù)據(jù)建模模式和行業(yè)特定標(biāo)準(zhǔn)的資源有很多。此外,還有一些工具可以根據(jù)提供的數(shù)據(jù)建議物理數(shù)據(jù)模型結(jié)構(gòu),而GenAI能夠根據(jù)提供的需求生成數(shù)據(jù)模型的各個(gè)部分。然而,所有這些都不能取代對數(shù)據(jù)建模者的需求。數(shù)據(jù)建模作為一種活動的需求仍然存在。創(chuàng)建數(shù)據(jù)模型不僅具有純粹的需求和技術(shù)視角,而且是業(yè)務(wù)和IT相關(guān)利益相關(guān)者之間達(dá)成協(xié)議和共同理解的產(chǎn)物。
二、如何以整體方式實(shí)施和管理數(shù)據(jù)模型
企業(yè)數(shù)據(jù)分布在各種數(shù)據(jù)存儲中,由集中或單獨(dú)的分散單位管理。企業(yè)范圍的分析要求能夠以所需的方式集成和組合來自不同來源的基礎(chǔ)數(shù)據(jù)。為了實(shí)現(xiàn)這一點(diǎn),需要一個(gè)通用的數(shù)據(jù)模型,代表對業(yè)務(wù)實(shí)體、關(guān)系和規(guī)則的整體理解,從而實(shí)現(xiàn)整體接受。
企業(yè)數(shù)據(jù)模型(EDM)
就是這樣一種總體通用數(shù)據(jù)模型,它是企業(yè)不同層級和單位共同努力的結(jié)果。它是一個(gè)整體的基于層的模型,其層代表企業(yè)、主題領(lǐng)域和應(yīng)用程序?qū)?,此外還對應(yīng)于概念、邏輯或物理數(shù)據(jù)模型類型。EDM提供通用詞匯表,并通過提供相應(yīng)的映射來協(xié)調(diào)對同一業(yè)務(wù)實(shí)體的不同理解之間的差異。例如,中央部門中的實(shí)體客戶可能是某個(gè)分散單位中的客戶。
頂部的企業(yè)概念數(shù)據(jù)模型是唯一集中管理的組件。主題領(lǐng)域概念數(shù)據(jù)模型(CDM)以及下方相應(yīng)的邏輯(LDM)和物理數(shù)據(jù)模型(PDM)由組織的各個(gè)職能領(lǐng)域(例如財(cái)務(wù)或營銷)管理。
主題領(lǐng)域模型使相應(yīng)業(yè)務(wù)領(lǐng)域能夠自主處理其數(shù)據(jù),同時(shí)遵守更廣泛的組織標(biāo)準(zhǔn)。它們不是獨(dú)立的構(gòu)件,而是相互關(guān)聯(lián)的,從而實(shí)現(xiàn)企業(yè)范圍的集成。
這種領(lǐng)域驅(qū)動設(shè)計(jì)也融入了數(shù)據(jù)網(wǎng)格方法,這是一種分散的社會技術(shù)數(shù)據(jù)架構(gòu),強(qiáng)化了數(shù)據(jù)作為各個(gè)領(lǐng)域產(chǎn)物的概念。
數(shù)據(jù)模型治理負(fù)責(zé)管理確保組織內(nèi)有效和高效使用數(shù)據(jù)建模的政策、程序、標(biāo)準(zhǔn)和指標(biāo)。它側(cè)重于對數(shù)據(jù)建模工作的監(jiān)督和監(jiān)管,是整體數(shù)據(jù)治理功能的一部分。數(shù)據(jù)模型治理的領(lǐng)域之一是內(nèi)部數(shù)據(jù)建模指南的設(shè)置,涵蓋數(shù)據(jù)建模符號、命名約定、設(shè)計(jì)標(biāo)準(zhǔn)和文檔要求等方面。定期質(zhì)量控制是另一個(gè)關(guān)鍵方面,在審查數(shù)據(jù)模型時(shí)會應(yīng)用數(shù)據(jù)模型記分卡等指標(biāo)。
三、 數(shù)據(jù)建模的指導(dǎo)原則
從總體來看,建議在數(shù)據(jù)建模方法中遵循以下指導(dǎo)原則:
1.確保企業(yè)中的相關(guān)主題專家(SME)以及IT專家共同協(xié)作創(chuàng)建或調(diào)整概念和邏輯數(shù)據(jù)模型。
2.使用行業(yè)中的通用數(shù)據(jù)建模模板或使用AI創(chuàng)建的模板作為靈感和清單,而不是作為數(shù)據(jù)模型的初稿。
3.EDM本身并不包含公司中存在的所有可能的數(shù)據(jù)模型,而是側(cè)重于企業(yè)核心數(shù)據(jù)。
4.每次敏捷迭代之后保持企業(yè)數(shù)據(jù)模型各組件彼此一致。
5.創(chuàng)建企業(yè)數(shù)據(jù)模型不是學(xué)術(shù)活動,而是一項(xiàng)常識性和實(shí)踐性的工作。務(wù)實(shí)并保持收益和努力的平衡。首先從快速見效的領(lǐng)域開始——具有最高商業(yè)價(jià)值的領(lǐng)域。
組織的數(shù)據(jù)建模能力是一個(gè)旅程,通常以相應(yīng)能力成熟度模型中的級別為特征。成熟度評估可以評估當(dāng)前狀態(tài)并顯示前進(jìn)的路線圖。從最初的臨時(shí)努力開始,組織通常通過建立標(biāo)準(zhǔn)和隨后的治理政策、引入更先進(jìn)的工具和持續(xù)改進(jìn)實(shí)踐來發(fā)展。
四、 數(shù)據(jù)建模的好處
俗話說“數(shù)據(jù)是新石油”,世界各地的公司收集大量數(shù)據(jù)的主要目的是利用這些數(shù)據(jù)獲取更多利潤。然而,收集的數(shù)據(jù)往往是非結(jié)構(gòu)化的和骯臟的。這些原始數(shù)據(jù)對收集它的公司沒有多大幫助,除非對其進(jìn)行清理和分析,以獲得可操作的見解來推動基于數(shù)據(jù)的決策。
數(shù)據(jù)建模提供了一個(gè)機(jī)會來定義如何組織、存儲、檢索和呈現(xiàn)數(shù)據(jù)。它基本上允許利益相關(guān)者了解他們的數(shù)據(jù),反過來,利益相關(guān)者從一開始就對數(shù)據(jù)管理做出正確的選擇。
數(shù)據(jù)建模有幾個(gè)好處,包括:
改進(jìn)數(shù)據(jù)理解:數(shù)據(jù)建模有助于理解數(shù)據(jù)集內(nèi)的結(jié)構(gòu)、關(guān)系和依賴關(guān)系。它提供了數(shù)據(jù)實(shí)體、屬性及其關(guān)聯(lián)的可視化表示,使人們更容易理解復(fù)雜數(shù)據(jù)。
增強(qiáng)數(shù)據(jù)質(zhì)量:通過定義數(shù)據(jù)實(shí)體、屬性和關(guān)系,數(shù)據(jù)建模有助于識別和糾正數(shù)據(jù)質(zhì)量問題。它支持?jǐn)?shù)據(jù)驗(yàn)證、標(biāo)準(zhǔn)化和一致性,從而提高數(shù)據(jù)的準(zhǔn)確性和可靠性。
高效的數(shù)據(jù)庫設(shè)計(jì),顯著減少錯(cuò)誤:數(shù)據(jù)建模有助于設(shè)計(jì)和開發(fā)高效的數(shù)據(jù)庫。它有助于將數(shù)據(jù)組織到表中,定義主鍵和外鍵關(guān)系,并優(yōu)化數(shù)據(jù)存儲和檢索,從而提高數(shù)據(jù)庫性能。
整個(gè)組織的一致溝通:數(shù)據(jù)模型是業(yè)務(wù)利益相關(guān)者、數(shù)據(jù)分析師和開發(fā)人員之間的通用語言。它們提供數(shù)據(jù)需求的可視化表示,使參與數(shù)據(jù)相關(guān)項(xiàng)目的不同團(tuán)隊(duì)之間能夠進(jìn)行有效的溝通和協(xié)作。
可擴(kuò)展性和靈活性:數(shù)據(jù)建模允許設(shè)計(jì)可擴(kuò)展并適應(yīng)不斷變化的業(yè)務(wù)需求的數(shù)據(jù)庫。它允許添加或修改數(shù)據(jù)實(shí)體和屬性,而不會破壞現(xiàn)有數(shù)據(jù)結(jié)構(gòu),從而確保靈活性和面向未來性。
決策支持:數(shù)據(jù)模型可用于分析和模擬不同的場景,從而實(shí)現(xiàn)更好的決策。通過表示數(shù)據(jù)元素之間的關(guān)系和依賴關(guān)系,模型有助于識別支持明智業(yè)務(wù)決策的模式、趨勢和見解。
數(shù)據(jù)治理與合規(guī)性:數(shù)據(jù)建模通過提供數(shù)據(jù)分類、數(shù)據(jù)沿襲和數(shù)據(jù)安全的框架來支持?jǐn)?shù)據(jù)治理計(jì)劃。它有助于確保遵守監(jiān)管要求和數(shù)據(jù)隱私標(biāo)準(zhǔn)。
五 、三種類型的數(shù)據(jù)模型。
在數(shù)據(jù)設(shè)計(jì)階段,分析師和利益相關(guān)者通常會創(chuàng)建多種類型的數(shù)據(jù)模型,以概念上和在他們選擇的技術(shù)背景下表示數(shù)據(jù)。
以下是三種主要類型的數(shù)據(jù)模型:
概念模型
概念數(shù)據(jù)模型是數(shù)據(jù)庫主要概念及其相互聯(lián)系的直觀表示。它側(cè)重于諸如數(shù)據(jù)庫不同部分的名稱、它們可以做什么以及它們?nèi)绾蜗嗷リP(guān)聯(lián)等內(nèi)容。它不會涉及所有技術(shù)細(xì)節(jié),而是清晰地概述數(shù)據(jù)的重要方面。
邏輯模型
邏輯數(shù)據(jù)模型通過定義數(shù)據(jù)實(shí)體之間的關(guān)系和約束,進(jìn)一步定義了數(shù)據(jù)實(shí)體的結(jié)構(gòu)以及它們之間的關(guān)系。它通常用于特定項(xiàng)目,因?yàn)槠淠康氖莿?chuàng)建規(guī)則和數(shù)據(jù)結(jié)構(gòu)的技術(shù)藍(lán)圖。
物理數(shù)據(jù)模型
物理模型主要設(shè)計(jì)數(shù)據(jù)庫內(nèi)部的外觀和工作方式。其主要目標(biāo)是根據(jù)計(jì)劃和規(guī)范實(shí)際創(chuàng)建和組織數(shù)據(jù)庫。它提供構(gòu)建數(shù)據(jù)庫并使其正常運(yùn)行所需的具體細(xì)節(jié)。
六 、數(shù)據(jù)建模技術(shù)
數(shù)據(jù)建模技術(shù)是一種以清晰、有條理的方式組織和表示數(shù)據(jù)的方法。它通過使用圖表和符號幫助人們理解和設(shè)計(jì)數(shù)據(jù)庫或數(shù)據(jù)結(jié)構(gòu)。
這些技術(shù)使得傳達(dá)和記錄數(shù)據(jù)要求變得更加容易,其中包括:
實(shí)體關(guān)系 (ER) 建模:此技術(shù)專注于識別不同的事物(實(shí)體)以及它們之間的關(guān)系。它幫助我們了解實(shí)體之間的結(jié)構(gòu)和聯(lián)系,一個(gè)很好的例子是在有客戶、產(chǎn)品和訂單的電子商務(wù)環(huán)境中。
UML(統(tǒng)一建模語言):UML 提供了一種繪制表示系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu)、關(guān)系和行為的圖表的標(biāo)準(zhǔn)化方法。它廣泛用于軟件開發(fā)中,以對復(fù)雜系統(tǒng)進(jìn)行建模。
層次化建模:該技術(shù)以層次化結(jié)構(gòu)組織數(shù)據(jù),類似于家譜,存在父子關(guān)系,每個(gè)父級可以有多個(gè)子級,但每個(gè)子級只有一個(gè)父級。層次化建模通常用于文件系統(tǒng)和 XML 結(jié)構(gòu)。
維度建模:該技術(shù)通常用于數(shù)據(jù)倉庫。它將數(shù)據(jù)組織成維度(描述性屬性)和事實(shí)(可測量數(shù)據(jù))。這簡化了報(bào)告和分析數(shù)據(jù),使趨勢和模式更容易理解。
面向?qū)ο蠼?/strong>:該技術(shù)將數(shù)據(jù)視為具有自身屬性和行為的對象。它強(qiáng)調(diào)封裝、繼承和多態(tài)等面向?qū)ο蟾拍睢C嫦驅(qū)ο蠼MǔS糜谥С置嫦驅(qū)ο缶幊痰?Java 和 C++ 等編程語言。
數(shù)據(jù)流圖 (DFD):通過顯示輸入、輸出和數(shù)據(jù)轉(zhuǎn)換來說明系統(tǒng)內(nèi)數(shù)據(jù)從一個(gè)過程到另一個(gè)過程的流動。
網(wǎng)絡(luò)建模:網(wǎng)絡(luò)建模使用類似網(wǎng)絡(luò)的結(jié)構(gòu)來表示數(shù)據(jù),其中數(shù)據(jù)實(shí)體通過關(guān)系連接。它允許多對多關(guān)系,并可以靈活地表示復(fù)雜的數(shù)據(jù)關(guān)系。
數(shù)據(jù)倉庫建模:該技術(shù)用于在數(shù)據(jù)工程中構(gòu)建可擴(kuò)展且靈活的數(shù)據(jù)倉庫,主要重點(diǎn)是捕獲歷史數(shù)據(jù)并通過使用集線器、鏈接和衛(wèi)星來保持可追溯性。
七 、數(shù)據(jù)建模的步驟
數(shù)據(jù)建模的步驟通常包括以下步驟:
需求收集:了解數(shù)據(jù)建模項(xiàng)目的業(yè)務(wù)需求和目標(biāo)。確定主要利益相關(guān)者并收集他們的意見,以確保模型符合他們的需求。
概念數(shù)據(jù)建模:創(chuàng)建一個(gè)高級概念模型,表示數(shù)據(jù)中的主要實(shí)體、屬性和關(guān)系。該模型側(cè)重于整體結(jié)構(gòu),并提供數(shù)據(jù)的全景視圖。
邏輯數(shù)據(jù)建模:將概念模型細(xì)化為更詳細(xì)的邏輯模型。使用適當(dāng)?shù)姆柣驁D表定義實(shí)體、屬性、關(guān)系和約束。該模型將作為設(shè)計(jì)數(shù)據(jù)庫的藍(lán)圖。
物理數(shù)據(jù)建模:將邏輯模型轉(zhuǎn)換為物理模型,表示數(shù)據(jù)將如何存儲在特定的數(shù)據(jù)庫系統(tǒng)中。指定數(shù)據(jù)類型、索引、鍵和其他實(shí)現(xiàn)細(xì)節(jié)。該模型指導(dǎo)數(shù)據(jù)庫的實(shí)際實(shí)現(xiàn)。
驗(yàn)證和迭代:與利益相關(guān)者一起審查和驗(yàn)證數(shù)據(jù)模型,以確保它準(zhǔn)確地代表初始要求,然后根據(jù)業(yè)務(wù)需求中可能出現(xiàn)的反饋和變化不斷迭代和完善模型。
文檔:記錄數(shù)據(jù)模型,包括其目的、假設(shè)和所做的任何設(shè)計(jì)決策。此文檔將作為未來開發(fā)、維護(hù)和進(jìn)一步了解數(shù)據(jù)模型的參考。
實(shí)施:使用數(shù)據(jù)模型創(chuàng)建數(shù)據(jù)庫結(jié)構(gòu)、表和關(guān)系。使用實(shí)際數(shù)據(jù)填充數(shù)據(jù)庫,確保其與定義模型中的規(guī)范相符。
維護(hù)和發(fā)展:隨著業(yè)務(wù)需求的發(fā)展或新數(shù)據(jù)需求的出現(xiàn),持續(xù)監(jiān)控和更新數(shù)據(jù)模型。根據(jù)性能和可擴(kuò)展性的考慮,定期審查和優(yōu)化數(shù)據(jù)庫結(jié)構(gòu)。
八 、數(shù)據(jù)建模工具
有多種可用于數(shù)據(jù)建模的工具可以幫助創(chuàng)建、可視化和管理數(shù)據(jù)模型。一些流行的數(shù)據(jù)建模工具包括:
Lucidchart:Lucidchart 是一款基于云的圖表工具,包含數(shù)據(jù)建模功能。它提供了一個(gè)拖放界面,用于創(chuàng)建實(shí)體關(guān)系圖、UML 圖和其他類型的數(shù)據(jù)模型。它還支持與其他工具的協(xié)作和集成。
Draw.io:Draw.io是一款用于創(chuàng)建流程圖、UML 圖等圖表的 Web 工具。它易于使用,具有拖放功能和大量形狀可供選擇。您可以實(shí)時(shí)與他人協(xié)作并在線或離線保存您的圖表。它是免費(fèi)的,不需要任何安裝或注冊。
ER/Studio:ER/Studio 是一款全面的數(shù)據(jù)建模工具,支持概念和物理數(shù)據(jù)建模。它提供創(chuàng)建實(shí)體關(guān)系圖、生成 SQL 腳本以及與團(tuán)隊(duì)成員協(xié)作的功能。
PowerDesigner:PowerDesigner 是一款功能強(qiáng)大的數(shù)據(jù)建模和元數(shù)據(jù)管理工具。它支持各種建模技術(shù),包括實(shí)體關(guān)系、維度和面向?qū)ο蠼?。它還提供影響分析、數(shù)據(jù)沿襲和數(shù)據(jù)治理功能。
ERwin Data Modeler:ERwin Data Modeler 是一種廣泛使用的數(shù)據(jù)建模工具,支持邏輯和物理數(shù)據(jù)建模。它提供了一個(gè)用戶友好的界面,用于創(chuàng)建和管理數(shù)據(jù)模型、生成 DDL 腳本以及與其他數(shù)據(jù)管理工具集成。
Oracle SQL Developer Data Modeler:Oracle SQL Developer Data Modeler 是 Oracle 提供的免費(fèi)數(shù)據(jù)建模工具。它允許用戶使用圖形界面創(chuàng)建、修改和記錄數(shù)據(jù)模型。它還支持對現(xiàn)有數(shù)據(jù)庫進(jìn)行逆向工程和生成 DDL 腳本。
Visual Paradigm:Visual Paradigm 是一款全面的建模工具,支持各種建模技術(shù),包括數(shù)據(jù)建模。它提供創(chuàng)建實(shí)體關(guān)系圖、UML 圖和數(shù)據(jù)流圖的功能。它還支持與其他開發(fā)工具的協(xié)作和集成。
Sparx Systems Enterprise Architect:Enterprise Architect 是一款多功能建模工具,支持?jǐn)?shù)據(jù)建模以及其他建模學(xué)科。它提供創(chuàng)建和管理數(shù)據(jù)模型、生成 SQL 腳本以及與其他開發(fā)工具集成的功能。
九 、小結(jié)
數(shù)據(jù)建模是一個(gè)關(guān)鍵過程,可幫助組織了解和有效組織其數(shù)據(jù)。通過創(chuàng)建概念、邏輯和物理模型,數(shù)據(jù)建模使利益相關(guān)者能夠直觀地看到其數(shù)據(jù)中存在的結(jié)構(gòu)、關(guān)系和屬性。
這可以提高數(shù)據(jù)的整體質(zhì)量、正確的數(shù)據(jù)庫設(shè)計(jì)和明智的決策。通過利用可用的數(shù)據(jù)建模技術(shù)和工具,組織可以利用數(shù)據(jù)的力量,適應(yīng)不斷變化的業(yè)務(wù)需求,并在當(dāng)今數(shù)據(jù)驅(qū)動的世界中取得競爭優(yōu)勢,從而證明“數(shù)據(jù)是新石油”的說法。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。