在大模型時代,數(shù)據(jù)治理變得尤為重要。隨著大數(shù)據(jù)技術的不斷發(fā)展,數(shù)據(jù)規(guī)模呈爆炸式增長,數(shù)據(jù)來源也日趨多樣化。如何有效地管理和利用這些數(shù)據(jù),成為了企業(yè)和社會關注的焦點。本文將探討在大模型下如何進行數(shù)據(jù)治理。
一、什么是大模型?
大模型是指具有數(shù)千萬甚至數(shù)億參數(shù)的深度學習模型。近年來,隨著計算機技術和大數(shù)據(jù)的快速發(fā)展,深度學習在各個領域取得了顯著的成果,如自然語言處理,圖片生成,工業(yè)數(shù)字化等。為了提高模型的性能,研究者們不斷嘗試增加模型的參數(shù)數(shù)量,從而誕生了大模型這一概念。本文討論的大模型將以平時指向比較多的大語言模型為例來進行相關介紹。
大模型的原理是基于深度學習,它利用大量的數(shù)據(jù)和計算資源來訓練具有大量參數(shù)的神經網(wǎng)絡模型。通過不斷地調整模型參數(shù),使得模型能夠在各種任務中取得最佳表現(xiàn)。通常說的大模型的“大”的特點體現(xiàn)在:參數(shù)數(shù)量龐大、訓練數(shù)據(jù)量大、計算資源需求高等。很多先進的模型由于擁有很“大”的特點,使得模型參數(shù)越來越多,泛化性能越來越好,在各種專門的領域輸出結果也越來越準確。
一個基本架構,三種形式:
當前流行的大模型的網(wǎng)絡架構其實并沒有很多新的技術,還是一直沿用當前NLP領域最熱門最有效的架構——Transformer結構。相比于傳統(tǒng)的循環(huán)神經網(wǎng)絡(RNN)和長短時記憶網(wǎng)絡(LSTM),Transformer具有獨特的注意力機制(Attention),這相當于給模型加強理解力,對更重要的詞能給予更多關注,同時該機制具有更好的并行性和擴展性,能夠處理更長的序列,立馬成為NLP領域具有奠基性能力的模型,在各類文本相關的序列任務中取得不錯的效果。
根據(jù)這種網(wǎng)絡架構的變形,主流的框架可以分為Encoder-Decoder, Encoder-Only和Decoder-Only,其中:
1)Encoder-Only,僅包含編碼器部分,主要適用于不需要生成序列的任務,只需要對輸入進行編碼和處理的單向任務場景,如文本分類、情感分析等,這類代表是BERT相關的模型,例如BERT,RoBERT,ALBERT等
2)Encoder-Decoder,既包含編碼器也包含解碼器,通常用于序列到序列(Seq2Seq)任務,如機器翻譯、對話生成等,這類代表是以Google訓出來T5為代表相關大模型。
3)Decoder-Only,僅包含解碼器部分,通常用于序列生成任務,如文本生成、機器翻譯等。這類結構的模型適用于需要生成序列的任務,可以從輸入的編碼中生成相應的序列。同時還有一個重要特點是可以進行無監(jiān)督預訓練。在預訓練階段,模型通過大量的無標注數(shù)據(jù)學習語言的統(tǒng)計模式和語義信息。這種方法可以使得模型具備廣泛的語言知識和理解能力。在預訓練之后,模型可以進行有監(jiān)督微調,用于特定的下游任務(如機器翻譯、文本生成等)。這類結構的代表也就是我們平時非常熟悉的GPT模型的結構,所有該家族的網(wǎng)絡結構都是基于Decoder-Only的形式來逐步演化。
可以看到,很多NLP任務可能可以通過多種網(wǎng)絡結果來解決,這也主要是因為NLP領域的任務和數(shù)據(jù)的多樣性和復雜性,以及現(xiàn)代深度學習模型的靈活性和泛化能力,具體哪種結構有效,一般需要根據(jù)具體場景和數(shù)據(jù),通過實驗效果進行選擇。
二、大模型面臨的挑戰(zhàn)
大模型要發(fā)揮價值,需要構建從數(shù)據(jù)產生、數(shù)據(jù)整理、模型訓練、模型適配到實際部署的完整生態(tài)系統(tǒng)。大模型的應用也面臨著一些挑戰(zhàn)和限制。一方面,大模型的訓練和使用需要大量的計算資源和存儲資源,成本較高。另一方面,大模型的訓練需要大量的標注數(shù)據(jù),但標注數(shù)據(jù)的獲取和整理成本也較高。
此外,大模型的可解釋性和泛化能力也需要進一步研究和改進。如果不對大模型進行數(shù)據(jù)治理,可能會導致數(shù)據(jù)質量低下、數(shù)據(jù)難以利用、資源浪費、成本增加、數(shù)據(jù)安全和隱私泄露風險增加等一系列問題。因此,為了確保大模型的有效應用和可持續(xù)發(fā)展,必須進行數(shù)據(jù)治理。
三、數(shù)據(jù)
不同的利益相關者群體對數(shù)據(jù)治理的關注點不一樣,因此各自的視圖也不一樣。其中管理者視圖可以概括為“五域模型”,分別是“管控域”、“過程域”、“治理域”、“技術域”、“價值域”。
管理者視角-數(shù)據(jù)治理五域模型
管控域:在數(shù)據(jù)治理戰(zhàn)略指導下制訂企業(yè)數(shù)據(jù)治理組織,明確組織的責、權、利,崗位編制及技能要求。
治理域:是數(shù)據(jù)治理的主體,明確數(shù)據(jù)治理的對象和目標。
技術域:數(shù)據(jù)治理的支撐手段,指的工具平臺。
過程域:是數(shù)據(jù)治理的方法論。
價值域:通過對數(shù)據(jù)資產的管控挖掘數(shù)據(jù)資產的價值,并通過數(shù)據(jù)的流動、共享、交易變現(xiàn)數(shù)據(jù)資產。
技術視角:企業(yè)大數(shù)據(jù)治理實踐指南框架
數(shù)據(jù)治理體系,包括數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理管控體系(數(shù)據(jù)治理組織、制度、流程、管控機制、績效體系及標準體系)、數(shù)據(jù)架構、主數(shù)據(jù)、元數(shù)據(jù)、指標數(shù)據(jù)、時序數(shù)據(jù)、數(shù)據(jù)質量、數(shù)據(jù)安全、數(shù)據(jù)集成與交換、數(shù)據(jù)開放和共享、數(shù)據(jù)資產管理能力成熟度評估以及數(shù)據(jù)價值、數(shù)據(jù)共享、數(shù)據(jù)變現(xiàn)等多方面。
數(shù)據(jù)治理車輪圖
從數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)管控(組織管理、制度體系、流程管理及績效)、三個核心體系(數(shù)據(jù)標準體系、數(shù)據(jù)質量體系、數(shù)據(jù)安全體系)和工具等分別進行介紹數(shù)據(jù)治理體系。
企業(yè)數(shù)據(jù)管控和三個核心體系
四、AI大模型在數(shù)據(jù)治理中的應用
目前,企業(yè)的數(shù)據(jù)治理工作以人工實施為主,其中一些重復性較強的工作,如:數(shù)據(jù)標準制定和映射、元數(shù)據(jù)信息完善、數(shù)據(jù)目錄掛載等,需要消耗大量的人力和時間成本,這給本來就難以量化業(yè)務價值的治理工作的順利推進帶來了更多的困難。AI大模型的引入,可以有效地解決這一難題。相比傳統(tǒng)的人工為主的數(shù)據(jù)治理,基于AI大模型的數(shù)據(jù)治理具有以下優(yōu)勢:
自動化:AI大模型可以通過學習和分析數(shù)據(jù)治理各項工作的特征和規(guī)則,自動化批量進行大規(guī)模數(shù)據(jù)的數(shù)據(jù)標準、元數(shù)據(jù)、數(shù)據(jù)質量管理、數(shù)據(jù)安全管理等數(shù)據(jù)治理任務,減少了人工處理的工作量,提升治理工作效率。
實時性:AI大模型可以實時監(jiān)控和分析數(shù)據(jù)的變化,并及時進行預警或直接處理,提升數(shù)據(jù)治理的響應速度。
擴展性:AI大模型可以通過學習和迭代,持續(xù)提升自己的能力,以適應高度變化的業(yè)務和技術環(huán)境對數(shù)據(jù)治理的需求。
基于上述考量,在數(shù)據(jù)治理領域,基于AI大模型的能力,可以從如下主要場景實現(xiàn)從人工治理到智能治理的進化。
(一)數(shù)據(jù)標準管理
無論是以人工為主的數(shù)據(jù)標準管理,還是基于AI大模型的智能化數(shù)據(jù)標準管理,首先都需要我們對企業(yè)的數(shù)據(jù)標準現(xiàn)狀進行詳盡的調研工作。調研的內容包括:企業(yè)當前的數(shù)據(jù)業(yè)務含義、數(shù)據(jù)標準分類、數(shù)據(jù)標準內容,業(yè)務和技術團隊對當前數(shù)據(jù)標準的改進需求(以下簡稱“改進需求”),相關的國際標準、國家標準、地方標準和行業(yè)標準(以下統(tǒng)一簡稱為“外部標準”)等。
在此基礎之上,利用AI大模型,可以從以下幾個方面提升數(shù)據(jù)標準管理的智能化程度:
1.標準智能制定
基于企業(yè)現(xiàn)有標準、改進需求和外部標準,自動制定適合企業(yè)的數(shù)據(jù)標準。和人工制定的標準一樣,自動制定的標準,也需要經過企業(yè)的業(yè)務和技術專家的審定后,才能正式發(fā)布使用。
2.標準智能落標
前向落標:按企業(yè)的數(shù)據(jù)標準實施策略,逐步賦能周邊系統(tǒng),在建表時,自動為字段推薦/匹配合適的數(shù)據(jù)標準。
后向落標:按企業(yè)的數(shù)據(jù)標準實施策略,逐步治理存量數(shù)據(jù),批量自動化為其推薦/匹配合適的數(shù)據(jù)標準。
3.標準智能維護
隨著業(yè)務需求和環(huán)境的變化,數(shù)據(jù)標準需要不斷更新和維護。我們可以通過AI大模型,自動監(jiān)測和分析業(yè)務數(shù)據(jù)的變化,提供標準的新增、變更、下線建議,幫助企業(yè)及時進行數(shù)據(jù)標準維護。
(二)元數(shù)據(jù)管理
Gartner在其“數(shù)據(jù)編織”的架構中提出了Metadata Activation(國內一般翻譯為“主動元數(shù)據(jù)”或“元數(shù)據(jù)激活”)的概念,隨后又在其“元數(shù)據(jù)管理成熟度”中(見圖3-2)對主動元數(shù)據(jù)進行了解釋,概括來說就是:主動元數(shù)據(jù)指的是一種數(shù)據(jù)管理方式,即,發(fā)現(xiàn)、獲取盡可能多的元數(shù)據(jù),并以豐富的元數(shù)據(jù)為基礎,利用各種AI技術手段(ML、NGL、知識圖譜等),主動改進數(shù)據(jù)管理的工具和活動,提升數(shù)據(jù)管理的效率,降低管理成本。
圖3:Gartner數(shù)據(jù)編織架構
圖4:Gartner元數(shù)據(jù)管理技術成熟度
Gartner在提出數(shù)據(jù)編織概念時,AI大模型還沒出圈,但我們可以想象,如果Gartner更新其對數(shù)據(jù)編織的闡述,肯定會毫不猶豫地把AI大模型加入其架構中。
在元數(shù)據(jù)管理中,利用AI大模型,可以從以下幾個方面提升智能化程度:
1.元數(shù)據(jù)智能挖掘
企業(yè)在做元數(shù)據(jù)采集時,由于源系統(tǒng)設計和管理的不規(guī)范,大多數(shù)情況下只能采集到最基礎的技術元數(shù)據(jù)信息(如:數(shù)據(jù)庫、Schema、表名、字段名等),需要花費大量人力和時間完善其他的核心元數(shù)據(jù)信息(如:表的中文名、業(yè)務口徑、描述、標簽,字段的中文名、描述、取值說明、敏感等級等)。通過AI大模型的推理能力,可以基于最基礎的技術元數(shù)據(jù)信息和業(yè)務樣例數(shù)據(jù),自動填充其他的核心元數(shù)據(jù)信息。
2.數(shù)據(jù)血緣智能挖掘
業(yè)務和技術的發(fā)展,以及隨之而來的日益復雜的加工邏輯、多源異構的數(shù)據(jù)庫和多種類型的加工腳本,這些都給數(shù)據(jù)血緣解析(尤其是字段級血緣解析)帶來了極大的挑戰(zhàn)。通過AI大模型的代碼解讀能力,可以提升復雜代碼、異構數(shù)據(jù)庫和多類型的加工腳本場景下,血緣解析的成功率和準確率。再進一步,如果能利用AI大治理模型總結并生成表級和字段級的業(yè)務口徑或者數(shù)據(jù)處理邏輯,將極大地提升人們理解數(shù)據(jù)、數(shù)據(jù)溯源和數(shù)據(jù)影響分析的效率。
3.數(shù)據(jù)智能分類
基于數(shù)據(jù)對象的元數(shù)據(jù)、業(yè)務樣例數(shù)據(jù),自動推薦數(shù)據(jù)對象所屬的數(shù)據(jù)分類或掛載的數(shù)據(jù)目錄。
4.數(shù)據(jù)推薦
基于企業(yè)中數(shù)據(jù)使用者的個人信息(部門、崗位、參與的業(yè)務等)、在大數(shù)據(jù)體系平臺(數(shù)據(jù)開發(fā)平臺、數(shù)據(jù)治理平臺、BI報表平臺等)中的操作行為(搜索、查看、收藏、訂閱等)和數(shù)據(jù)對象的元數(shù)據(jù)、業(yè)務樣例數(shù)據(jù),向數(shù)據(jù)使用者推薦他們需要的數(shù)據(jù)對象。
(三)數(shù)據(jù)質量管理
在數(shù)據(jù)質量管理中,利用AI大模型,可以從以下幾個方面提升管理的智能化程度:
1.質量規(guī)則推薦
基于數(shù)據(jù)對象的元數(shù)據(jù)和業(yè)務樣例數(shù)據(jù),自動為數(shù)據(jù)對象推薦/匹配表級和字段級的數(shù)據(jù)質量規(guī)則。
2.質量閾值推薦
通過持續(xù)分析歷史的質量校驗結果數(shù)據(jù),向用戶提供建議的質量異常閾值,并能持續(xù)調整建議的結果。
3.質量異常自動定位
基于數(shù)據(jù)血緣鏈路和數(shù)據(jù)質量校驗結果,自動定位數(shù)據(jù)質量異常的源頭。
4.質量異常智能修復
針對部分數(shù)據(jù)質量異常(如重復數(shù)據(jù)、缺失數(shù)據(jù)、不一致數(shù)據(jù)等),基于數(shù)據(jù)對象的元數(shù)據(jù)和質量正常的業(yè)務樣例數(shù)據(jù),自動修復數(shù)據(jù)中的異常。
(四)數(shù)據(jù)安全管理
在數(shù)據(jù)安全管理中,利用AI大模型,可以從以下幾個方面提升管理的智能化程度:
1.敏感數(shù)據(jù)智能識別
基于數(shù)據(jù)對象的元數(shù)據(jù)、業(yè)務樣例數(shù)據(jù)和企業(yè)的數(shù)據(jù)分級策略,自動識別數(shù)據(jù)對象的敏感等級。
2.脫敏/加密規(guī)則推薦
基于數(shù)據(jù)對象的元數(shù)據(jù)、業(yè)務樣例數(shù)據(jù)、敏感等級和企業(yè)的數(shù)據(jù)安全策略,自動為數(shù)據(jù)對象推薦/匹配脫敏或加密規(guī)則。
3.數(shù)據(jù)風險智能識別
基于數(shù)據(jù)對象的元數(shù)據(jù)、血緣、敏感等級,企業(yè)的數(shù)據(jù)安全策略和已有的數(shù)據(jù)權限策略,自動識別數(shù)據(jù)風險并提供異常處理策略,應用場景主要包括:
五、大模型下數(shù)據(jù)治理的未來展望
隨著大模型的不斷發(fā)展,數(shù)據(jù)治理將面臨更多的挑戰(zhàn)和機遇。未來,數(shù)據(jù)治理將更加注重智能化技術的應用。利用人工智能和機器學習技術對數(shù)據(jù)進行自動化的分類、標簽化和質量檢測等操作,提高數(shù)據(jù)治理的效率和準確性。同時,隨著區(qū)塊鏈技術的不斷發(fā)展,數(shù)據(jù)安全和隱私保護將更加得到重視。區(qū)塊鏈的去中心化特性和加密技術可以為數(shù)據(jù)提供更加安全可靠的存儲和傳輸方式。此外,隨著邊緣計算的不斷發(fā)展,數(shù)據(jù)的處理和分析將更加接近數(shù)據(jù)源本身,進一步加速數(shù)據(jù)處理速度和提高實時性。
總結
大模型下的數(shù)據(jù)治理是一項復雜而重要的任務。通過建立完善的數(shù)據(jù)質量管理體系、數(shù)據(jù)安全與隱私保護體系、數(shù)據(jù)流程管理體系和數(shù)據(jù)生命周期管理體系等策略,可以有效地實現(xiàn)數(shù)據(jù)的合規(guī)、安全和高效利用。同時,需要不斷優(yōu)化和完善數(shù)據(jù)治理體系,以適應不斷變化的大模型技術和業(yè)務需求。只有這樣,才能更好地發(fā)揮大模型的優(yōu)勢,推動各行業(yè)的快速發(fā)展和創(chuàng)新進步。
附:大模型賦能數(shù)據(jù)治理
大模型與數(shù)據(jù)治理的關系: 數(shù)據(jù)治理提升數(shù)據(jù)質量,大模型分析計算能力豐富數(shù)據(jù)治理手段。
賦能體系建設:
知識庫建設: 建設數(shù)據(jù)治理知識庫和業(yè)務知識庫。
交互能力庫建設: 構建提示詞,便于用戶快速訪問、快速交互。
賦能途徑:
提質: 提升數(shù)據(jù)治理對業(yè)務的服務質量,加強業(yè)務參與感。
降本: 降低數(shù)據(jù)治理實施成本,主要包含時間成本、業(yè)務損失成本等。
增效: 豐富數(shù)據(jù)治理手段,提升數(shù)據(jù)治理效率。
提質:
術語體系建設: 建設符合業(yè)務場景的術語體系,使數(shù)據(jù)部門與業(yè)務部門“有的聊”。
應用建設: 利用大模型輔助分析應用場景建設成果,使應用場景建設更加合理。
數(shù)據(jù)質量問題定位: 建設全面的數(shù)據(jù)質量報告,借助大模型的理解能力快速定位數(shù)據(jù)質量問題。
降本增效:
數(shù)據(jù)質量規(guī)則設計: 利用大模型快速生成數(shù)據(jù)質量稽核規(guī)則。
提升業(yè)務理解: 利用大模型作為業(yè)務專家為數(shù)據(jù)團隊進行業(yè)務賦能。
標準體系建設: 基于業(yè)務建設需求,快速生成與業(yè)務需求相匹配的初步數(shù)據(jù)標準。
元數(shù)據(jù)管理: 利用大模型對元數(shù)據(jù)變更進行評估,生成數(shù)據(jù)任務流程和數(shù)據(jù)加工邏輯。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。