在當(dāng)今時(shí)代,IT組織正在努力應(yīng)對(duì)數(shù)據(jù)復(fù)雜性和規(guī)模呈指數(shù)級(jí)增長的問題,其特點(diǎn)是三個(gè)V:數(shù)量、速度和多樣性。市場(chǎng)的快速而持續(xù)的變化使這一挑戰(zhàn)變得更加復(fù)雜,需要靈活地適應(yīng)不斷變化的業(yè)務(wù)目標(biāo)?,F(xiàn)在,比以往任何時(shí)候都更需要數(shù)據(jù)驅(qū)動(dòng)的決策。高質(zhì)量和及時(shí)的見解不僅僅是奢侈品,而且是明智的決策和行動(dòng)的必需品。
為了滿足這一迫切需求,數(shù)據(jù)管理者需要加速提供卓越的分析。這需要在不影響質(zhì)量的情況下最大限度地縮短數(shù)據(jù)產(chǎn)品的上市時(shí)間。我們需要堅(jiān)實(shí)的技術(shù)基礎(chǔ)來依靠它來大規(guī)模實(shí)現(xiàn)這一目標(biāo)。
一什么是數(shù)據(jù)平臺(tái)
在一次對(duì)某化工企業(yè)參觀期間,我對(duì)其效率和自動(dòng)化感到震驚。盡管每天生產(chǎn)超過萬噸的產(chǎn)品,但工廠車間的人員卻出人意料地稀少。其運(yùn)營效率的關(guān)鍵不在于孤立的自動(dòng)化,而在于每個(gè)組件相互補(bǔ)充的互連系統(tǒng)。
這種整體方法在各個(gè)行業(yè)中引起共鳴,每個(gè)行業(yè)都有其獨(dú)特的要求,但共享與領(lǐng)域無關(guān)的基礎(chǔ)服務(wù)——工業(yè)控制系統(tǒng)、庫存和倉庫管理、人力資源和法律服務(wù)等等。例如,擴(kuò)大工廠的規(guī)模不僅僅是購買更大的制造設(shè)備。它涉及同步各種流程——包裝、分銷和工藝——以消除瓶頸。
同樣,在數(shù)據(jù)管理領(lǐng)域,僅僅添加新的數(shù)據(jù)庫或ETL工具并不是靈丹妙藥。我們需要的是一個(gè)數(shù)據(jù)平臺(tái)——一個(gè)與領(lǐng)域無關(guān)的服務(wù)的集成良好的集合,用于處理數(shù)據(jù)攝取、集成、轉(zhuǎn)換、管理和數(shù)據(jù)交付。該平臺(tái)專為模塊化、靈活性和成本效益而設(shè)計(jì)。其主要功能是支持高級(jí)分析,與事務(wù)系統(tǒng)不同。該平臺(tái)標(biāo)志著從單一或孤立架構(gòu)到聯(lián)合分布式系統(tǒng)的范式轉(zhuǎn)變。
雖然Databricks等多家供應(yīng)商聲稱提供全面的解決方案,但這些平臺(tái)往往無法滿足所有實(shí)際需求。使這些預(yù)構(gòu)建的系統(tǒng)適應(yīng)特定業(yè)務(wù)流程的復(fù)雜性可能很復(fù)雜,并且某些服務(wù)的質(zhì)量可能不一致。
例如,我們來看看Databricks平臺(tái)。雖然核心Spark運(yùn)行時(shí)和Delta表是最先進(jìn)的,但平臺(tái)的其余部分卻不是。由于其多云最小公分母設(shè)計(jì),Databricks面臨著與本機(jī)服務(wù)集成的挑戰(zhàn),例如監(jiān)控和編排。安全模型非常不一致,難以實(shí)施和支持。此外,它的數(shù)據(jù)目錄功能并不總是與Collibra或Alation等專業(yè)解決方案相提并論。
鑒于數(shù)據(jù)類型的多樣性和業(yè)務(wù)特定需求,構(gòu)建一刀切的數(shù)據(jù)平臺(tái)不僅具有挑戰(zhàn)性,而且成本高昂。相反,數(shù)據(jù)平臺(tái)應(yīng)被視為概念藍(lán)圖,通過基于云的組件或本地服務(wù)來實(shí)現(xiàn)。
無論部署模型如何,每個(gè)數(shù)據(jù)平臺(tái)都包含五個(gè)關(guān)鍵的松散耦合模塊:數(shù)據(jù)攝取、存儲(chǔ)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)服務(wù)和通用補(bǔ)充服務(wù)。這些模塊依賴于提供網(wǎng)絡(luò)和計(jì)算等基本功能的基礎(chǔ)設(shè)施。
二數(shù)據(jù)存儲(chǔ):數(shù)據(jù)平臺(tái)的基石
任何數(shù)據(jù)平臺(tái)架構(gòu)中不可或缺的部分是其存儲(chǔ)子系統(tǒng),其任務(wù)是以批處理或流傳輸模式保護(hù)數(shù)據(jù)以實(shí)現(xiàn)長期可訪問性。該層通常是多層的,可滿足不同的性價(jià)比要求:
低延遲存儲(chǔ):專為“熱”數(shù)據(jù)和緩存存儲(chǔ)而設(shè)計(jì),該層優(yōu)先考慮速度,但對(duì)于較大的數(shù)據(jù)量可能成本過高。
對(duì)象或文件存儲(chǔ):該層適合經(jīng)濟(jì)地存儲(chǔ)大量數(shù)據(jù)并提供高吞吐量,但可能會(huì)產(chǎn)生延遲權(quán)衡。
檔案存儲(chǔ):該層針對(duì)成本進(jìn)行了優(yōu)化,旨在長期保留大量數(shù)據(jù)。
一個(gè)有效的存儲(chǔ)層應(yīng)該體現(xiàn)以下屬性:
可靠性:承受故障至關(guān)重要。根據(jù)恢復(fù)點(diǎn)目標(biāo)(RPO)和恢復(fù)時(shí)間目標(biāo)(RTO)考慮因素,系統(tǒng)可能需要跨多個(gè)位置的冗余和自動(dòng)數(shù)據(jù)復(fù)制。
可擴(kuò)展性和成本效益:容量規(guī)劃和存儲(chǔ)采購方面的早期挑戰(zhàn)已將重點(diǎn)轉(zhuǎn)向彈性且經(jīng)濟(jì)的存儲(chǔ)解決方案。
性能:以高吞吐量或低延遲提供數(shù)據(jù),特別是在大量負(fù)載下,是不可協(xié)商的要求。
安全性:應(yīng)嚴(yán)格執(zhí)行授權(quán)訪問,通常需要靜態(tài)透明加密。
集成和可觀察性:與通用服務(wù)的兼容性以及強(qiáng)大的可觀察性和審計(jì)功能至關(guān)重要。
對(duì)于本地環(huán)境,可以使用多種途徑:
混合基礎(chǔ)設(shè)施:可以利用AzureStack或AWSOutposts等解決方案。
基于對(duì)象的存儲(chǔ):將商用硬件與MinIO或Ceph架構(gòu)結(jié)合使用可以產(chǎn)生可擴(kuò)展的存儲(chǔ)。
基于Hadoop的數(shù)據(jù)湖:Hadoop集群可以成為強(qiáng)大的數(shù)據(jù)湖基礎(chǔ)。
供應(yīng)商特定的解決方案:供應(yīng)商提供專為大規(guī)模數(shù)據(jù)管理量身定制的專業(yè)存儲(chǔ)解決方案。
三數(shù)據(jù)攝?。簲?shù)據(jù)平臺(tái)的網(wǎng)關(guān)
數(shù)據(jù)攝取層作為平臺(tái)的網(wǎng)關(guān)發(fā)揮著關(guān)鍵作用,從一系列外部源攝取數(shù)據(jù)并安全地保存數(shù)據(jù)以供長期使用。為了保持?jǐn)?shù)據(jù)完整性,應(yīng)以盡可能接近其原始狀態(tài)的形式捕獲信息。
數(shù)據(jù)源有兩種:
批量數(shù)據(jù):源自結(jié)構(gòu)化來源,例如外部供應(yīng)商或內(nèi)部交易系統(tǒng)??梢酝ㄟ^將數(shù)據(jù)從預(yù)定義位置(例如FTP服務(wù)器)移動(dòng)到存儲(chǔ)子系統(tǒng)或直接連接到外部系統(tǒng)來加載和保存數(shù)據(jù)來攝取數(shù)據(jù)。攝取過程可以是預(yù)定的,也可以是事件觸發(fā)的。
流數(shù)據(jù):作為事件或數(shù)據(jù)點(diǎn)的連續(xù)源到達(dá),通常在物聯(lián)網(wǎng)(IoT)場(chǎng)景或變更數(shù)據(jù)捕獲(CDC)事件中。數(shù)據(jù)可以存儲(chǔ)為流、文件,或者在CDC的情況下,存儲(chǔ)在內(nèi)部數(shù)據(jù)庫中的復(fù)制事務(wù)。
除了基本的數(shù)據(jù)傳輸之外,攝取組件還應(yīng)該提供:
元數(shù)據(jù)收集:創(chuàng)建并注冊(cè)詳細(xì)的元數(shù)據(jù),包括有關(guān)數(shù)據(jù)的信息(源、格式、維度、大小、快照版本)和提取過程(版本、請(qǐng)求參數(shù)、開始和結(jié)束時(shí)間戳、連接詳細(xì)信息)。
流程可觀察性:記錄流程狀態(tài)、數(shù)據(jù)吞吐量和延遲等基本指標(biāo),以實(shí)現(xiàn)全面監(jiān)控。
監(jiān)控和警報(bào):持續(xù)監(jiān)督活動(dòng)數(shù)據(jù)攝取流程,以識(shí)別故障、連接問題和性能偏差,并在需要時(shí)觸發(fā)警報(bào)。
通知下游系統(tǒng):當(dāng)新數(shù)據(jù)可用時(shí)通知后續(xù)流程。
有多種工具可用于構(gòu)建強(qiáng)大的數(shù)據(jù)攝取框架:
傳統(tǒng)ETL工具:Informatica、Pentaho和Matillion等既定解決方案仍然具有相關(guān)性。
特定于云平臺(tái)的服務(wù):AWS數(shù)據(jù)遷移服務(wù)或Azure數(shù)據(jù)工廠等產(chǎn)品。
流媒體服務(wù):Kafka受到普遍支持,而GCPPub/Sub或AWSKinesis等云原生解決方案也提供了強(qiáng)大的選項(xiàng)。
自定義解決方案:使用Kubernetes等容器編排平臺(tái)或AWSLambda等無服務(wù)器函數(shù)部署自定義代碼。
無論選擇哪種工具,都必須有一個(gè)統(tǒng)一的實(shí)施藍(lán)圖來強(qiáng)制執(zhí)行商定的模式,例如內(nèi)置元數(shù)據(jù)管理。
四數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)平臺(tái)的認(rèn)知引擎
如果存儲(chǔ)是數(shù)據(jù)平臺(tái)的核心,那么數(shù)據(jù)轉(zhuǎn)換層無疑是其智能中心。在這里,原始數(shù)據(jù)經(jīng)過業(yè)務(wù)邏輯的轉(zhuǎn)換、塑造和提煉,成為可供使用的數(shù)據(jù)產(chǎn)品。無論是處理批處理、臨時(shí)轉(zhuǎn)換還是近實(shí)時(shí)數(shù)據(jù)流,這一層都至關(guān)重要。
一個(gè)成熟的數(shù)據(jù)轉(zhuǎn)換組件應(yīng)具備以下品質(zhì):
彈性可擴(kuò)展性:能夠處理從小到大的數(shù)據(jù)量。
數(shù)據(jù)類型多功能性:精通批處理和流數(shù)據(jù)處理。
迭代轉(zhuǎn)換支持:對(duì)于機(jī)器學(xué)習(xí)(ML)模型訓(xùn)練至關(guān)重要。
編排和執(zhí)行:利用通用服務(wù)進(jìn)行流程編排以及計(jì)劃和事件觸發(fā)的執(zhí)行。
可觀察性和指標(biāo):確保系統(tǒng)透明度并提供一致的元數(shù)據(jù)、性能指標(biāo)和關(guān)鍵績效指標(biāo)(KPI)
數(shù)據(jù)轉(zhuǎn)換管道可以通過多種工具執(zhí)行,每種工具都有自己的一套權(quán)衡:
圖形ETL工具:Informatica、DataStage和AzureADF等解決方案提供用于構(gòu)建數(shù)據(jù)管道的圖形界面。然而,它們通常無法滿足復(fù)雜的數(shù)據(jù)處理需求和自定義代碼要求,并阻礙標(biāo)準(zhǔn)CI/CD流程。利用大數(shù)據(jù)技術(shù)的SaaS平臺(tái)旨在解決這些問題,但并不總是成功。
MPP數(shù)據(jù)庫:Redshift、BigQuery和Snowflake等平臺(tái)可以充當(dāng)執(zhí)行引擎,其中自定義ELT腳本可以在Kubernetes等容器化環(huán)境中運(yùn)行或作為無服務(wù)器函數(shù)運(yùn)行。
基于Spark的系統(tǒng):Databricks和AWSGlue等選項(xiàng)為數(shù)據(jù)轉(zhuǎn)換提供了一個(gè)強(qiáng)大的基于Spark的環(huán)境。
機(jī)器學(xué)習(xí)管道:對(duì)于ML模型的結(jié)果,可以使用Spark、TensorFlow和Kubernetes等技術(shù)構(gòu)建復(fù)雜的管道。
流數(shù)據(jù)服務(wù):Kafka流、Spark結(jié)構(gòu)化流等解決方案或GCPDataflow等云原生服務(wù)在實(shí)時(shí)數(shù)據(jù)處理方面表現(xiàn)出色。
五數(shù)據(jù)服務(wù):數(shù)據(jù)平臺(tái)的交付部門
數(shù)據(jù)服務(wù)組件是數(shù)據(jù)產(chǎn)品生命周期的最后階段,有助于將數(shù)據(jù)產(chǎn)品安全高效地交付給內(nèi)部或外部消費(fèi)者。該組件應(yīng)該是多功能的,可以滿足不同的業(yè)務(wù)需求,適應(yīng)不同的數(shù)據(jù)格式、容量和訪問模式。具體來說,應(yīng)該是:
安全:確保只有授權(quán)用戶才能訪問。
可觀察:記錄和審核所有合規(guī)和監(jiān)控請(qǐng)求。
可擴(kuò)展且可靠:即使需求波動(dòng),也能保持指定的服務(wù)質(zhì)量。
可重現(xiàn):支持時(shí)間點(diǎn)查詢和/或在數(shù)據(jù)更改時(shí)提供對(duì)不可變數(shù)據(jù)快照的訪問。
數(shù)據(jù)產(chǎn)品可以以多種形式具體化:
文件:
標(biāo)準(zhǔn)格式(例如CSV、JSON、Excel、Parquet或XML)的結(jié)構(gòu)化數(shù)據(jù)文件。
BI工具的專用文件,例如Tableau斷開連接的數(shù)據(jù)集。
非結(jié)構(gòu)化或半結(jié)構(gòu)化文檔,例如Excel、Word或PDF報(bào)告。
二進(jìn)制文件,例如圖像、音頻或視頻。
采用ONNX等開放交換格式的ML模型。
相關(guān)數(shù)據(jù):
關(guān)系數(shù)據(jù)庫,如PostgreSQL、MySQL或Oracle,用于低延遲、高選擇性查詢。
Redshift、Snowflake或Teradata等企業(yè)數(shù)據(jù)倉庫平臺(tái)內(nèi)的數(shù)據(jù)集市支持BI工具和OLAP查詢。
基于數(shù)據(jù)湖的平臺(tái),如Databricks、Athena或Starburst,用于高級(jí)分析和機(jī)器學(xué)習(xí)。
專業(yè)產(chǎn)品:
用于連接數(shù)據(jù)和知識(shí)圖的圖數(shù)據(jù)庫
時(shí)間序列數(shù)據(jù)庫
支持地理空間數(shù)據(jù)、化學(xué)信息學(xué)、生物信息學(xué)和組學(xué)數(shù)據(jù)的專業(yè)數(shù)據(jù)庫
全文搜索索引和文檔存儲(chǔ)庫
適用于半結(jié)構(gòu)化數(shù)據(jù)的NoSQL數(shù)據(jù)庫,例如DynamoDB、CosmosDB或Cassandra
流媒體和通知:
高吞吐量消息代理,例如Kafka、GCPPubSub、AWSKinesis、AzureEventHub
面向消息的中間件或企業(yè)服務(wù)總線。
數(shù)據(jù)產(chǎn)品通??梢酝ㄟ^以下兩種方式之一訪問:
直接訪問:通過特定于服務(wù)的API,例如ODBC、JDBC、sFTP、SMTP或S3。這些最常被內(nèi)部或值得信賴的消費(fèi)者使用。
產(chǎn)品特定的API:通過REST、gRPC或GraphQL等現(xiàn)代協(xié)議。這些可以使用API網(wǎng)關(guān)和無服務(wù)器或容器化功能來實(shí)現(xiàn)。
六通用補(bǔ)充服務(wù):將數(shù)據(jù)平臺(tái)縫合在一起
雖然這些服務(wù)并不處于數(shù)據(jù)轉(zhuǎn)換和獲取的最前沿,但它們充當(dāng)將數(shù)據(jù)平臺(tái)集成為一個(gè)整體的有凝聚力的結(jié)構(gòu)。
開發(fā)支持
開發(fā)框架:提供可重用的組件和指南,提供常見的功能,確保與平臺(tái)服務(wù)的順利集成。為DevOps管道提供標(biāo)準(zhǔn)模板。減少樣板代碼,促進(jìn)新團(tuán)隊(duì)成員的入職,并簡化數(shù)據(jù)攝取和轉(zhuǎn)換管道的開發(fā)。
技術(shù)元數(shù)據(jù)收集:用于收集和分析數(shù)據(jù)平臺(tái)組件狀態(tài)的一致方法,例如數(shù)據(jù)管道的執(zhí)行狀態(tài)和版本、數(shù)據(jù)對(duì)象、可用性、系統(tǒng)參數(shù)等。啟用不同部分之間的依賴關(guān)系跟蹤例如,用于觸發(fā)數(shù)據(jù)重新處理。
性能指標(biāo):監(jiān)控平臺(tái)的健康指標(biāo),例如CPU使用率、網(wǎng)絡(luò)活動(dòng)和系統(tǒng)故障。這有利于事后分析和性能優(yōu)化。
ML訓(xùn)練:建立統(tǒng)一的方法或模型訓(xùn)練和質(zhì)量指標(biāo)收集。
事件處理和通知:為異步、事件驅(qū)動(dòng)的數(shù)據(jù)處理奠定基礎(chǔ)。實(shí)現(xiàn)平臺(tái)環(huán)境可觀察性、復(fù)雜事件處理、基于事件的調(diào)度以及通知消息的系統(tǒng)范圍分發(fā)。
探索環(huán)境:為數(shù)據(jù)專業(yè)人員提供直觀的自助服務(wù)工作區(qū),用于處理數(shù)據(jù)發(fā)現(xiàn)和分析、產(chǎn)品原型設(shè)計(jì)和機(jī)器學(xué)習(xí)模型開發(fā)。
日志記錄:用于內(nèi)部流程日志記錄和分析的內(nèi)聚框架,支持主動(dòng)系統(tǒng)監(jiān)控和警報(bào)生成。
DevOps:CI/CD、可編寫腳本的基礎(chǔ)設(shè)施和自助服務(wù)配置的統(tǒng)一方法。
治理
數(shù)據(jù)目錄:集中技術(shù)和業(yè)務(wù)元數(shù)據(jù),提供有關(guān)數(shù)據(jù)格式、質(zhì)量、沿襲、所有權(quán)、數(shù)據(jù)產(chǎn)品SLA和SLO、數(shù)據(jù)質(zhì)量屬性、常見統(tǒng)計(jì)數(shù)據(jù)、數(shù)據(jù)分類、保留和歸檔要求等的廣泛詳細(xì)信息。促進(jìn)數(shù)據(jù)產(chǎn)品發(fā)現(xiàn)和采樣。
數(shù)據(jù)保護(hù):與身份和訪問管理集成,防止未經(jīng)授權(quán)的數(shù)據(jù)訪問。監(jiān)督安全策略、加密技術(shù)和標(biāo)記。
數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理:用于數(shù)據(jù)分析、保留、合規(guī)性和質(zhì)量相關(guān)警報(bào)的綜合框架。
主數(shù)據(jù)和參考數(shù)據(jù)管理:確??缬驍?shù)據(jù)標(biāo)準(zhǔn)化和協(xié)調(diào)。監(jiān)督企業(yè)范圍的參考數(shù)據(jù)。
本體和知識(shí)圖:建立標(biāo)準(zhǔn)化的組織業(yè)務(wù)術(shù)語,闡明各種概念和實(shí)體之間錯(cuò)綜復(fù)雜的關(guān)系。集成推理引擎,促進(jìn)高級(jí)數(shù)據(jù)檢索并跨域連接數(shù)據(jù)。促進(jìn)屬性的聲明性驗(yàn)證、上下文和概念的映射以及策略規(guī)則的簡化解析。
運(yùn)營
流程編排:促進(jìn)復(fù)雜的管道調(diào)度、工作流程設(shè)計(jì)、故障管理和重試機(jī)制。
審計(jì)和監(jiān)控:用于平臺(tái)健康檢查、合規(guī)性審計(jì)、日志分析、警報(bào)生成、合規(guī)性訪問審計(jì)、事后日志分析和活動(dòng)跟蹤的統(tǒng)一系統(tǒng)。
DataOps:簡化數(shù)據(jù)生命周期,包括備份和數(shù)據(jù)歸檔、異常檢測(cè)和數(shù)據(jù)流監(jiān)控
MLOps:自動(dòng)化ML模型生命周期,強(qiáng)調(diào)性能監(jiān)控、數(shù)據(jù)和概念漂移檢測(cè)。
七數(shù)據(jù)平臺(tái)的演變:應(yīng)對(duì)增長和復(fù)雜性
數(shù)據(jù)平臺(tái)是大規(guī)模構(gòu)建數(shù)據(jù)產(chǎn)品的強(qiáng)大工具。然而,創(chuàng)建最先進(jìn)平臺(tái)的旅程并不需要立即使用最先進(jìn)的工具和系統(tǒng)。與此類似,人們不需要一輛高性能跑車來日常購物。擁抱增量增長戰(zhàn)略,同時(shí)始終牢記最終目標(biāo),可能是構(gòu)建強(qiáng)大而高效的平臺(tái)的關(guān)鍵。
確定要實(shí)施的初始服務(wù)取決于您組織的當(dāng)前優(yōu)先事項(xiàng)。例如,在金融服務(wù)和制藥等監(jiān)管合規(guī)性至關(guān)重要的行業(yè),主要重點(diǎn)可能是加強(qiáng)數(shù)據(jù)治理服務(wù)。然而,對(duì)于其他企業(yè)來說,這可能不是一個(gè)緊迫的問題。挑戰(zhàn)在于辨別路線圖、查明具有重大潛在影響的領(lǐng)域,并根據(jù)投資回報(bào)(ROI)不斷調(diào)整決策。由于組織目標(biāo)會(huì)隨著時(shí)間的推移而發(fā)生變化,因此將平臺(tái)開發(fā)錨定在普遍認(rèn)可的基本原則(例如漸進(jìn)式架構(gòu)和關(guān)注點(diǎn)分離)中變得至關(guān)重要。
同樣重要的是平臺(tái)發(fā)展中的人性化因素。監(jiān)控平臺(tái)的采用并確保其在組織內(nèi)的有效利用至關(guān)重要。必須與用戶建立持續(xù)的反饋循環(huán),以確保平臺(tái)根據(jù)他們的需求和期望不斷發(fā)展。畢竟,如果仍未得到充分利用,即使是最先進(jìn)的平臺(tái)也會(huì)變得多余。優(yōu)先考慮用戶體驗(yàn)并提供全面的培訓(xùn)可以彌補(bǔ)這一差距。
從傳統(tǒng)的孤立IT運(yùn)營到與領(lǐng)域無關(guān)的服務(wù)和數(shù)據(jù)產(chǎn)品導(dǎo)向的轉(zhuǎn)變最初可能看起來令人畏懼。因此,將組織變革管理深思熟慮地整合到數(shù)據(jù)平臺(tái)的增長軌跡中是必不可少的。
八案例研究:使用AWS實(shí)現(xiàn)財(cái)務(wù)合規(guī)報(bào)告現(xiàn)代化
背景
一家成熟的金融服務(wù)公司必須努力維護(hù)市場(chǎng)誠信。其重要任務(wù)之一是對(duì)可能暗示內(nèi)幕交易的可疑交易活動(dòng)進(jìn)行細(xì)致調(diào)查。這通常涉及觀察重大市場(chǎng)新聞公開之前執(zhí)行的交易。
每日“重大事件前交易”報(bào)告利用兩個(gè)主要來源的數(shù)據(jù):
公司的交易平臺(tái):這個(gè)歷史悠久的系統(tǒng)是用Cobol編寫的,在IBM大型機(jī)上運(yùn)行。由于過渡到新平臺(tái)的成本高昂,該公司繼續(xù)維護(hù)它。交易從該平臺(tái)提取,從EBCDIC轉(zhuǎn)換為ASCII,然后以CSV文件形式保存在公司數(shù)據(jù)中心內(nèi)的指定位置。
外部新聞聚合器:該服務(wù)使訂戶能夠及時(shí)訪問精選的公共信息,包括新聞稿、季度收益報(bào)告和各種新聞提要。可以通過FTP站點(diǎn)以JSON文件形式獲取最新更新。
識(shí)別潛在內(nèi)幕交易的過程包括:
從聚合的新聞提要中提取相關(guān)的“重大事件”。
將這些事件與最近的交易進(jìn)行比較,強(qiáng)調(diào)那些在關(guān)鍵信息公開之前發(fā)生的事件。
如果交易符合特定標(biāo)準(zhǔn),則對(duì)其進(jìn)行標(biāo)記:它們是在新聞發(fā)布前的預(yù)定時(shí)間范圍內(nèi)執(zhí)行的,并且它們的方向(買入或賣出)與新聞的基調(diào)相對(duì)應(yīng)。
然而,該公司面臨著重大挑戰(zhàn):
現(xiàn)有的基礎(chǔ)設(shè)施難以有效地處理從內(nèi)部交易系統(tǒng)和外部新聞來源收集的大量數(shù)據(jù)。
他們傳統(tǒng)的基于規(guī)則的方法常常無法準(zhǔn)確地查明內(nèi)幕交易的情況。為了解決這個(gè)問題,人們正在不斷努力整合機(jī)器學(xué)習(xí)模型。這些模型旨在使用歷史數(shù)據(jù)預(yù)測(cè)交易,并將其與新出現(xiàn)的新聞并列,以確保警報(bào)系統(tǒng)更加精確。
目標(biāo)
盡管數(shù)據(jù)量不斷增加,但仍確保及時(shí)處理報(bào)告。
從脆弱的基于規(guī)則的系統(tǒng)過渡到用于警報(bào)評(píng)估的機(jī)器學(xué)習(xí)模型。
將解決方案無縫集成到正在進(jìn)行的云過渡中。
基于AWS的平臺(tái)
雖然Azure和GCP提供了強(qiáng)大的解決方案,但我們將概述使用AWS服務(wù)的數(shù)據(jù)平臺(tái)的基本設(shè)計(jì),以滿足金融公司的需求。
數(shù)據(jù)存儲(chǔ)
AWSS3是一種高度可擴(kuò)展的存儲(chǔ)解決方案,適合存儲(chǔ)大量交易數(shù)據(jù)和新聞源。存儲(chǔ)設(shè)計(jì)具有三個(gè)不同的區(qū)域:
登陸區(qū)域:此臨時(shí)區(qū)域與本地應(yīng)用程序接口。它充當(dāng)新執(zhí)行的交易批次的初始下降點(diǎn)。每當(dāng)此處上傳新文件時(shí),都會(huì)觸發(fā)Lambda函數(shù),向EventBridge發(fā)送通知消息。
原始數(shù)據(jù):該區(qū)域提供長期存儲(chǔ),以原始格式保存貿(mào)易歷史和新聞提要
準(zhǔn)備好的數(shù)據(jù):這里保留轉(zhuǎn)換后的貿(mào)易數(shù)據(jù)、處理后的材料事件和警報(bào),并將數(shù)據(jù)存儲(chǔ)在高效的Parquet文件中。
數(shù)據(jù)攝取
Lambda:它將交易數(shù)據(jù)從瞬態(tài)登陸區(qū)重新定位到原始數(shù)據(jù)區(qū)。
Kubernetes服務(wù):此服務(wù)中的容器化應(yīng)用程序與新聞聚合器的sFTP站點(diǎn)進(jìn)行交互。他們下載最新的數(shù)據(jù)塊并將其放置在原始數(shù)據(jù)區(qū)域中以供后續(xù)處理。
數(shù)據(jù)轉(zhuǎn)換
使用AWSGlue(一種在Spark上運(yùn)行的完全托管的ETL服務(wù)),原始貿(mào)易數(shù)據(jù)和新聞將轉(zhuǎn)換為合規(guī)性報(bào)告。結(jié)合機(jī)器學(xué)習(xí)模型,Glue可以根據(jù)某些交易的模式和時(shí)間將其標(biāo)記為潛在可疑交易。
數(shù)據(jù)服務(wù)
AWSAthena是一種無服務(wù)器解決方案,充當(dāng)PowerBI報(bào)告工具的后端。它能夠使用標(biāo)準(zhǔn)SQL快速分析S3中的數(shù)據(jù),從而實(shí)現(xiàn)動(dòng)態(tài)、快速的報(bào)告生成。
常見補(bǔ)充服務(wù)
為了支持整體數(shù)據(jù)流程,多項(xiàng)支持服務(wù)與該平臺(tái)集成:
數(shù)據(jù)目錄:GlueCatalog是主要的技術(shù)元數(shù)據(jù)目錄。對(duì)于與業(yè)務(wù)相關(guān)的元數(shù)據(jù),Collibra數(shù)據(jù)目錄無縫集成。
AWSIdentityandAccessManagement:指定誰或什么可以訪問AWS中的服務(wù)和資源,集中管理細(xì)粒度權(quán)限,并分析訪問權(quán)限以細(xì)化整個(gè)數(shù)據(jù)平臺(tái)的權(quán)限。
AWSStepFunctions:該服務(wù)管理數(shù)據(jù)提取和轉(zhuǎn)換過程中的多個(gè)操作流。它可以根據(jù)時(shí)間表或在收到特定通知事件時(shí)工作。
Lambda函數(shù):這些函數(shù)管理目錄中新數(shù)據(jù)工件的注冊(cè)。它們還處理數(shù)據(jù)管道的狀態(tài)報(bào)告,并對(duì)錯(cuò)誤或不一致發(fā)出警報(bào)。
DynamoDB:存儲(chǔ)操作元數(shù)據(jù)和系統(tǒng)參數(shù)至關(guān)重要。DynamoDB就是用于此目的,提供快速訪問和可靠的存儲(chǔ)。
ElasticSearch和Grafana:這些工具共同提供強(qiáng)大的日志分析功能,Grafana通過操作儀表板促進(jìn)可視化。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。