數(shù)字化轉(zhuǎn)型的今天,京東物流業(yè)務(wù)呈現(xiàn)出復(fù)雜多變的特性,涉及眾多場景、多元化渠道與日益增長的數(shù)據(jù)量。針對(duì)市場對(duì)于數(shù)據(jù)即時(shí)性和靈活性的迫切需求,京東物流推出了一站式敏捷 BI 解決方案,以應(yīng)對(duì)分散且高并發(fā)的數(shù)據(jù)處理挑戰(zhàn)。本次分享的是京東物流如何通過其一站式敏捷 BI 產(chǎn)品,實(shí)現(xiàn)數(shù)據(jù)的快速集成、即時(shí)分析及自服務(wù)報(bào)告,從而在激烈的市場競爭中贏得優(yōu)勢,進(jìn)一步提升業(yè)務(wù)效率和決策質(zhì)量。通過這些實(shí)踐,我們將見證數(shù)據(jù)驅(qū)動(dòng)的力量如何在京東物流的業(yè)務(wù)流程中展現(xiàn),以及如何幫助企業(yè)在數(shù)字化的道路上更快前進(jìn)。
業(yè)務(wù)背景
1. 業(yè)務(wù)背景
數(shù)據(jù)來源多
數(shù)據(jù)來源極為多樣化,包括線上數(shù)據(jù)、線下數(shù)據(jù),甚至是手工提報(bào)的數(shù)據(jù)。這種多元化的數(shù)據(jù)來源導(dǎo)致數(shù)據(jù)管理和分析過程十分復(fù)雜,尤其是在不同來源的數(shù)據(jù)需要被整合和分析時(shí)。由于來源的多樣性,確保數(shù)據(jù)質(zhì)量和一致性成為了一個(gè)挑戰(zhàn)。
需求變化快
由于京東物流的業(yè)務(wù)覆蓋范圍廣,員工眾多,從總部到各個(gè)地區(qū)層級(jí),每一個(gè)層級(jí)都可能產(chǎn)生獨(dú)特的數(shù)據(jù)需求。這些需求經(jīng)常變化,且每個(gè)層級(jí)都可能定義自己的數(shù)據(jù)指標(biāo)或分析某些特定的數(shù)據(jù)細(xì)節(jié)。這種快速變化的需求環(huán)境要求數(shù)據(jù)系統(tǒng)必須具備高度的靈活性和快速響應(yīng)能力。
做數(shù)耗時(shí)長
傳統(tǒng)的數(shù)據(jù)處理方式,如員工手工在 Excel 中處理數(shù)據(jù),導(dǎo)致數(shù)據(jù)處理時(shí)間長,效率低下。此外,數(shù)據(jù)處理的成本高,數(shù)據(jù)口徑不一致等問題也隨之產(chǎn)生。
2. 復(fù)雜的“中國式報(bào)表”
物流和傳統(tǒng)企業(yè)中常見的中國式復(fù)雜報(bào)表帶來的挑戰(zhàn)如下:
受眾多樣性
各個(gè)層次、各種角色的成員都是報(bào)表的使用者,不同角色的用戶關(guān)心的信息內(nèi)容不同,樣式不同,使用方式不同。
數(shù)據(jù)計(jì)算復(fù)雜
查詢、分析條件復(fù)雜,且報(bào)表中往往存在復(fù)雜的統(tǒng)計(jì)運(yùn)算,如 Sumif 函數(shù)、匯總、同比、環(huán)比、達(dá)成狀態(tài)等。對(duì)于參數(shù)頁面布局、參數(shù)控件類型等都有較高要求。
報(bào)表樣式復(fù)雜
不追求圖表式的直觀可視化效果,而是體現(xiàn)信息的豐富度,因此在樣式上使用了較多的數(shù)據(jù)透視、多層表頭、不完全劃分、分欄等,樣式非常復(fù)雜。
多數(shù)據(jù)源
數(shù)據(jù)源分散,數(shù)據(jù)信息來自不同的業(yè)務(wù)系統(tǒng),技術(shù)路線和數(shù)據(jù)結(jié)構(gòu)都有很大差異。
治理難度大
需要從數(shù)據(jù)源、數(shù)據(jù)指標(biāo)體系兩方面入手,且業(yè)務(wù)多層級(jí)聯(lián)動(dòng)共同拉齊數(shù)據(jù)認(rèn)知,為治理帶來很大困難。
研發(fā)資源消耗大
面向分析場景需求個(gè)性化程度高、不固化、不明確,研發(fā)側(cè)支持有資源瓶頸。
大數(shù)據(jù)技術(shù)挑戰(zhàn)大
大數(shù)據(jù)量、實(shí)時(shí)在線交互分析、系統(tǒng)執(zhí)行復(fù)雜度不確定、響應(yīng)時(shí)間和用戶體驗(yàn)很難預(yù)判保證。
3. 建設(shè)平臺(tái)工具以解決實(shí)際業(yè)務(wù)問題
(1)業(yè)務(wù)場景的數(shù)據(jù)化挑戰(zhàn)
監(jiān)控與預(yù)警的需求:質(zhì)量改善、工單處理、異常處理崗位對(duì) KPI 達(dá)成與工單量變化的敏感度。
數(shù)據(jù)時(shí)效性:在考核、復(fù)盤、經(jīng)營運(yùn)營及責(zé)任追究等方面的高標(biāo)準(zhǔn)要求。
人力資源局限:現(xiàn)有支持體系難以滿足眾多一線員工的復(fù)雜需求。
(2)數(shù)據(jù)處理的現(xiàn)狀與困境
繁瑣的數(shù)據(jù)獲取與處理:員工需從各自業(yè)務(wù)系統(tǒng)下載并處理數(shù)據(jù),效率低下。
報(bào)表的生成與分享:數(shù)據(jù)分析后需制作報(bào)表,進(jìn)而進(jìn)行分享與下達(dá),流程繁雜。
(3)UData:創(chuàng)新的解決方案
敏捷 BI 的引入:一個(gè)自助式、集成式的敏捷商業(yè)智能(BI)解決方案。
數(shù)據(jù)集成:集成各類指標(biāo)與模型至數(shù)據(jù)地圖,簡化標(biāo)準(zhǔn)化數(shù)據(jù)源的獲取。
自助式內(nèi)容分析:為非專業(yè)人士提供易于操作的數(shù)據(jù)分析工具,減少對(duì)技術(shù)的依賴。
數(shù)據(jù)準(zhǔn)備:簡化數(shù)據(jù)之間的關(guān)聯(lián)、篩選與聚合操作,提高工作效率。
中國式報(bào)表與在線 Excel 插件 A. 數(shù)據(jù)與報(bào)表的融合:通過插件將數(shù)據(jù)語言與在線 Excel 結(jié)合,順應(yīng)用戶線下習(xí)慣。
辦公協(xié)同系統(tǒng)的整合:報(bào)表生成后,通過推送、郵件、訂閱等方式實(shí)現(xiàn)辦公自動(dòng)化,確保信息流暢傳遞。
4.產(chǎn)品方法論與解決方案
1. 產(chǎn)品規(guī)劃第一步:產(chǎn)品價(jià)值主張
產(chǎn)品規(guī)劃的第一步為確定產(chǎn)品的價(jià)值主張:強(qiáng)調(diào)任何產(chǎn)品都需從其價(jià)值主張出發(fā),這是產(chǎn)品成功的基石。
(1)三個(gè)邏輯的概述
價(jià)值發(fā)現(xiàn):識(shí)別目標(biāo)用戶群體,明確產(chǎn)品解決的具體場景及需求,并構(gòu)建核心競爭力。
價(jià)值共創(chuàng):探討如何與合作伙伴共同創(chuàng)造價(jià)值,包括共創(chuàng)方案和流程機(jī)制的構(gòu)建。
價(jià)值獲?。捍_定價(jià)值落地的模式,包括衡量標(biāo)準(zhǔn)和方法。
(2)價(jià)值發(fā)現(xiàn)
用戶需求的深入分析:通過監(jiān)控3萬多數(shù)據(jù)業(yè)務(wù)人員的日常行為,揭示其重復(fù)性使用 Excel 等工具的頻繁性和模式。
系統(tǒng)化建設(shè)的不足:指出目前數(shù)據(jù)體系化建設(shè)的不足,以及數(shù)據(jù)標(biāo)準(zhǔn)化沉淀的限制。
(3)價(jià)值共創(chuàng)的策略
建立多元異構(gòu)查詢支持:強(qiáng)調(diào)需要支持多樣化的數(shù)據(jù)查詢和交互式數(shù)據(jù)獲取。
降低技術(shù)門檻:目標(biāo)是打造一個(gè)低門檻、自助式、交互式的工具,特別強(qiáng)調(diào)點(diǎn)選式的操作和在線化的 Excel 功能。
業(yè)務(wù)層共建:與業(yè)務(wù)部門共建數(shù)據(jù)集,提高數(shù)據(jù)標(biāo)準(zhǔn)化程度,并通過重點(diǎn)項(xiàng)目共建和數(shù)據(jù)分析師培養(yǎng)專項(xiàng)計(jì)劃提升整體數(shù)據(jù)理解和應(yīng)用能力。
(4)價(jià)值獲取與效果衡量
衡量指標(biāo)的設(shè)定:通過覆蓋度、滲透率和工作時(shí)長節(jié)省等指標(biāo)衡量產(chǎn)品上線后的效果。
實(shí)驗(yàn)觀測:運(yùn)用 AB 實(shí)驗(yàn)等方法觀測業(yè)務(wù)數(shù)據(jù)分析的效率和效果。
2. UData 一站式敏捷 BI 產(chǎn)品架構(gòu)
構(gòu)筑商業(yè)智能產(chǎn)品架構(gòu)的過程中,我們面臨的挑戰(zhàn)源自業(yè)務(wù)系統(tǒng)的多樣性及數(shù)據(jù)庫類型的復(fù)雜性。為了應(yīng)對(duì)這一挑戰(zhàn),聯(lián)邦查詢技術(shù)被引入以實(shí)現(xiàn)跨數(shù)據(jù)源的統(tǒng)一查詢,這不僅強(qiáng)化了數(shù)據(jù)處理的能力,而且增強(qiáng)了系統(tǒng)的靈活性和響應(yīng)速度。在此基礎(chǔ)上,數(shù)據(jù)管理的角色顯得尤為重要,它要求我們能夠清晰地識(shí)別并定位標(biāo)準(zhǔn)化的數(shù)據(jù)集,確保數(shù)據(jù)的準(zhǔn)確性和可靠性。
進(jìn)一步地,數(shù)據(jù)的準(zhǔn)備、分析和系統(tǒng)共享被強(qiáng)調(diào)為系統(tǒng)內(nèi)特別核心的能力。這些能力不僅加強(qiáng)了數(shù)據(jù)的實(shí)用性,也為后續(xù)的決策提供了堅(jiān)實(shí)的支持。
此外,利用商業(yè)智能工具和沉淀的標(biāo)準(zhǔn)化數(shù)據(jù)資產(chǎn),通過開放 API 支持其他系統(tǒng)調(diào)用內(nèi)部數(shù)據(jù),這一策略極大地提高了整體架構(gòu)的效率和靈活性。
總體而言,在構(gòu)建商業(yè)智能產(chǎn)品時(shí),必須認(rèn)真考慮和實(shí)施跨數(shù)據(jù)源查詢、數(shù)據(jù)管理以及數(shù)據(jù)服務(wù)等關(guān)鍵功能,以確保系統(tǒng)的強(qiáng)大、可靠和高效。
3. Udata 1.0-產(chǎn)品特性
(1)快速集成多樣數(shù)據(jù)資源:該平臺(tái)能夠迅速融合各類數(shù)據(jù)資源,突破了傳統(tǒng)數(shù)據(jù)處理的局限性,為用戶提供了一個(gè)全面而綜合的數(shù)據(jù)視圖。
(2)簡化數(shù)據(jù)配置:轉(zhuǎn)變了常規(guī)的數(shù)據(jù)處理方式,用戶無需撰寫復(fù)雜的 SQL 語句,而是通過直觀的點(diǎn)選式界面進(jìn)行數(shù)據(jù)配置,大幅降低了技術(shù)門檻,提高了操作的便捷性。
(3)數(shù)據(jù)加速與聯(lián)邦查詢支持:軟件底層采用了先進(jìn)的查詢引擎,支持聯(lián)邦查詢,這意味著即使數(shù)據(jù)分散在不同的系統(tǒng)和平臺(tái)上,也能實(shí)現(xiàn)快速、高效的數(shù)據(jù)檢索和處理。
(4)類 Excel 的操作簡化
線上數(shù)據(jù)選擇與創(chuàng)建:用戶可以在線選擇并創(chuàng)建自己的數(shù)據(jù)集,簡化了數(shù)據(jù)處理步驟。
配置在線復(fù)雜報(bào)表:在數(shù)據(jù)集基礎(chǔ)上,用戶能夠配置類似于中國式的復(fù)雜報(bào)表,這些報(bào)表既輕量級(jí)又易于操作,適應(yīng)了用戶對(duì)靈活性和復(fù)雜性的雙重需求。
(5)輕量級(jí)訪問與快速集成
工具提供了輕量級(jí)的訪問方式,使用戶能夠迅速而方便地處理和分析數(shù)據(jù)。
支持快速集成到包括辦公系統(tǒng)、業(yè)務(wù)應(yīng)用系統(tǒng)和電子郵件等在內(nèi)的各種平臺(tái),增強(qiáng)了其實(shí)用性和廣泛的應(yīng)用范圍。
一些不足
系統(tǒng)穩(wěn)定性問題
隨著 1.0 版本在更廣泛領(lǐng)域的應(yīng)用,系統(tǒng)穩(wěn)定性成為一個(gè)顯著的問題,影響了用戶體驗(yàn)和操作的連貫性。
性能問題
數(shù)據(jù)處理的效率和速度是評(píng)估系統(tǒng)性能的關(guān)鍵指標(biāo),性能瓶頸會(huì)導(dǎo)致做數(shù)耗時(shí)長,進(jìn)而影響決策速度和業(yè)務(wù)流程。
應(yīng)用性問題
隨著需求的快速變化和數(shù)據(jù)來源的多樣化,系統(tǒng)需要靈活適應(yīng)不斷變化的環(huán)境和需求,應(yīng)用性的不足可能會(huì)限制系統(tǒng)的廣泛應(yīng)用和擴(kuò)展 Spark 完成歷史數(shù)據(jù)的回補(bǔ)。
基于用戶價(jià)值公式思考產(chǎn)品優(yōu)化空間
當(dāng)前系統(tǒng)的挑戰(zhàn)主要為以下幾大方面:
系統(tǒng)穩(wěn)定性:在廣泛應(yīng)用過程中,系統(tǒng)穩(wěn)定性常常受到挑戰(zhàn),影響了用戶的連續(xù)使用體驗(yàn)。
系統(tǒng)性能:頻繁出現(xiàn)的性能問題減緩了數(shù)據(jù)處理速度,影響了整體效率。
易用性問題:隨著用戶規(guī)模的提升,用戶需求多種多樣,系統(tǒng)的易用性和產(chǎn)品體驗(yàn)暴露出一些問題,影響了其廣泛應(yīng)用的可能性。
優(yōu)化策略與方法論:
用戶價(jià)值公式:提出了一種評(píng)估產(chǎn)品價(jià)值的公式,即新體驗(yàn)減去舊體驗(yàn)和遷移成本后的剩余價(jià)值,以此作為優(yōu)化的基礎(chǔ)。
舊體驗(yàn)與新體驗(yàn)的對(duì)比:分析用戶的舊體驗(yàn),如手工操作 Excel 的熟悉性與穩(wěn)定性,以及新體驗(yàn)所帶來的自助式分析和自動(dòng)化更新的便利性。
新體驗(yàn)中的挑戰(zhàn):識(shí)別新體驗(yàn)中存在的問題,如數(shù)據(jù)穩(wěn)定性和同步的及時(shí)性問題,以及用戶面臨的遷移成本。
具體應(yīng)對(duì)策略為:
改善數(shù)據(jù)穩(wěn)定性:采取措施解決數(shù)據(jù)丟失和同步問題,提高數(shù)據(jù)穩(wěn)定性。
降低遷移成本:通過簡化操作和提供培訓(xùn),降低用戶的學(xué)習(xí)成本,使遷移過程更加平滑。
增強(qiáng)系統(tǒng)性能和應(yīng)用性:優(yōu)化系統(tǒng)架構(gòu),提高性能,擴(kuò)展應(yīng)用范圍以適應(yīng)不斷變化的用戶需求。
產(chǎn)品邏輯梳理
(1)數(shù)據(jù)處理鏈路的核心組成
數(shù)據(jù)源的多樣性:強(qiáng)調(diào)了數(shù)據(jù)源包含實(shí)時(shí)與離線數(shù)據(jù),以及明細(xì)層與匯總層數(shù)據(jù),其中明細(xì)層數(shù)據(jù)量龐大,而匯總層數(shù)據(jù)經(jīng)過聚合后較小。
數(shù)據(jù)集與數(shù)據(jù)源的區(qū)分:討論了數(shù)據(jù)集作為數(shù)據(jù)處理和管理的結(jié)果,它代表了加工處理后的數(shù)據(jù)結(jié)果集,這有助于提高可視化的效率。
(2)數(shù)據(jù)集的構(gòu)建方式與分析能力
構(gòu)建數(shù)據(jù)集的多樣方式:包括點(diǎn)選式操作生成 SQL,直接編寫 SQL,以及問答式的自然語言處理技術(shù)。
數(shù)據(jù)分析能力:探討了提供的分析能力,包括不同類型的數(shù)據(jù)報(bào)告和報(bào)告來源,以及系統(tǒng)易用性的考量。
(3)系統(tǒng)優(yōu)化的邏輯與方法
產(chǎn)品和系統(tǒng)邏輯接入的標(biāo)準(zhǔn):討論了優(yōu)化新版本系統(tǒng)時(shí)考慮的產(chǎn)品與系統(tǒng)邏輯接入的標(biāo)準(zhǔn)和方式。
數(shù)據(jù)準(zhǔn)備與校驗(yàn):強(qiáng)調(diào)了數(shù)據(jù)準(zhǔn)備過程中的校驗(yàn)工作的重要性。
架構(gòu)梳理與模塊界定:強(qiáng)調(diào)了對(duì)系統(tǒng)架構(gòu)、模塊邊界以及前后臺(tái)關(guān)系的重新梳理和界定,以確保 BI 產(chǎn)品的穩(wěn)定性和高效性。
7. Udata 產(chǎn)品升級(jí)
(1)穩(wěn)定性提升
①穩(wěn)定性專項(xiàng)的實(shí)施
問題收集與記錄:系統(tǒng)地記錄和識(shí)別用戶報(bào)告的 bug 和問題,如系統(tǒng)打不開或數(shù)據(jù)不一致等,以便于后續(xù)分析。
高頻問題識(shí)別:通過持續(xù)記錄,識(shí)別頻繁出現(xiàn)的問題,然后進(jìn)行分類,以了解哪些類型的問題是經(jīng)常發(fā)生的及其影響范圍。
②分類與復(fù)盤
問題分類:將識(shí)別的問題進(jìn)行分類,為進(jìn)一步的分析和解決提供清晰的方向。
定期復(fù)盤:定期回顧問題,深入挖掘根本原因,并基于這些原因制定解決策略。
③監(jiān)測指標(biāo)的定義與優(yōu)化措施
監(jiān)測指標(biāo)定義:定義關(guān)鍵的監(jiān)測指標(biāo),如故障率和可用性,包括數(shù)據(jù)問題、共享問題和操作問題等,這有助于更準(zhǔn)確地監(jiān)控和評(píng)估系統(tǒng)穩(wěn)定性。
性能優(yōu)化:識(shí)別和解決導(dǎo)致查詢失敗的底層引擎問題,以及相關(guān)的性能問題,確保系統(tǒng)的穩(wěn)定運(yùn)行。
(2)性能提升
①性能問題及其對(duì)用戶體驗(yàn)的影響
性能問題的表現(xiàn):用戶在嘗試打開報(bào)表時(shí)經(jīng)常遭遇長時(shí)間的加載延遲,有時(shí)甚至無法加載完成,這種延時(shí)和不確定性嚴(yán)重影響了用戶的體驗(yàn)。
問題的重要性:強(qiáng)調(diào)性能問題不僅是一個(gè)技術(shù)問題,而且對(duì)用戶體驗(yàn)有顯著影響,需要被優(yōu)先解決。
②性能優(yōu)化策略
性能診斷:通過性能診斷,識(shí)別導(dǎo)致報(bào)表加載緩慢的原因,可能是數(shù)據(jù)接入問題、復(fù)雜的 SQL 查詢,或不必要的數(shù)據(jù)引入等。
數(shù)據(jù)物化策略:實(shí)施數(shù)據(jù)物化,將大表拆分為小表,減小查詢的數(shù)據(jù)量級(jí),從而提高查詢效率。
緩存策略:引入主動(dòng)和被動(dòng)緩存,基于歷史訪問行為優(yōu)化緩存命中率,進(jìn)一步提升查詢效率。
③數(shù)據(jù)報(bào)表的分類與管理
分級(jí)和分類:對(duì)數(shù)據(jù)報(bào)表進(jìn)行分類和分級(jí),明確每個(gè)報(bào)表的服務(wù)場景和性能要求,實(shí)現(xiàn)精細(xì)化管理。
發(fā)布時(shí)的約束:在數(shù)據(jù)報(bào)表發(fā)布時(shí)增加邊界約束,確保每個(gè)報(bào)表在發(fā)布前都能滿足既定的性能標(biāo)準(zhǔn)。
④綜合優(yōu)化視角
技術(shù)與運(yùn)營結(jié)合:強(qiáng)調(diào)性能優(yōu)化不僅涉及技術(shù)問題,也包括產(chǎn)品運(yùn)營的思路及用戶的引導(dǎo)和約束。
用戶教育:提倡對(duì)用戶進(jìn)行教育,使其更加理解如何有效地利用系統(tǒng),編寫高效的 SQL,減輕系統(tǒng)負(fù)擔(dān)。
⑤數(shù)據(jù)集創(chuàng)建后的性能評(píng)估
評(píng)分機(jī)制:在數(shù)據(jù)集創(chuàng)建完成后,系統(tǒng)將基于性能和效率等關(guān)鍵指標(biāo)對(duì)其進(jìn)行評(píng)分,以確保每個(gè)數(shù)據(jù)集都符合既定的標(biāo)準(zhǔn)。
優(yōu)化建議提供:對(duì)于評(píng)分不高或有改進(jìn)空間的數(shù)據(jù)集,系統(tǒng)會(huì)提出具體的優(yōu)化建議,指導(dǎo)用戶如何改進(jìn)數(shù)據(jù)集的性能和效率。
基于 StarRocks 的引擎升級(jí)帶來極致查詢性能
①性能優(yōu)化的核心引擎與合作
核心引擎選擇:采用基于 StarRocks 的核心引擎進(jìn)行性能優(yōu)化,并與社區(qū)進(jìn)行戰(zhàn)略合作,為優(yōu)化提供技術(shù)支持。
StarRocks 的優(yōu)化特性:介紹 StarRocks 支持的向量化執(zhí)行,物化視圖加速查詢和 CBO 優(yōu)化等特性,以及通過這些特性實(shí)現(xiàn)的性能提升。
②算子聚合下推優(yōu)化
數(shù)據(jù)處理鏈路:描述數(shù)據(jù)從消息隊(duì)列到不同數(shù)據(jù)庫和引擎的處理鏈路,以及在StarRocks查詢時(shí)面臨的挑戰(zhàn)。
下推優(yōu)化策略:實(shí)施算子聚合下推,將聚合和排序等操作下推到底層數(shù)據(jù)引擎(如CK、 MySQL)執(zhí)行,減少 StarRocks 引擎的壓力和網(wǎng)絡(luò)帶寬消耗。
③性能提升的實(shí)際效果
查詢效率提升:通過優(yōu)化,六張表的聚合關(guān)聯(lián)查詢時(shí)間從 30 秒降至 6 秒,顯著提升了查詢效率。
網(wǎng)絡(luò)帶寬優(yōu)化:減少了數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸量,從而降低了網(wǎng)絡(luò)帶寬消耗。
(3)易用性提升
①易用性提升的重要性
1.0 版本的問題:指出前一版本因快速迭代而存在的問題,如系統(tǒng)高耦合、操作鏈路不清晰、設(shè)計(jì)復(fù)雜,以及展示形式單一。
2.0 版本的目標(biāo):明確了新版本的目標(biāo)是提升易用性,降低用戶的理解和操作門檻,讓數(shù)據(jù)分析任務(wù)像協(xié)同辦公文檔一樣簡單。
②ERRC 方法的應(yīng)用
移除(E):識(shí)別并移除多余的無效概念和步驟,以減少用戶學(xué)習(xí)成本和操作復(fù)雜性。
減少(R):簡化頁面信息和操作步驟,去除冗余操作,使用戶的操作更加直觀和高效。
增加(R):增強(qiáng)系統(tǒng)的性能診斷和校驗(yàn),建立清晰的系統(tǒng)邊界,提供駕駛艙功能等,以滿足不同用戶的場景需求。
創(chuàng)造(C):創(chuàng)新數(shù)據(jù)探索能力,如引入問答式 DataGPT,以提供更高級(jí)的用戶體驗(yàn)和分析能力。
③2.0 版本框架優(yōu)化
低門檻目標(biāo):降低用戶的理解和操作門檻,清晰可理解的系統(tǒng)概念,簡潔的操作鏈路。
性能校驗(yàn)與診斷:在系統(tǒng)中增加性能的校驗(yàn)和診斷,確保系統(tǒng)穩(wěn)定可靠。
場景區(qū)隔與功能增強(qiáng):根據(jù)不同用戶的使用場景提供區(qū)隔化的服務(wù),同時(shí)增加駕駛艙等功能以提升系統(tǒng)的實(shí)用性和靈活性。
創(chuàng)新性能力:通過創(chuàng)新問答式數(shù)據(jù)探索能力,提高數(shù)據(jù)分析的效率和準(zhǔn)確性。
④舊版菜單的問題
繁雜性:描述舊版菜單內(nèi)容繁雜,各種功能雜陳在一起,導(dǎo)致用戶難以快速找到所需功能。
用戶體驗(yàn):由于菜單的復(fù)雜性,用戶在系統(tǒng)中的導(dǎo)航和任務(wù)完成過程變得不直觀,影響了用戶體驗(yàn)。
⑤新版本的導(dǎo)航優(yōu)化
二級(jí)導(dǎo)航引入:提出在新版本中引入二級(jí)導(dǎo)航的方式,使結(jié)構(gòu)更為清晰和直觀。
內(nèi)容合并與精簡:對(duì)導(dǎo)航內(nèi)容進(jìn)行合并和精簡,清楚地定義每部分的功能和定位,以便用戶更容易理解和使用。
信息架構(gòu)清晰:通過優(yōu)化信息架構(gòu),確保用戶在進(jìn)入系統(tǒng)后能迅速、清晰地了解如何完成任務(wù)。
⑥基于席克定律的改造
席克定律(Hick's Law):引入席克定律,說明面對(duì)過多選擇時(shí),用戶做出決策的時(shí)間增長。
菜單優(yōu)化:根據(jù)用戶的使用習(xí)慣和流程對(duì)菜單進(jìn)行重新排列,減少或隱藏非常用功能,以減少用戶的選擇負(fù)擔(dān)和干擾,加快反應(yīng)時(shí)間。
⑦數(shù)據(jù)準(zhǔn)備的操作優(yōu)化
舊版本的操作復(fù)雜性:指出舊版本在數(shù)據(jù)準(zhǔn)備環(huán)節(jié)存在許多步驟和冗余概念,導(dǎo)致用戶理解和操作門檻高。
新版本的簡化流程:新版本將數(shù)據(jù)準(zhǔn)備的操作從 11 步精簡至 6 步,大幅提升了用戶理解和處理數(shù)據(jù)的效率。
⑧應(yīng)用菲茨定律(Fitts’ Law)優(yōu)化用戶操作
菲茨定律概念:引入菲茨定律,解釋目標(biāo)越大且越近,用戶到達(dá)的速度越快,出錯(cuò)幾率越低。
改造點(diǎn):基于菲茨定律,縮短用戶到達(dá)路徑,提供更合理的引導(dǎo)流程,減少用戶的操作步驟,提高用戶轉(zhuǎn)化和操作效率。
⑨提升用戶體驗(yàn)的綜合策略
精簡操作步驟:通過減少操作步驟和去除冗余概念,簡化用戶的操作流程,降低理解門檻。
優(yōu)化引導(dǎo)流程:改進(jìn)用戶的引導(dǎo)流程,確保用戶可以更直觀、更快速地完成任務(wù),提升整體用戶體驗(yàn)。
⑩舊版本數(shù)據(jù)準(zhǔn)備界面的問題
集成度過高:指出舊版本的數(shù)據(jù)準(zhǔn)備頁面集成了選擇數(shù)據(jù)集、管理和創(chuàng)建操作,導(dǎo)致頁面復(fù)雜且難以理解。
缺乏用戶引導(dǎo):操作過程中缺少必要的引導(dǎo),使用戶在完成任務(wù)時(shí)感到困惑和不便。
?新版本交互體驗(yàn)優(yōu)化
操作與反饋分離:新版本中,數(shù)據(jù)集的操作與結(jié)果反饋被清晰地分離,確保用戶可以立即得到操作反饋。
明確的操作指示:在界面上清楚地列出可進(jìn)行的操作,增加用戶在操作過程中的清晰度和方向性。
?泰斯勒定律的應(yīng)用
復(fù)雜度守恒概念:引入泰斯勒定律,解釋系統(tǒng)中固有復(fù)雜性的存在,并強(qiáng)調(diào)其無法被完全消除,只能通過設(shè)計(jì)進(jìn)行轉(zhuǎn)移和平衡。
復(fù)雜度轉(zhuǎn)移改造:為了提升用戶體驗(yàn),將系統(tǒng)的固有復(fù)雜度從用戶側(cè)轉(zhuǎn)移到研發(fā)側(cè),通過后端復(fù)雜的處理來為前端用戶提供簡潔明了的操作體驗(yàn)。
應(yīng)用實(shí)踐案例
1. 實(shí)現(xiàn)業(yè)務(wù)報(bào)表的線上化、數(shù)據(jù)更新自動(dòng)化
(1)應(yīng)用效果概述
系統(tǒng)線上化:介紹了通過 UData 系統(tǒng)實(shí)現(xiàn)報(bào)表線上化,替代了以前頻繁且耗時(shí)的手工制作過程。
實(shí)時(shí)更新:強(qiáng)調(diào)了一次性設(shè)置后的長期效益,報(bào)表可以實(shí)時(shí)更新,顯著提升數(shù)據(jù)處理效率。
(2)《618 大促小時(shí)戰(zhàn)報(bào)》效率提升案例
優(yōu)化前狀況:每天手工制作報(bào)表 10 次,每次需耗時(shí) 30 分鐘,僅能提供整點(diǎn)數(shù)據(jù)。
優(yōu)化后成果:通過 UData 線上制作一次,耗時(shí) 1 小時(shí),報(bào)表永久有效且實(shí)時(shí)更新。
效率對(duì)比:通過線上化和自動(dòng)化處理,實(shí)現(xiàn)了 80% 的工作效率提升。
(3)省區(qū)日常運(yùn)營監(jiān)控效率提升案例
優(yōu)化前狀況:每天手工制作報(bào)表 1 次,每次需耗時(shí) 2 小時(shí)。
優(yōu)化后成果:通過 UData 線上制作一次,耗時(shí) 2 小時(shí),但報(bào)表永久有效,無需重復(fù)制作。
效率對(duì)比:通過自動(dòng)化和長期有效性,實(shí)現(xiàn)了 96% 的工作效率提升。
2. 典型案例
(1)項(xiàng)目概述與目標(biāo)
項(xiàng)目持續(xù)期:介紹了項(xiàng)目實(shí)施了半年多時(shí)間,目標(biāo)是通過數(shù)據(jù)處理優(yōu)化分揀員的工作效率。
優(yōu)化目標(biāo):明確項(xiàng)目旨在降低分揀員在數(shù)據(jù)處理上的時(shí)長,并提升其有效工作時(shí)間。
(2)成效展示
數(shù)據(jù)處理時(shí)長的降低:報(bào)告在半年的時(shí)間里,分揀員在數(shù)據(jù)處理上的時(shí)長下降了 37%,顯示出數(shù)據(jù)產(chǎn)品優(yōu)化的顯著效果。
有效工作時(shí)長的提升:同時(shí),分揀員的有效工作時(shí)間實(shí)現(xiàn)了持續(xù)上升,其中在半年期間有效工作時(shí)長上升了 10%,反映出工作效率的整體提升。
(3)分析與結(jié)論
效率提升分析:分析發(fā)現(xiàn)數(shù)據(jù)產(chǎn)品優(yōu)化導(dǎo)致分揀員數(shù)據(jù)處理時(shí)間減少,使他們能夠更多地投入到實(shí)際工作中,從而提升了整體工作效率。
綜合效益:強(qiáng)調(diào)了通過精細(xì)化的數(shù)據(jù)管理和流程優(yōu)化,項(xiàng)目不僅提升了個(gè)體工作效率,也為整體操作流程帶來了效率提升。
3. 升級(jí)規(guī)劃:ABI 能力進(jìn)階
(1)數(shù)據(jù)資產(chǎn)平臺(tái)與 ABI 能力進(jìn)階
問答式報(bào)表能力:介紹了未來 ABI(問答式商業(yè)智能)能力的進(jìn)階,即通過問答式交互返回報(bào)表和數(shù)據(jù)趨勢,簡化數(shù)據(jù)獲取過程。
移動(dòng)端應(yīng)用:強(qiáng)調(diào)了在數(shù)據(jù)資產(chǎn)平臺(tái)上結(jié)合 DataGPT 和 AIGC 技術(shù),使用戶能夠在移動(dòng)端輕松獲取所需數(shù)據(jù)。
(2)數(shù)據(jù)資產(chǎn)集約管理
管理組成:描述數(shù)據(jù)資產(chǎn)集約管理包含知識(shí)庫、標(biāo)準(zhǔn)指標(biāo)體系和實(shí)時(shí)數(shù)倉模型,形成一個(gè)全面的數(shù)據(jù)管理體系。
DataGPT 作為釋放窗口:將 DataGPT 作為數(shù)據(jù)資產(chǎn)價(jià)值釋放的輕量化窗口,使用自然語言作為查詢門檻,使所有員工都能輕松進(jìn)行數(shù)據(jù)查詢。
(3)大模型 AIGC 的作用
業(yè)務(wù)與技術(shù)語言轉(zhuǎn)化:大模型 AIGC 為業(yè)務(wù)語言和技術(shù)語言的相互轉(zhuǎn)化提供能力支持,使非技術(shù)人員也能通過自然語言獲取復(fù)雜數(shù)。
助力數(shù)據(jù)普惠化:通過這種能力加持,推進(jìn)數(shù)據(jù)的普惠化,使數(shù)據(jù)查詢和分析不再局限于數(shù)據(jù)科學(xué)家或技術(shù)人員。
04
Q&A
Q1:我想詳細(xì)了解您提到的基于問答形式獲取數(shù)據(jù)源碼的方法,以及您正在開發(fā)的 data GPT 是如何運(yùn)作的。
A1:我們所提的是通過問答方式創(chuàng)建數(shù)據(jù)集,而非直接獲取數(shù)據(jù)源。傳統(tǒng)上,構(gòu)建數(shù)據(jù)集主要有兩種方法:一是基于配置的拖拉拽方式,二是編寫 SQL 語句。我們現(xiàn)在正嘗試通過問答形式來構(gòu)建數(shù)據(jù)集。具體而言,用戶可以用自然語言告訴系統(tǒng)他們需要哪種類型的數(shù)據(jù)集,以及數(shù)據(jù)集應(yīng)包含哪些信息。系統(tǒng)將根據(jù)用戶的描述生成所需的數(shù)據(jù)集。這一過程的核心是 NLP(自然語言處理)技術(shù),它能夠?qū)⒆匀徽Z言指令轉(zhuǎn)換為 SQL 語句,從而建立相應(yīng)的數(shù)據(jù)集。
Q2:如果我想查詢特定年份的某項(xiàng)指標(biāo)或數(shù)據(jù)情況,系統(tǒng)是否能自動(dòng)生成相關(guān)報(bào)告和結(jié)果展示?具體實(shí)現(xiàn)方式是怎樣的?
A2:目前,我們正在探索兩種方案。第一種方案是結(jié)合大模型來實(shí)現(xiàn)。在這種方法中,我們將數(shù)據(jù)資產(chǎn)指標(biāo)的定義以及一些語義信息輸入模型,以幫助模型更好地理解例如京東物流的數(shù)據(jù)資產(chǎn),包括表格的元數(shù)據(jù)等。當(dāng)你提出問題時(shí),它可以通過 SQL 返回結(jié)果。但是,這個(gè)方法的問題在于,有時(shí)候回答的準(zhǔn)確率可能不高,特別是在數(shù)據(jù)底層質(zhì)量不高的情況下,對(duì)數(shù)據(jù)的理解可能會(huì)有誤差,導(dǎo)致生成的 SQL 可能不太準(zhǔn)確。這需要一個(gè)持續(xù)優(yōu)化和調(diào)整的過程。我們目前正在嘗試優(yōu)化這種方法,但只限于小范圍的數(shù)據(jù)資產(chǎn)。
第二種方案是采用配置化的方法。這種方法不依賴于大模型,而是依賴于一個(gè)后臺(tái)的數(shù)據(jù)模型配置策略。你只需要指定相關(guān)表格,只要查詢范圍在這個(gè)表格或其支持范圍內(nèi),系統(tǒng)就能順利地將查詢轉(zhuǎn)換成 SQL 并返回結(jié)果。這種方法比較直接和穩(wěn)定,但如果基于大模型,則需要持續(xù)的運(yùn)維和調(diào)整,因?yàn)榇竽P托枰粩嗟亟邮障嚓P(guān)領(lǐng)域的數(shù)據(jù)以提高其準(zhǔn)確性。最重要的是,系統(tǒng)能否理解用戶用業(yè)務(wù)語言提出的問題,并將其轉(zhuǎn)換成數(shù)據(jù)語言的過程。
Q3:我希望未來的 BI(商業(yè)智能)工具可以更加敏捷,用戶無需編寫腳本或 SQL,只需要輸入一段話,系統(tǒng)就能理解并生成報(bào)表或圖表。這是否可行?
A3:這確實(shí)是一個(gè)很好的想法,目前行業(yè)內(nèi)已有多方探索這一方向。一些產(chǎn)品已經(jīng)初步實(shí)現(xiàn)了這一功能,它們通過部署大型 AI 模型并向其提供相關(guān)的指標(biāo)數(shù)據(jù)來進(jìn)行訓(xùn)練,使其能夠根據(jù)用戶輸入生成基本的報(bào)表。此外,許多第三方創(chuàng)業(yè)公司也在嘗試相關(guān)技術(shù)。然而,大部分尚未利用大模型,因?yàn)橥耆蕾嚧竽P蛠斫鉀Q這一問題是相當(dāng)困難的。雖然當(dāng)前有一定的進(jìn)展,但實(shí)現(xiàn)用戶簡單輸入即可生成復(fù)雜報(bào)表和圖表的目標(biāo),還需要更多的技術(shù)突破和創(chuàng)新。
Q4:我想了解一下異構(gòu)數(shù)據(jù)源融合的問題。我目前所在的公司使用的互聯(lián)互通工具并不好用,我想知道如何在一個(gè)腳本中實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的簡單融合?
A4:確實(shí),技術(shù)上是有可能實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源融合的,但實(shí)際業(yè)務(wù)場景中很少需要在一個(gè) SQL 中同時(shí)關(guān)聯(lián)例如 ES(Elasticsearch)表和 MySQL 表。雖然理論上這種技術(shù)是存在的,但成本相對(duì)較高。我之前提到的 Starrocks 引擎可以查詢 Hive 數(shù)據(jù),甚至直接連接 HDFS,其查詢速度比許多其他工具更快。它也可以查詢 MySQL 和 ES。但它并不支持同一次查詢中同時(shí)跨庫關(guān)聯(lián)查詢這些數(shù)據(jù)源。實(shí)際上,這種需求并不常見,也不需要花費(fèi)太多時(shí)間去優(yōu)化或?qū)崿F(xiàn)。如果你們公司確實(shí)有大量異構(gòu)數(shù)據(jù)源的融合需求,可能需要先從數(shù)據(jù)治理方面入手,找到更有效的方法和工具來解決這個(gè)問題。
Q5:您好,老師。我注意到您將報(bào)表制作成在線 Excel 格式。我想了解制作這種 Excel 功能的研發(fā)成本是否很高?因?yàn)樗嗽S多復(fù)雜的功能和函數(shù)。同時(shí),實(shí)際制作這個(gè)在線 Excel 的成本控制如何?
A5:是的,我們確實(shí)將報(bào)表制作成了在線 Excel 格式。不過,我們并沒有自己從頭開始研發(fā)這些復(fù)雜的功能和函數(shù),而是主要通過集成一些第三方插件來實(shí)現(xiàn)的。因此,實(shí)際投入是可控的,成本并不會(huì)特別高。我們購買了第三方的插件,并在此基礎(chǔ)上將其與我們的前端鏈路相結(jié)合。這樣做的主要目的是模仿 Excel 的效果,同時(shí)確保工具的使用門檻對(duì)用戶來說更低,讓他們能夠更容易地操作和理解。
Q6:在數(shù)據(jù)產(chǎn)品領(lǐng)域,我們面臨哪些常見問題和挑戰(zhàn)?特別是關(guān)于 BI 工具和數(shù)據(jù)跨庫問題。
A6:這里主要有兩個(gè)問題。首先,關(guān)于 BI 工具,我們的定位是針對(duì)兩種不同的場景。京東內(nèi)部已經(jīng)有一些類似于 Tableau 的 BI 工具,它們適合總部的分析師和 BI 工程師使用,但對(duì)于一線工作人員來說,這些工具過于復(fù)雜,因?yàn)橹辽傩枰欢ǖ臄?shù)據(jù)庫操作和 SQL 知識(shí)。因此,我們針對(duì)兩種不同的用戶群體有不同的解決方案。
其次,關(guān)于數(shù)據(jù)跨庫的問題,我認(rèn)為在數(shù)據(jù)建設(shè)上應(yīng)該采用體系化的方法。所有業(yè)務(wù)系統(tǒng)都是分散和多樣化的。我們需要從業(yè)務(wù)系統(tǒng)中集中數(shù)據(jù),建立一個(gè)數(shù)據(jù)部門或數(shù)據(jù)中心。首先是數(shù)據(jù)融合:將 OLTP(在線事務(wù)處理)轉(zhuǎn)換為 OLAP(在線分析處理),在數(shù)倉中集成數(shù)據(jù)后進(jìn)行分析應(yīng)用。理論上,我們應(yīng)該將所有數(shù)據(jù)統(tǒng)一入倉,在數(shù)倉里分層建模,然后有標(biāo)準(zhǔn)化的口徑沉淀,再接入 BI 系統(tǒng)。這是最合理的鏈路。
我有兩個(gè)建議:第一個(gè)是標(biāo)準(zhǔn)化數(shù)據(jù)。從數(shù)倉定義好,盡可能全面地接入 BI 工具,以便它可以靈活地支持業(yè)務(wù)需求和變化。第二個(gè)建議是讓 BI 工具支持更多類似于低代碼可視化的組件,這樣業(yè)務(wù)方可以更靈活、豐富地搭建頁面,提高可視化能力。這樣的整體解決方案,包括嵌入式組件,可以嵌入到他們自己的業(yè)務(wù)系統(tǒng)中,減少將數(shù)據(jù)接過去處理后再定制頁面的成本。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。