日前,國(guó)際數(shù)據(jù)庫(kù)頂級(jí)學(xué)術(shù)會(huì)議 ICDE 2024 于荷蘭烏得勒支舉行。華為云GaussDB、GeminiDB及數(shù)據(jù)領(lǐng)域17篇論文入選,華為成為全球論文入選數(shù)量最多的廠(chǎng)商。華為愛(ài)丁堡研究所數(shù)據(jù)庫(kù)實(shí)驗(yàn)室主任Nikolaos Ntarmos發(fā)表了題為”Huawei Cloud GaussDB, a Better Way to Database“的演講,向全球的學(xué)術(shù)機(jī)構(gòu)和代表介紹了華為云GaussDB的技術(shù)和商業(yè)成果。
ICDE全稱(chēng)為“IEEE International Conference on Data Engineering”(IEEE國(guó)際數(shù)據(jù)工程大會(huì)),與SIGMOD、VLDB 并稱(chēng)數(shù)據(jù)庫(kù)領(lǐng)域三大頂會(huì),是數(shù)據(jù)庫(kù)領(lǐng)域最權(quán)威的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一,在國(guó)際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。
ICDE收錄了各大研究機(jī)構(gòu)以及科技企業(yè)在數(shù)據(jù)庫(kù)領(lǐng)域最前沿、頂級(jí)的研究成果。ICDE 2024是第40屆IEEE國(guó)際數(shù)據(jù)工程大會(huì),華為17篇論文的入選,是華為科研團(tuán)隊(duì)與外部團(tuán)隊(duì)或組織友好合作共同努力的結(jié)果。下面將摘選華為在本次大會(huì)入選的部分論文。
GaussML: An End-to-End In-database Machine Learning System
《GaussML: An End-to-End In-database Machine Learning System》論文是由清華大學(xué)、華為和蘇黎世理工大學(xué)聯(lián)合共同完成,通過(guò)提升數(shù)據(jù)庫(kù)內(nèi)機(jī)器學(xué)習(xí)算法訓(xùn)練和推理的性能,深度滿(mǎn)足用戶(hù)實(shí)時(shí)性分析的訴求。該論文獲得大會(huì)評(píng)審組的高度評(píng)價(jià),認(rèn)為其提出了一個(gè)全新的機(jī)器學(xué)習(xí)引擎。
原生庫(kù)內(nèi)機(jī)器學(xué)習(xí)框架,簡(jiǎn)稱(chēng)GaussML,將機(jī)器學(xué)習(xí)訓(xùn)練作為執(zhí)行算子,利用數(shù)據(jù)庫(kù)并行和分布式能力,展示出超越業(yè)界同類(lèi)產(chǎn)品10倍以上機(jī)器學(xué)習(xí)推理和訓(xùn)練的性能優(yōu)勢(shì),主要能力包括:
第一,論文首次提出數(shù)據(jù)庫(kù)內(nèi)原生AI機(jī)器學(xué)習(xí)引擎的架構(gòu),機(jī)器學(xué)習(xí)算法訓(xùn)練和推理融合在SQL執(zhí)行流程中,借助數(shù)據(jù)庫(kù)的優(yōu)化器、負(fù)載管理、并發(fā)處理、分布式并行能力,實(shí)現(xiàn)機(jī)器學(xué)習(xí)訓(xùn)練和推理的極致高效;
第二,GaussML同時(shí)構(gòu)建庫(kù)內(nèi)AutoML能力,可以自適應(yīng)進(jìn)行參數(shù)調(diào)整,根據(jù)負(fù)載變化進(jìn)行模型更正,設(shè)計(jì)一種端到端模型自動(dòng)調(diào)優(yōu)的能力,簡(jiǎn)化用戶(hù)調(diào)整模型參數(shù)代價(jià),提升數(shù)據(jù)庫(kù)內(nèi)模型的使用便利;
第三,GaussML通過(guò)在數(shù)據(jù)庫(kù)內(nèi)置原生機(jī)器學(xué)習(xí)訓(xùn)練和推理流程,實(shí)現(xiàn)端到端自動(dòng)調(diào)優(yōu)能力,構(gòu)建完整的庫(kù)內(nèi)機(jī)器學(xué)習(xí)引擎,支撐客戶(hù)業(yè)務(wù)的智能實(shí)時(shí)分析。該框架通過(guò)提供SQL-like接口,簡(jiǎn)化數(shù)據(jù)科學(xué)家使用機(jī)器學(xué)習(xí)訓(xùn)練和推理代價(jià),支持常用的機(jī)器學(xué)習(xí)算法,滿(mǎn)足絕大多數(shù)客戶(hù)使用。
綜上,論文中提出一種全新的機(jī)器學(xué)習(xí)引擎,在多個(gè)公開(kāi)數(shù)據(jù)集上該引擎表現(xiàn)出卓越的高性能優(yōu)勢(shì),向數(shù)據(jù)庫(kù)智能化發(fā)展上邁出了更遠(yuǎn)一步。
更多論文詳情,請(qǐng)點(diǎn)擊鏈接下載:https://e-campaign.huawei.com/events3/UniversalForm/register/988996654/register.html?site=cn&formId=7117&way=onsite
GaussDB-Global: A Geographically Distributed Database System
《GaussDB-Global: A Geographically Distributed Database System》論文是華為技術(shù)團(tuán)隊(duì)的研究成果。論文中提出了一種基于高精度時(shí)鐘同步方法的分布式事務(wù)處理方法,并構(gòu)建了跨地域分布式的全球數(shù)據(jù)庫(kù)系統(tǒng)GaussDB-Global。該論文的主要實(shí)現(xiàn):
第一,采用同步時(shí)鐘的去中心化方法,地理分布式數(shù)據(jù)庫(kù)系統(tǒng)解決了中心化事務(wù)管理器的性能瓶頸問(wèn)題,實(shí)現(xiàn)了中心化的事務(wù)管理到去中心化分布式事務(wù)管理之間無(wú)縫過(guò)渡,提供了更加靈活、便捷的部署方式,實(shí)現(xiàn)一套集群全球化部署。
第二,在分片數(shù)據(jù)的遠(yuǎn)程讀取和長(zhǎng)距離日志傳送問(wèn)題上,地理分布式數(shù)據(jù)庫(kù)系統(tǒng)支持在異步副本上讀取,強(qiáng)一致性,可調(diào)整的新鮮度保證,以及動(dòng)態(tài)負(fù)載均衡。在跨地域集群上的實(shí)驗(yàn)結(jié)果表明,與中心化基線(xiàn)相比,該方法提供了高達(dá)14倍的只讀性能,標(biāo)準(zhǔn)數(shù)據(jù)集TPC-C吞吐量高出50%以上。
QCFE: An Efficient Feature Engineering for Query Cost Estimation
《QCFE: An Efficient Feature Engineering for Query Cost Estimation》論文是由哈爾濱工業(yè)大學(xué)和華為團(tuán)隊(duì)共同完成,通過(guò)提出了一個(gè)高效的特征工程方法(QCFE),解決了現(xiàn)有查詢(xún)語(yǔ)句評(píng)估時(shí)的特征工程問(wèn)題,該方法在時(shí)間-準(zhǔn)確性效率方面取得顯著改進(jìn)。論文的主要貢獻(xiàn)包括:
第一,提出了特征快照(Feature Snapshot)的概念,用于整合被忽略變量的影響,如數(shù)據(jù)庫(kù)旋鈕、硬件等,以提高查詢(xún)成本模型的準(zhǔn)確性。
第二,設(shè)計(jì)了差異傳播特征減少方法,通過(guò)剪枝無(wú)效特征,進(jìn)一步提高模型訓(xùn)練和推斷效率。
第三,引入了簡(jiǎn)化的SQL模板設(shè)計(jì),以提高計(jì)算特征快照的時(shí)間效率。
第四,在廣泛的基準(zhǔn)測(cè)試中,展示了QCFE相對(duì)于現(xiàn)有方法在時(shí)間-準(zhǔn)確性效率方面的優(yōu)勢(shì),包括TPC-H、job-light和Sysbench等。
綜上,該研究的創(chuàng)新點(diǎn)在于提出了一種有效的特征工程方法,能夠顯著改善查詢(xún)成本估算的時(shí)間和準(zhǔn)確性。
TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation
《TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation》論文是由廈門(mén)大學(xué)、清華大學(xué)和華為共同研究,通過(guò)提出一個(gè)基于對(duì)抗性擾動(dòng)的工作負(fù)載生成框架TRAP,解決了現(xiàn)有的index advisor的魯棒性評(píng)估問(wèn)題。
TRAP框架能夠生成有效的對(duì)抗性工作負(fù)載,用于評(píng)估index advisor的魯棒性。在index advisor的評(píng)估方面,TRAP具有明顯優(yōu)勢(shì)。研究發(fā)現(xiàn):
第一,通過(guò)對(duì)抗性工作負(fù)載的有效生成,可以準(zhǔn)確評(píng)估index advisor的魯棒性,因?yàn)檫@些工作負(fù)載不會(huì)偏離原始工作負(fù)載,但可以識(shí)別由于工作負(fù)載漂移而導(dǎo)致的性能漏洞。
第二,為設(shè)計(jì)更具魯棒性的基于學(xué)習(xí)的index advisor,采用細(xì)粒度的狀態(tài)表示和候選剪枝策略可以提高性能。
第三,對(duì)于設(shè)計(jì)更具魯棒性的基于啟發(fā)式的index advisor,考慮索引選擇過(guò)程中的索引交互作用和多列索引的使用是至關(guān)重要的。
綜上,以上發(fā)現(xiàn)為index advisor的設(shè)計(jì)和評(píng)估提供了深刻見(jiàn)解,并強(qiáng)調(diào)了在實(shí)際應(yīng)用中評(píng)估index advisor的重要性。
Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection
《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》論文的問(wèn)世,是為了幫助時(shí)序數(shù)據(jù)庫(kù)通過(guò)提前感知異常來(lái)降低損失。通過(guò)設(shè)計(jì)了一個(gè)輕量的基于深度學(xué)習(xí)的時(shí)頻掩碼自編碼器異常檢測(cè)算法(TFMAE),展示了其在多個(gè)公開(kāi)數(shù)據(jù)集上的良好性能。該論文被大會(huì)評(píng)審組高度評(píng)價(jià),認(rèn)為其提出了時(shí)序異常檢測(cè)的新范式,最終無(wú)需修改被 ICDE 2024 直接錄用。
作為首篇采用時(shí)頻掩碼對(duì)比的時(shí)序異常檢測(cè)論文,論文研究圍繞以下三點(diǎn)進(jìn)行:
第一,提出了基于時(shí)間域和頻率域掩碼的時(shí)間序列異常檢測(cè)對(duì)比準(zhǔn)則,其代替?zhèn)鹘y(tǒng)重建誤差確定異常檢測(cè)閾值,這是一個(gè)不受分布偏移影響的判斷準(zhǔn)則。
第二,提出了基于窗口的時(shí)間域掩碼策略和基于幅度的頻率域掩碼策略以消除序列中潛在的異常觀(guān)察和模式。因此,TFMAE 是一個(gè)抗異常偏置模型。
第三,五個(gè)真實(shí)世界數(shù)據(jù)集與兩個(gè)合成數(shù)據(jù)集上實(shí)驗(yàn)表明,TFMAE 在檢測(cè)性能與速度方面均取得提升。
綜上,《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》是首篇采用時(shí)頻掩碼對(duì)比的時(shí)序異常檢測(cè)論文,對(duì)醫(yī)療、制造、金融等行業(yè)的廣泛應(yīng)用,具有現(xiàn)實(shí)推動(dòng)作用。
本次大會(huì)華為入選論文研究方向涉及AI4DB、時(shí)序數(shù)據(jù)庫(kù)、查詢(xún)優(yōu)化、數(shù)據(jù)庫(kù)內(nèi)機(jī)器學(xué)習(xí)算法訓(xùn)練和推理……如此多的科技成果得益于華為長(zhǎng)期在數(shù)據(jù)庫(kù)前沿技術(shù)領(lǐng)域的探索和實(shí)踐,以及與全球頂尖學(xué)術(shù)機(jī)構(gòu)共同解決數(shù)據(jù)庫(kù)領(lǐng)域世界難題,通過(guò)產(chǎn)、學(xué)、研、用深度融合,將前沿創(chuàng)新研究融入產(chǎn)品技術(shù),構(gòu)建健康的數(shù)據(jù)庫(kù)產(chǎn)業(yè)生態(tài),為客戶(hù)提供創(chuàng)新的、有競(jìng)爭(zhēng)力的數(shù)據(jù)庫(kù)產(chǎn)品和服務(wù)。
未來(lái),華為將在數(shù)據(jù)庫(kù)領(lǐng)域持續(xù)創(chuàng)新,持續(xù)深耕,引領(lǐng)行業(yè)發(fā)展走出新高度。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。