中泰證券是經(jīng)中國(guó)證監(jiān)會(huì)批準(zhǔn)設(shè)立的大型綜合類創(chuàng)新試點(diǎn)證券公司,集證券、基金、期貨、直投為一體的綜合性證券控股集團(tuán)。多年來,公司積極致力于為廣大投資者提供證券代理買賣、投資咨詢、財(cái)務(wù)顧問、證券發(fā)行與承銷、收購(gòu)兼并、資產(chǎn)重組、資產(chǎn)管理、融資融券、證券投資基金代銷、股指期貨中間介紹、向保險(xiǎn)機(jī)構(gòu)投資者提供綜合服務(wù)等全方位的專業(yè)化證券投、融資服務(wù)。
憑借良好的專業(yè)能力和業(yè)績(jī)表現(xiàn),中泰證券得到了社會(huì)各界的廣泛認(rèn)可。2007年以來,公司多次被山東省政府授予“山東省金融創(chuàng)新獎(jiǎng)”、“山東省金融發(fā)展貢獻(xiàn)獎(jiǎng)”;公司先后榮獲“金鑰匙獎(jiǎng)”、“中國(guó)最具成長(zhǎng)性證券經(jīng)紀(jì)商”、“中國(guó)最佳證券經(jīng)紀(jì)商”、“最具成長(zhǎng)性投行”、“最佳套利服務(wù)券商”、“最具創(chuàng)新力證券公司”、“優(yōu)秀保薦機(jī)構(gòu)”、“金牛投行進(jìn)步獎(jiǎng)”等稱號(hào);在2011年中國(guó)證監(jiān)會(huì)證券行業(yè)分類評(píng)價(jià)中,公司成為16家A類AA級(jí)券商之一。
而近年來,隨著業(yè)務(wù)的發(fā)展與規(guī)模的擴(kuò)張,中泰證券數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),各類IT系統(tǒng)數(shù)據(jù)量已經(jīng)達(dá)到20多TB的規(guī)模。每日還有大量新增的日志數(shù)據(jù)、交易數(shù)據(jù)需要存儲(chǔ)和處理。中泰證券的IT系統(tǒng)也面臨著一些問題的困擾。
首先是數(shù)據(jù)存儲(chǔ)量龐大?,F(xiàn)有系統(tǒng)存儲(chǔ)了5年的數(shù)據(jù),總共20多TB,日志數(shù)據(jù)超過一半,使用分區(qū)存儲(chǔ)方式,歷史數(shù)據(jù)采用離線存儲(chǔ)方式,存儲(chǔ)資源緊缺,存儲(chǔ)擴(kuò)展花費(fèi)非常高。
其次是現(xiàn)有系統(tǒng)計(jì)算負(fù)載高、延遲長(zhǎng)?,F(xiàn)有系統(tǒng)在運(yùn)行中跨歷史范圍查詢延遲長(zhǎng),一次計(jì)算的數(shù)據(jù)量大,計(jì)算和存儲(chǔ)資源都存在瓶頸;大范圍查詢時(shí),對(duì)生產(chǎn)業(yè)務(wù)影響較大,例如:持倉(cāng)分析、對(duì)賬流水情況、區(qū)間查詢等應(yīng)用,嚴(yán)重影響日常業(yè)務(wù)的正常運(yùn)行。
同時(shí),歷史數(shù)據(jù)服務(wù)請(qǐng)求帶來額外工作負(fù)擔(dān)。歷史數(shù)據(jù)查詢時(shí)需要額外將離線的歷史數(shù)據(jù)導(dǎo)入,再等到系統(tǒng)資源空閑時(shí)進(jìn)行查詢,不僅效率低,而且工作負(fù)擔(dān)繁重,也極易出錯(cuò)。
最后,現(xiàn)有系統(tǒng)的資源已經(jīng)嚴(yán)重緊缺,CPU負(fù)載高、存儲(chǔ)空間不足,已經(jīng)影響到業(yè)務(wù)的正常發(fā)展。
由此背景,本著不斷發(fā)展、不斷進(jìn)步的原則,中泰證券力求解決現(xiàn)有IT系統(tǒng)的這四大問題,并據(jù)此做了一些解決方案的調(diào)研。希望能夠建設(shè)具有高效數(shù)據(jù)處理能力,同時(shí)兼具性價(jià)比的新平臺(tái)。
調(diào)研結(jié)果發(fā)現(xiàn),在解決分布式存儲(chǔ)、計(jì)算問題上,Hadoop技術(shù)近年來得到了廣泛的應(yīng)用。Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。它是針對(duì)大規(guī)模分布式數(shù)據(jù)而開發(fā)的軟件框架,目前已經(jīng)成為企業(yè)管理大數(shù)據(jù)的基礎(chǔ)支撐技術(shù),是解決企業(yè)數(shù)據(jù)中心大數(shù)據(jù)存儲(chǔ)、大規(guī)模數(shù)據(jù)計(jì)算、快速數(shù)據(jù)分析的優(yōu)秀基礎(chǔ)數(shù)據(jù)平臺(tái)。
現(xiàn)在物聯(lián)網(wǎng)、多媒體、移動(dòng)互聯(lián)時(shí)代,Hadoop最適合用于解決由于數(shù)據(jù)爆發(fā)式增長(zhǎng)所帶來的傳統(tǒng)架構(gòu)下存儲(chǔ)和計(jì)算瓶頸的問題。
Hadoop技術(shù)發(fā)展迅速,同時(shí)也有眾多國(guó)內(nèi)、外廠商為企業(yè)客戶提供了的成熟度一站式的大數(shù)據(jù)平臺(tái)產(chǎn)品,個(gè)別技術(shù)領(lǐng)先的廠商也已經(jīng)將Hadoop平臺(tái)用于了金融客戶的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),經(jīng)調(diào)研,恒豐銀行、民生銀行、平安銀行等金融機(jī)構(gòu),就已經(jīng)在用Hadoop技術(shù)解決現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)、計(jì)算、分析等問題。
從行業(yè)內(nèi)成功經(jīng)驗(yàn)及案例來看,Hadoop平臺(tái)已成為現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的必要補(bǔ)充,主要體現(xiàn)在以下五個(gè)方面。
首先是數(shù)據(jù)類型支持,Hadoop平臺(tái)擴(kuò)展了企業(yè)數(shù)據(jù)平臺(tái)對(duì)數(shù)據(jù)處理類型的支持。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)僅僅能夠處理結(jié)構(gòu)化數(shù)據(jù),而對(duì)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理,只能依賴于Hadoop平臺(tái),例如:來自新聞的個(gè)股/主題新聞聚合、智能研報(bào),情感指數(shù),熱度統(tǒng)計(jì)、事件研究、主題跟蹤和發(fā)現(xiàn)等等。
其次是數(shù)據(jù)處理能力方面,Hadoop平臺(tái)使得企業(yè)數(shù)據(jù)處理平臺(tái)的處理能力變得更強(qiáng)大,它能夠處理從中小數(shù)據(jù)量到大數(shù)據(jù)量的數(shù)據(jù)。能夠作為傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)之前的數(shù)據(jù)統(tǒng)一存儲(chǔ)和計(jì)算平臺(tái),將大規(guī)模的數(shù)據(jù)先進(jìn)行清洗、計(jì)算、建模、匯總等,并將最終的精細(xì)化數(shù)據(jù)傳遞給數(shù)據(jù)倉(cāng)庫(kù)。例如恒豐銀行就已經(jīng)將數(shù)據(jù)倉(cāng)庫(kù)中復(fù)雜的、高負(fù)載的拉鏈表程序遷移至Hadoop平臺(tái)。
同時(shí),在業(yè)務(wù)應(yīng)用的支持方面,相比于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),大數(shù)據(jù)平臺(tái)可以完成更多的體現(xiàn)企業(yè)特質(zhì)的有價(jià)值的應(yīng)用,例如:通過數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)算法和模型,結(jié)合相關(guān)數(shù)據(jù),完成財(cái)經(jīng)新聞搜索、新聞?lì)愋头治?、新聞聚類、情感分析、知識(shí)圖譜等等。
技術(shù)架構(gòu)上,基于x86服務(wù)器集群的Hadoop平臺(tái),通過橫向擴(kuò)展的方式,線性擴(kuò)展存儲(chǔ)和計(jì)算資源,避免基于傳統(tǒng)IOE架構(gòu)的下只能進(jìn)行基于硬件資源的縱向擴(kuò)展。從而避免計(jì)算資源的瓶頸和IO資源的瓶頸。
最后,僅花費(fèi)40%左右價(jià)格,便可以達(dá)到甚至超越傳統(tǒng)IOE架構(gòu)的性能。在性價(jià)比方面也極具可行性。
經(jīng)過對(duì)國(guó)、內(nèi)外各個(gè)廠商的技術(shù)調(diào)研,中泰證券選取了星環(huán)科技的TDH(Transwarp Data Hub)大數(shù)據(jù)平臺(tái)。星環(huán)科技是目前國(guó)內(nèi)極少數(shù)掌握企業(yè)級(jí)大數(shù)據(jù)基礎(chǔ)軟件技術(shù)的數(shù)據(jù)庫(kù)廠商。在全球大數(shù)據(jù)去IOE的大背景下,Hadoop已成為公認(rèn)的傳統(tǒng)數(shù)據(jù)庫(kù)的替代品。星環(huán)產(chǎn)品Transwarp Data Hub ( TDH ) 功能比肩硅谷同行, 五大組件Hyperbase, Stream,Inceptor,discovery,和TOS的性能和SQL兼容性在業(yè)界處于領(lǐng)先水平。
測(cè)試結(jié)果顯示,針對(duì)海量數(shù)據(jù)的統(tǒng)計(jì)型業(yè)務(wù)需求,星環(huán)科技的產(chǎn)品TDH Inceptor能夠提供快速的查詢支持,查詢時(shí)間在秒級(jí)或分鐘級(jí),大大提高了查詢效率。
針對(duì)海量數(shù)據(jù)的多維度查詢業(yè)務(wù)需求,TDH Hyperbase能提供極快的查詢支持,測(cè)試數(shù)據(jù)顯示,查詢結(jié)果基本在10s以內(nèi),極大的提高相應(yīng)業(yè)務(wù)場(chǎng)景的查詢效率。而星環(huán)科技的TDH平臺(tái) 能夠提供很好的存儲(chǔ)過程支持,以滿足中泰證券的業(yè)務(wù)需求。
經(jīng)過對(duì)現(xiàn)有成熟Hadoop產(chǎn)品、技術(shù),以及金融行業(yè)相關(guān)應(yīng)用的調(diào)研,星環(huán)科技的TDH平臺(tái)技術(shù)領(lǐng)先、性能優(yōu)越、功能全面、運(yùn)行穩(wěn)定,能夠很好的解決現(xiàn)有平臺(tái)存儲(chǔ)、計(jì)算、分析等問題,同時(shí)能夠滿足中泰證券未來業(yè)務(wù)發(fā)展的需要。
利用星環(huán)大數(shù)據(jù)平臺(tái),將為打造中泰證券新一代數(shù)據(jù)平臺(tái),為上層應(yīng)用提供更高效、可擴(kuò)展的數(shù)據(jù)服務(wù)。利用整體規(guī)劃、分布實(shí)施的策略,依托星環(huán)大數(shù)據(jù)平臺(tái)改造和提升現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)以及歷史數(shù)據(jù)查詢系統(tǒng)的性能和穩(wěn)定性,同時(shí)建設(shè)財(cái)經(jīng)新聞搜索、新聞?lì)愋头治?、新聞聚類、情感分析、知識(shí)圖譜等基于大數(shù)據(jù)的分析、挖掘應(yīng)用,讓數(shù)據(jù)真正發(fā)揮價(jià)值。