寫在開頭,我們是誰?
我們是星環(huán)科技的大數(shù)據(jù)研發(fā)部門,是國內(nèi)專注于大數(shù)據(jù)平臺技術(shù)研發(fā)的團(tuán)隊,大數(shù)據(jù)領(lǐng)域平均工作經(jīng)驗超過3年,一支有技術(shù)理想的團(tuán)隊。
為什么我們要創(chuàng)建大數(shù)據(jù)開放實驗室的公眾號?
1. 復(fù)雜的大數(shù)據(jù)技術(shù)棧
提到大數(shù)據(jù),很多人可能都聽說過4V - Big Volume, Big Velocity, Big Variety, Big Value,大數(shù)據(jù)從業(yè)人員的工作內(nèi)容也都和這4個V中的某些內(nèi)容密切相關(guān)。
相比較傳統(tǒng)的數(shù)據(jù)庫技術(shù),大數(shù)據(jù)的技術(shù)棧在過去幾年取得非常迅速的發(fā)展,尤其是Hadoop和Spark已經(jīng)構(gòu)建了一個龐大的技術(shù)生態(tài)圈。
文件系統(tǒng)方面,除了傳統(tǒng)的行式存儲,還有新的列式存儲格式如ORC,Parquet,以及一些新型的用SSD或者內(nèi)存加速的存儲,如Transwarp Holodesk以及Tachyon。此外,還有Ceph等新型文件系統(tǒng)。
在文件系統(tǒng)之上,各種存儲引擎也迅速發(fā)展,如NoSQL類的HBase,MongoDB,CouchDB,它們在一些大數(shù)據(jù)場景下表現(xiàn)的非常出色(如高并發(fā),文檔存儲等),而放棄另外一些特性,如事務(wù)和SQL支持;不過近年也涌現(xiàn)出一些新的NoSQL存儲引擎,重新拾起來SQL和事務(wù),如VoltDB,CockroachDB,以及Transwarp Hyperbase。
計算引擎的發(fā)展更是日新月異,可以按照批處理/交互式/流式/迭代式做個大體的分類。批處理引擎在大數(shù)據(jù)領(lǐng)域發(fā)展的最快,MapReduce,Spark,Tez等已在大規(guī)模商用;交互式分析引擎的代表有Dremel,Presto,Impala等,目前還處于未能完全證明商用能力,但是在快速發(fā)展并且驗證的階段;流式引擎這兩年發(fā)展很快,Spark Streaming/Flink/Storm/Samza是其中的代表;迭代式引擎有Graphx,Pregel,以及Transwarp Graphene等。
數(shù)據(jù)分析領(lǐng)域,各種工具更是層出紛紜,如Hive,Mahout,MLlib,R,Kylin等,除了開源技術(shù),我們研發(fā)的Transwarp Inceptor是國內(nèi)經(jīng)過商業(yè)檢驗的比較優(yōu)秀的大數(shù)據(jù)分析工具。
數(shù)據(jù)集成和調(diào)度工具也有很多的開源項目涌現(xiàn)出來,如Oozie,Azkaban,Crunch,Sqoop,F(xiàn)lume,Kafka等等。
因為這么復(fù)雜的技術(shù)棧,以及各種層出不窮的新技術(shù),開發(fā)者會面臨著極大的學(xué)習(xí)成本,以及很困難的選型考量。如何選擇更合適的技術(shù)方案,如何做基于大數(shù)據(jù)的新的應(yīng)用的開發(fā),如何去管理和運維大數(shù)據(jù)產(chǎn)品,這是新技術(shù)時代的主要問題。因此,我們希望通過大數(shù)據(jù)開放實驗室,將我們掌握的一些技術(shù)/原理等傳播給讀者,分享我們的經(jīng)驗和教訓(xùn),共同促進(jìn)大家對大數(shù)據(jù)技術(shù)的掌握和理解。
2. 曲折反復(fù)的發(fā)展趨勢
為了處理大數(shù)據(jù)的4個V,大數(shù)據(jù)的技術(shù)棧變得非常繁雜,同時各個技術(shù)的發(fā)展趨勢在過去幾年也有一些有意思的變化。如MPP并行計算和分布式批處理計算的方向上分分合合,低延時計算架構(gòu)的演變,以及NoSQL數(shù)據(jù)庫的演進(jìn)路線。
傳統(tǒng)的并行數(shù)據(jù)庫(如MPP架構(gòu))和基于MapReduce/Spark的分布式批處理的計算模式,在2010年左右曾經(jīng)發(fā)生過比較激烈的技術(shù)方向辯論(http://database.cs.brown.edu/papers/stonebraker-cacm2010.pdf, http://www.cs.princeton.edu/courses/archive/spr11/cos448/web/docs/week10_reading2.pdf ),而后幾年,Cloudera的分析引擎Impala又將Share Nothing 的MPP(Massive Parallel Processing)處理風(fēng)格引入,分歧的雙方似乎又回到了起點。不過隨著Spark等類似的內(nèi)存計算引擎的興起以及完善,
MPP的技術(shù)又被拋棄,并且涌現(xiàn)出來性能和可擴(kuò)展性更好的數(shù)據(jù)分析引擎,如Transwarp Inceptor,Presto以及SparkSQL,分布式批處理又再次和MPP技術(shù)方向分道揚鑣。
為了解決Big Velocity,滿足IoT等場景的需求,實時和低延時處理的計算架構(gòu)在快速的發(fā)展過程中,如何處理批處理和交互式分析之間的平衡,也不斷推進(jìn)這計算架構(gòu)的演進(jìn)。最經(jīng)典的莫過于Lambda架構(gòu),同時也是使用比較廣泛的架構(gòu);此外Twitter的SummingBird支持以批處理或者流處理模式,或者混合模式以統(tǒng)一的方式來執(zhí)行代碼,也是個比較新穎的架構(gòu)。
NoSQL數(shù)據(jù)庫發(fā)展也非常有意思,早期因為傳統(tǒng)數(shù)據(jù)庫處理速度慢,事務(wù)過于復(fù)雜,SQL編譯過重等原因,不能滿足很多場景的需求,各種NoSQL數(shù)據(jù)庫快速發(fā)展起來,如HBase,Cassandra,MongoDB等,API編程開始流行。然而隨著時間推移,各個NoSQL數(shù)據(jù)庫發(fā)現(xiàn)了API編程的缺陷以及功能缺失導(dǎo)致的適用場景首先,又開始走回SQL之路,如Cassandra和MongoDB;此外,不支持事務(wù)的架構(gòu)又不能保證2~3年后是否會因為不滿足業(yè)務(wù)需求而過時,也是NoSQL數(shù)據(jù)庫的一個隱憂。因此,圖靈獎得主大神Michael Stonebraker預(yù)測NoSQL數(shù)據(jù)庫最終將和SQL數(shù)據(jù)庫融合:SQL數(shù)據(jù)庫們通過增加對非結(jié)構(gòu)化數(shù)據(jù)的處理,如JSON的支持來提升業(yè)務(wù)場景的可適應(yīng)性;而NoSQL數(shù)據(jù)庫則開始加入SQL的支持和分布式事務(wù)(參見Michael Stonebraker的演講 “What Does ‘Big Data’ Mean and Who Will Win?”)。 在這點上,Transwarp Hyperbase早已經(jīng)開始了這個技術(shù)融合,基本完成了SQL支持/分布式事務(wù)以及非結(jié)構(gòu)化數(shù)據(jù)處理能力的打造。
技術(shù)的發(fā)展趨勢往往不是那么一往無前,而是一直不停的迭代,然后論證,然后互相影響,并可能出現(xiàn)一些方向上的變化。大數(shù)據(jù)技術(shù)也同樣如此,對于從業(yè)人員來說,在設(shè)計一個新系統(tǒng)的時候往往需要考慮到今后一定時間的發(fā)展趨勢,并接合著業(yè)務(wù)來推進(jìn)系統(tǒng)的演進(jìn)。這也是我們創(chuàng)建開發(fā)實驗室的第二個原因:與廣大從業(yè)人員一起對大數(shù)據(jù)發(fā)展的歷史故事進(jìn)行梳理,分析對未來技術(shù)的趨勢的看法,然后在細(xì)分領(lǐng)域?qū)で笸黄疲愿玫倪m應(yīng)這個大數(shù)據(jù)時代。
3. 星環(huán)大數(shù)據(jù)技術(shù)的布道者
星環(huán)專注于大數(shù)據(jù)技術(shù)超過3年,目前Transwarp Data Hub包含4個組件來分別解決大數(shù)據(jù)的4-V技術(shù)問題。Inceptor解決了Big Volume上的ETL和Analytics的問題,Stream針對Big Velocity提供了基于SQL的解決方案,Hyperbase融合了對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的處理能力,從而可以滿足Big Variety的需要,Discover幫助用戶來挖掘出big data里面的Big Value。
TDH走的是非開源路線,因此在技術(shù)傳播上沒有開源項目對大眾影響深遠(yuǎn)。我們認(rèn)為技術(shù)的共享不應(yīng)該有邊界,因此希望通過這個公眾平臺,將我們研發(fā)的有意思的功能,模型,方案等新技術(shù),通過比較合理的方式與外界共享,并通過這個平臺構(gòu)建一個積極反饋的閉環(huán)。
我們的愿景
以技術(shù)之名,做一個有價值的大數(shù)據(jù)技術(shù)深度分享的平臺;
以原創(chuàng)為主,做一個有深度的創(chuàng)新思維的技術(shù)社區(qū);
歡迎有技術(shù)理想的朋友們加入我們。
關(guān)于大數(shù)據(jù)開放實驗室
大數(shù)據(jù)開放實驗室是一個豐富的大數(shù)據(jù)學(xué)習(xí)和大數(shù)據(jù)資訊平臺,由行業(yè)內(nèi)頂尖大數(shù)據(jù)公司星環(huán)科技運營,每周都會放送一定數(shù)量的博文干貨,小到各種大數(shù)據(jù)技術(shù)掃盲貼,大到各種大數(shù)據(jù)前沿技術(shù)分析文,另外還有一些大數(shù)據(jù)熱門產(chǎn)品的內(nèi)部窺探,大數(shù)據(jù)未來的發(fā)展動向等一系列非常具有市場參考價值的文章。除此之外,大數(shù)據(jù)開放實驗室也是一個大數(shù)據(jù)技術(shù)交流和分享的圈子,用戶可以在該公眾號留言,提出自己的想法或問題,屆時會有管理員進(jìn)行回答,后期甚至?xí)性敿?xì)的針對該問題或想法的博文放送,歡迎關(guān)注“大數(shù)據(jù)開放實驗室”。
關(guān)注公眾號“大數(shù)據(jù)開放實驗室”,獲取最新技術(shù)干貨。