數(shù)據(jù)科學(xué)是對(duì)大數(shù)據(jù)或物聯(lián)網(wǎng)(IoT)環(huán)境進(jìn)行的任何分析練習(xí)的核心。數(shù)據(jù)科學(xué)涉及廣泛的技術(shù),業(yè)務(wù)和機(jī)器學(xué)習(xí)算法。數(shù)據(jù)科學(xué)的目的不僅是做機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析,而且還可以從沒(méi)有統(tǒng)計(jì)知識(shí)的用戶(hù)理解的數(shù)據(jù)中得出洞察。
在諸如大數(shù)據(jù)和物聯(lián)網(wǎng)等快節(jié)奏的環(huán)境中,數(shù)據(jù)類(lèi)型可能隨時(shí)間而變化,變得難以每次都維護(hù)和重新建立模型。這個(gè)差距需要一種自動(dòng)化的方式來(lái)管理這些環(huán)境中的數(shù)據(jù)科學(xué)算法。數(shù)據(jù)科學(xué)的興起旨在將我們從基于規(guī)則的系統(tǒng)轉(zhuǎn)移到機(jī)器自身學(xué)習(xí)規(guī)則的系統(tǒng)中。機(jī)器學(xué)習(xí)使數(shù)據(jù)科學(xué)固有地部分自動(dòng)化。需要手動(dòng)干預(yù)的數(shù)據(jù)科學(xué)的一半仍然是自動(dòng)化的。然而,這些領(lǐng)域涉及到人們的經(jīng)驗(yàn)和智慧:數(shù)據(jù)科學(xué)家,商業(yè)專(zhuān)家,軟件開(kāi)發(fā)人員,數(shù)據(jù)集成商,目前有助于使數(shù)據(jù)科學(xué)項(xiàng)目運(yùn)作的人。這使得數(shù)據(jù)科學(xué)的各個(gè)方面都難以實(shí)現(xiàn)自動(dòng)化。但是,我們可以將數(shù)據(jù)科學(xué)自動(dòng)化視為兩級(jí)架構(gòu),其中:
不同的數(shù)據(jù)科學(xué)學(xué)科/組件是自動(dòng)化的
所有單獨(dú)的自動(dòng)化組件都是互連的,以形成一個(gè)連貫的數(shù)據(jù)科學(xué)系統(tǒng)
我們可以將數(shù)據(jù)科學(xué)系統(tǒng)視為自動(dòng)化,只要它們足夠能夠在我們拋出數(shù)據(jù)集時(shí)解決我們的問(wèn)題。此外,應(yīng)該足夠聰明地向我們提供我們可以理解的語(yǔ)言中的所有可能的解決方案。
數(shù)據(jù)準(zhǔn)備,機(jī)器學(xué)習(xí),領(lǐng)域知識(shí)和結(jié)果解釋是成功執(zhí)行數(shù)據(jù)科學(xué)項(xiàng)目所需的四個(gè)主要任務(wù)。所有這些任務(wù)都必須轉(zhuǎn)換為自動(dòng)化模塊,以創(chuàng)建一個(gè)自動(dòng)化的數(shù)據(jù)科學(xué)系統(tǒng)(圖1)。
數(shù)據(jù)準(zhǔn)備自動(dòng)化
數(shù)據(jù)準(zhǔn)備是每次創(chuàng)建模型時(shí)必須完成的重復(fù)任務(wù)。數(shù)據(jù)提取,數(shù)據(jù)清理和數(shù)據(jù)轉(zhuǎn)換(例如估算空值和算法特定轉(zhuǎn)換)是屬于此類(lèi)別的一些任務(wù)。許多組織將這些任務(wù)自動(dòng)化,并將引擎標(biāo)記為數(shù)據(jù)科學(xué)自動(dòng)化工具。但是,大多數(shù)這些工具使用基于規(guī)則的邏輯來(lái)自動(dòng)執(zhí)行數(shù)據(jù)預(yù)處理任務(wù)。這是正確的做法嗎?我們是否需要基于規(guī)則的系統(tǒng)來(lái)自動(dòng)化數(shù)據(jù)科學(xué),這是終止基于規(guī)則的系統(tǒng)誕生的?不,我們需要通過(guò)機(jī)器學(xué)習(xí)自動(dòng)進(jìn)行數(shù)據(jù)預(yù)處理。例如,關(guān)于什么預(yù)處理功能必須應(yīng)用于問(wèn)題的數(shù)據(jù)的決定是由機(jī)器本身做出的。
特征工程是需要自動(dòng)化的另一個(gè)數(shù)據(jù)準(zhǔn)備領(lǐng)域。特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為屬性/預(yù)測(cè)變量的技術(shù),可提高機(jī)器學(xué)習(xí)項(xiàng)目的準(zhǔn)確性。特征工程自動(dòng)化仍處于初級(jí)階段,也是一個(gè)積極的研究領(lǐng)域。麻省理工學(xué)院的數(shù)據(jù)科學(xué)家正在開(kāi)發(fā)一種能夠從原始數(shù)據(jù)生成特征的“深度特征綜合”算法取得了令人難以置信的進(jìn)步。
自動(dòng)機(jī)器學(xué)習(xí)/統(tǒng)計(jì)
這是統(tǒng)計(jì)程序自動(dòng)化的數(shù)據(jù)科學(xué)自動(dòng)化領(lǐng)域。系統(tǒng)根據(jù)提供的數(shù)據(jù)集執(zhí)行最佳算法。它隱藏了用戶(hù)的復(fù)雜性和算法的數(shù)學(xué)復(fù)雜性,使其向群眾提供。用戶(hù)需要向自動(dòng)統(tǒng)計(jì)學(xué)家提供數(shù)據(jù)。它了解數(shù)據(jù),創(chuàng)建不同的數(shù)學(xué)模型,并根據(jù)最能說(shuō)明數(shù)據(jù)的模型返回結(jié)果。自動(dòng)統(tǒng)計(jì)學(xué)家是一個(gè)復(fù)雜的科學(xué),因?yàn)樗枰到y(tǒng)學(xué)習(xí)輸入數(shù)據(jù)模式,找到最佳擬合值,并使用幾種統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法自我優(yōu)化其參數(shù)。這需要各種算法約束的推廣和巨大的計(jì)算能力。
通過(guò)利用基于云的服務(wù)器來(lái)管理高計(jì)算能力的需求,自動(dòng)機(jī)器學(xué)習(xí)逐漸成熟。創(chuàng)建數(shù)據(jù)產(chǎn)品的組織逐漸包括諸如元學(xué)習(xí)的功能,基于數(shù)據(jù)集的元數(shù)據(jù)自動(dòng)選擇合適的機(jī)器學(xué)習(xí)算法的過(guò)程。像H2O.ai這樣的組織通過(guò)引入幾個(gè)內(nèi)置功能來(lái)推廣模型構(gòu)建過(guò)程,并提供了許多模型調(diào)整選項(xiàng),可以更好地控制算法。此外,他們已經(jīng)將超參數(shù)調(diào)優(yōu)作為幾乎所有算法的特征,使數(shù)據(jù)科學(xué)家免于使用不同參數(shù)測(cè)試模型的繁瑣過(guò)程。超參數(shù)調(diào)整是使機(jī)器學(xué)習(xí)模型重新運(yùn)行多次的自動(dòng)化嘗試和錯(cuò)誤的過(guò)程,以確定數(shù)據(jù)集上的模型的適當(dāng)參數(shù)。
洞察產(chǎn)生自動(dòng)化
數(shù)據(jù)科學(xué)項(xiàng)目的結(jié)果直到和除非業(yè)務(wù)用戶(hù)或沒(méi)有統(tǒng)計(jì)知識(shí)的觀眾理解它才有用。數(shù)據(jù)科學(xué)活動(dòng)的奶油是講故事的部分,數(shù)據(jù)科學(xué)家以全面透明的方式向人們解釋結(jié)果。自動(dòng)化此任務(wù)需要從統(tǒng)計(jì)學(xué)家友好的結(jié)果自動(dòng)生成用戶(hù)友好的文本。自然語(yǔ)言生成(NLG)是當(dāng)前的前沿框架,可以幫助將語(yǔ)言翻譯成自然語(yǔ)言。 Nlgserv和simplenlg是我們可以用于此任務(wù)的兩個(gè)NLG框架。此外,我們可以使用馬爾科夫鏈自動(dòng)生成句子和制作故事。
數(shù)據(jù)科學(xué)自動(dòng)化的創(chuàng)新已經(jīng)開(kāi)始,并將在未來(lái)幾年逐漸演變。我們目前正處于一個(gè)階段,我們已經(jīng)開(kāi)始處理個(gè)別數(shù)據(jù)科學(xué)模塊的自動(dòng)化。從這里,我們需要轉(zhuǎn)移到更通用的數(shù)據(jù)科學(xué)平臺(tái),所有模塊都自動(dòng)化并集成在一起。這是一個(gè)變化的開(kāi)始,就像房間大小的計(jì)算機(jī)被轉(zhuǎn)換為信用卡大小的計(jì)算機(jī)一樣。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。