在我從事數(shù)據(jù)工作的10年時(shí)間里,我注意到,為了進(jìn)行數(shù)據(jù)分析,人們非常重視學(xué)習(xí)定量技術(shù)。我花了數(shù)千個(gè)小時(shí)完善從統(tǒng)計(jì)學(xué)到機(jī)器學(xué)習(xí)再到經(jīng)濟(jì)學(xué)等各個(gè)領(lǐng)域的知識(shí)。然而,我發(fā)現(xiàn)很少有人能指導(dǎo)我如何通過(guò)數(shù)據(jù)分析來(lái)回答業(yè)務(wù)問(wèn)題的戰(zhàn)略方法。我還遇到過(guò)許多初級(jí)分析師,他們經(jīng)常把數(shù)據(jù)分析誤認(rèn)為是定量技術(shù),而忽視了分析是一種強(qiáng)大的思維方式和一種很好的解決問(wèn)題的工具這一事實(shí)——即數(shù)據(jù)分析不僅僅是其方法的產(chǎn)物。
在這個(gè)由多個(gè)部分組成的系列中,我希望編寫一份數(shù)據(jù)分析入門指南,以提供使用分析來(lái)回答業(yè)務(wù)問(wèn)題的結(jié)構(gòu)化方法。在第1部分中,我將介紹數(shù)據(jù)分析及其可以幫助回答的四種類型的問(wèn)題。這可以用作正確識(shí)別分析問(wèn)題的指導(dǎo)。在以下文章中,我將提出一種回答每種類型問(wèn)題的策略和一種選擇正確技術(shù)的方法。
一、什么是數(shù)據(jù)分析
那么,數(shù)據(jù)分析是什么?它的目的是什么?一般來(lái)說(shuō),分析是通過(guò)將一些復(fù)雜信息分解成更小、更簡(jiǎn)單的部分并首先理解這些部分來(lái)理解它們的過(guò)程。這個(gè)過(guò)程用于幫助解決問(wèn)題或回答問(wèn)題。與一般情況一樣,數(shù)據(jù)分析是通過(guò)嘗試了解有關(guān)復(fù)雜數(shù)據(jù)的更易于管理的信息來(lái)理解復(fù)雜數(shù)據(jù)的過(guò)程。
分析師可以使用多種技術(shù)進(jìn)行數(shù)據(jù)分析。例如,如果我們與醫(yī)療機(jī)構(gòu)經(jīng)理合作,他們要求我們描述典型患者,我們會(huì)使用統(tǒng)計(jì)方法(如取平均值或計(jì)算范圍)來(lái)描述患者群體。因此,我們只需使用一些更簡(jiǎn)單的統(tǒng)計(jì)數(shù)據(jù)來(lái)總體描述診所的所有患者。這個(gè)問(wèn)題要求我們理解規(guī)模復(fù)雜的數(shù)據(jù),我們可以通過(guò)了解一些不太復(fù)雜的數(shù)據(jù)來(lái)做到這一點(diǎn)。
數(shù)據(jù)分析是“通過(guò)分析數(shù)據(jù)來(lái)回答問(wèn)題、提取見解和識(shí)別趨勢(shì)的過(guò)程和實(shí)踐”[1]。然而,盡管數(shù)據(jù)分析需要借鑒統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)學(xué)和其他學(xué)科的技術(shù),數(shù)據(jù)分析師并不是統(tǒng)計(jì)學(xué)家、數(shù)據(jù)科學(xué)家或數(shù)學(xué)家。雖然數(shù)據(jù)科學(xué)家應(yīng)該非常了解他們正在研究的主題,但他們不必是該主題的專業(yè)專家。數(shù)據(jù)分析師的目標(biāo)是足夠熟悉各種技術(shù),并成為正確應(yīng)用這些技術(shù)的專家,以便產(chǎn)生見解和建議,并使業(yè)務(wù)合作伙伴能夠做出更好的、基于數(shù)據(jù)的決策。但您不必成為數(shù)據(jù)分析師才能進(jìn)行數(shù)據(jù)分析,任何熟悉定量技術(shù)和數(shù)據(jù)分析策略的人都可以使用它們來(lái)幫助做出基于數(shù)據(jù)的決策。
幾乎所有需要數(shù)據(jù)分析的問(wèn)題都屬于四大類:描述性、診斷性、預(yù)測(cè)性和規(guī)范性。有些問(wèn)題涉及已知值和變量(如描述性和診斷性問(wèn)題);有些問(wèn)題更多的是假設(shè)性的而非具體的(如診斷性和規(guī)定性問(wèn)題)。回答這些問(wèn)題需要批判性思維、創(chuàng)造性解決問(wèn)題和邏輯推理。但是,如果我們能夠?qū)π枰獢?shù)據(jù)分析的問(wèn)題進(jìn)行分類,我們就可以根據(jù)其類別制定回答該問(wèn)題的策略。因此,有必要熟悉問(wèn)題的類型以及如何解決這些問(wèn)題的策略。
本文的其余部分將介紹這四種問(wèn)題類型,對(duì)其進(jìn)行描述并提供示例以幫助我們識(shí)別每種類型。
描述性問(wèn)題
描述性問(wèn)題旨在獲得對(duì)具體事物的理解。這可以包括對(duì)人口、不同變量之間的關(guān)系或各種趨勢(shì)的描述。這些類型的問(wèn)題通常最容易識(shí)別——它們通常指當(dāng)前狀態(tài)或過(guò)去,并且通常以“什么”或“是/做/做過(guò)”關(guān)鍵詞開頭。由于并非所有描述性問(wèn)題都以這些關(guān)鍵詞開頭,因此識(shí)別描述性問(wèn)題的另一種方法是檢查問(wèn)題關(guān)鍵詞是否可以改寫為以“什么”開頭。這些問(wèn)題的一些示例包括:
.我們今年第二季度的銷售額是多少?
.自上個(gè)季度以來(lái)我們的收入有增加嗎?
.今年我們的收入有什么變化?
.客戶多久取消一次訂閱?
.火車會(huì)晚點(diǎn)嗎?
.我們的臨床病人護(hù)理中是否存在性別偏見?
.來(lái)自哪個(gè)城市的游客傾向于在我們酒店停留更長(zhǎng)時(shí)間?
.上個(gè)月氣溫有何變化?
.空氣溫度和海水溫度有關(guān)系嗎?
.我們雇用更多的呼叫中心代表后,等待時(shí)間有什么變化嗎?
上述問(wèn)題都涉及一些已知變量,可用于分析——診所的性別記錄、體溫記錄或年收入。如前所述,所有這些問(wèn)題都可以重新表述為以“是什么”或“是”開頭:“空氣溫度和海水溫度相關(guān)嗎?”與“空氣和海水溫度之間有關(guān)系嗎?”是同一個(gè)問(wèn)題,“客戶取消訂閱的頻率是多少?”與“客戶取消訂閱的頻率是多少?”是同一個(gè)問(wèn)題。
診斷問(wèn)題
診斷性問(wèn)題旨在了解某事發(fā)生的原因或發(fā)生的方式,并嘗試評(píng)估變量之間的依賴性。這些問(wèn)題以“為什么”及其同義詞關(guān)鍵詞(“怎么會(huì)”、“什么原因”等)開頭,并指已經(jīng)發(fā)生或正在發(fā)生的事件。
診斷性問(wèn)題的關(guān)鍵在于,它們要求分析師提出潛在原因并驗(yàn)證這些原因是否正確。這是非常直觀的,也是大多數(shù)人試圖診斷某件事的根本原因的方法。通常,所討論的因變量已經(jīng)發(fā)生變化,我們想知道原因。我們也可以將診斷性問(wèn)題視為“因果”問(wèn)題,其中“原因”未知。診斷性問(wèn)題的一些示例如下:
.為什么某個(gè)客戶群體比其他客戶群體更愿意與我們互動(dòng)?
.為什么本季度我們的銷售額下降了?
.是什么原因造成熱浪?
.為什么我們的客戶取消了訂閱?
.火車為什么晚點(diǎn)?
.為什么有些病人最終要進(jìn)入ICU?
在診斷性問(wèn)題中,未知因素是結(jié)果的原因。如果我們能夠確定已知結(jié)果和未知原因,那么我們可能正在處理診斷性問(wèn)題。
預(yù)測(cè)性問(wèn)題
預(yù)測(cè)性問(wèn)題旨在識(shí)別已知或未知變量中的未知值。我們想要預(yù)測(cè)的值可能與部分已知和完全未知的變量有關(guān)。例如,在預(yù)測(cè)未來(lái)銷售額時(shí),“銷售額”變量是部分已知的(我們有當(dāng)前或過(guò)去銷售額的值);在客戶細(xì)分中,“客戶細(xì)分”是一個(gè)完全未知的變量,我們必須依靠其他特征或信息來(lái)推斷新變量的值。
決策者經(jīng)常會(huì)問(wèn)一些預(yù)測(cè)性問(wèn)題,以便做出戰(zhàn)略性賭注和決策,或者評(píng)估他們對(duì)未來(lái)狀態(tài)的準(zhǔn)備程度。預(yù)測(cè)性問(wèn)題通常用于尋找未知信息,但與描述性問(wèn)題不同,答案總是不確定的。以下是一些預(yù)測(cè)性問(wèn)題的示例:
.下個(gè)季度我們的銷售額是多少?
.我們酒店預(yù)計(jì)未來(lái)90天內(nèi)會(huì)接待多少位客人?
.我們的Instagram帖子會(huì)獲得多少個(gè)贊?
.我們的客戶在Yelp上給予我們五星評(píng)級(jí)的可能性有多大?
.今年冬天會(huì)下很多雪嗎?
.我們?nèi)绾胃鶕?jù)家養(yǎng)植物的物理特性對(duì)其進(jìn)行分組?
.座頭鯨的數(shù)量未來(lái)將如何變化?
.火車還會(huì)繼續(xù)晚點(diǎn)嗎?
如上所述,預(yù)測(cè)性問(wèn)題不僅僅是試圖預(yù)見未來(lái)。它們處理的是部分或完全未知的事情。“我們?nèi)绾胃鶕?jù)植物的物理特征對(duì)家養(yǎng)植物進(jìn)行分組?”這個(gè)問(wèn)題與將來(lái)時(shí)態(tài)無(wú)關(guān),而是想要解決家養(yǎng)植物的一個(gè)未知參數(shù)。“我們的Instagram帖子會(huì)獲得多少個(gè)贊?”這個(gè)問(wèn)題很可能與部分未知的變量有關(guān):我們可能有關(guān)于我們其他Instagram帖子收到的點(diǎn)贊數(shù)量的信息,但這個(gè)特定帖子將收到的點(diǎn)贊數(shù)量是未知的。
規(guī)定性問(wèn)題
規(guī)定性問(wèn)題旨在預(yù)測(cè)在做出特定決策后會(huì)發(fā)生什么。從這個(gè)意義上講,提出問(wèn)題的決策者希望根據(jù)一組預(yù)測(cè)結(jié)果獲得建議。一般來(lái)說(shuō),這些問(wèn)題的表述方式有兩種:“如果……會(huì)發(fā)生什么”或“應(yīng)該怎么做才能……”。
規(guī)定性問(wèn)題比預(yù)測(cè)性問(wèn)題更進(jìn)了一步,它評(píng)估當(dāng)前情況的變化將如何導(dǎo)致特定結(jié)果,或者確定當(dāng)前情況的最佳變化將導(dǎo)致最佳結(jié)果。就像回答預(yù)測(cè)性問(wèn)題一樣,我們的結(jié)果永遠(yuǎn)不會(huì)確定,并且會(huì)有一些不確定性。然而,答案可以幫助基于數(shù)據(jù)的決策,或者可以導(dǎo)致驗(yàn)證預(yù)測(cè)結(jié)果的研究。
一些規(guī)定性問(wèn)題的例子包括:
.如果我們降低價(jià)格,銷量會(huì)增加嗎?
.如何最大限度提高員工的工作效率?
.我們?nèi)绾尾拍軠p少碳排放?
.我們的商店每天應(yīng)該營(yíng)業(yè)多長(zhǎng)時(shí)間?
.如果我們強(qiáng)制推行高等教育入學(xué)考試,畢業(yè)率會(huì)提高嗎?
.如何減少病人在急診室的等候時(shí)間?
.我們的產(chǎn)品價(jià)格應(yīng)該是多少?
規(guī)定性問(wèn)題可能會(huì)也可能不會(huì)暗示決策者計(jì)劃采取的潛在行動(dòng)。例如,“如果我們降低價(jià)格,銷售額是否會(huì)增長(zhǎng)?”包括我們將要分析的潛在行動(dòng):降低價(jià)格。但另一個(gè)問(wèn)題,如“我們?nèi)绾螠p少碳排放?”,不包括任何行動(dòng),而是要求列出最有可能減少碳排放的候選行動(dòng)清單。這意味著我們必須在戰(zhàn)略中采取額外步驟,以制定候選行動(dòng)清單。
在第1部分中,我討論了數(shù)據(jù)分析師試圖回答的四種類型的問(wèn)題以及識(shí)別每種問(wèn)題類型的方法。如果你還記得的話,當(dāng)我們提出描述性問(wèn)題時(shí),我們會(huì)試圖了解某件事。這些問(wèn)題通常以“是什么/是/做什么”開頭,并且屬于現(xiàn)在時(shí)或過(guò)去時(shí)?,F(xiàn)在,讓我們深入了解如何回答這些問(wèn)題的策略。
二、回答描述性問(wèn)題的策略
描述性問(wèn)題往往是數(shù)據(jù)分析師最常遇到的問(wèn)題,而這些問(wèn)題的答案往往為后續(xù)問(wèn)題奠定了基礎(chǔ)。通常,經(jīng)驗(yàn)豐富的分析師已經(jīng)制定了一套策略(或至少是一些指導(dǎo)方針),用于回答描述性問(wèn)題。更具體的策略因問(wèn)題、行業(yè)、個(gè)人偏好和知識(shí)等而異。然而,任何策略的框架都應(yīng)包括以下內(nèi)容:
評(píng)估問(wèn)題的目的
識(shí)別相關(guān)變量
定義問(wèn)題的分析目標(biāo)
這些步驟應(yīng)該可以指導(dǎo)您選擇最佳方法并提供最合適的答案。讓我們深入了解一下。
圖表由作者制作
步驟1:評(píng)估問(wèn)題的目的
在應(yīng)用任何技術(shù)來(lái)回答決策者提出的問(wèn)題之前,我們必須首先了解提出這個(gè)問(wèn)題的原因。這會(huì)極大地影響我們的策略和我們最終選擇的方法。意圖中的一些考慮因素包括:
.如何解釋答案,
.我們的答案將為哪些決策提供參考,以及
.我們的受眾的技術(shù)或統(tǒng)計(jì)素養(yǎng)
我最喜歡的一個(gè)關(guān)于意圖意識(shí)的例子,泰勒認(rèn)為分布的偏斜度不應(yīng)構(gòu)成選擇平均值或中位數(shù)作為“平均值”指標(biāo)的決定因素。相反,分析師應(yīng)該關(guān)注決策者如何使用該指標(biāo)進(jìn)行推理。
問(wèn)題的意圖也可以引導(dǎo)我們選擇正確的數(shù)據(jù)點(diǎn)。讓我們看一個(gè)例子:“今年第二季度我們的銷售額是多少?”我們的答案可以是總銷售額(銷售單位數(shù)乘以每單位價(jià)格)或凈銷售額(總銷售額減去折扣和促銷)的總和。在某些情況下,我們的決策者可能不知道這種差異,因此教育他們或明確如何使用這個(gè)值應(yīng)該會(huì)告訴我們應(yīng)該使用哪個(gè)值。
另一個(gè)考慮因素是受眾,這也是意圖的一部分。如果我們?cè)噲D回答一個(gè)需要我們比較各組分布的問(wèn)題,那么向不知道如何閱讀箱線圖的決策者展示箱線圖等復(fù)雜的可視化效果可能并不明智。簡(jiǎn)單的統(tǒng)計(jì)數(shù)據(jù)可能是最佳選擇,尤其是對(duì)于每天做出數(shù)百個(gè)決策且沒有時(shí)間查看復(fù)雜圖表的業(yè)務(wù)合作伙伴(例如高管)。另一方面,如果我們想向具有統(tǒng)計(jì)學(xué)知識(shí)的數(shù)據(jù)科學(xué)家展示信息,箱線圖可能就是最佳選擇。
第2步:確定相關(guān)變量
下一步是識(shí)別和明確我們想要以某種方式描述的問(wèn)題中的變量,并確保這些變量具有代表性數(shù)據(jù)。
例如,“我們今年第二季度的銷售額是多少?”,單個(gè)變量很明顯——它是今年第二季度的銷售額,我們可以輕松地從銷售分類賬中獲取數(shù)據(jù)。
但是,如果問(wèn)題缺乏明顯的變量,則應(yīng)重新表述問(wèn)題,使其涉及清晰且可以用數(shù)據(jù)表示的變量。
例如,“我們的臨床患者護(hù)理中是否存在性別偏見?”中的變量是“性別偏見”,但“性別偏見”本身不一定是一個(gè)數(shù)據(jù)點(diǎn)。然而,“兩性結(jié)果差異”或“兩性患者滿意度”是“性別偏見”的潛在衡量指標(biāo)。因此,我們可以將問(wèn)題重新表述為“我們的臨床患者護(hù)理中不同性別的患者結(jié)果是否存在差異?”
仔細(xì)查看問(wèn)題的復(fù)雜性也很重要。有些問(wèn)題可能包含幾個(gè)名詞,但要求我們找到一個(gè)特定的變量,我們應(yīng)該將這個(gè)變量從問(wèn)題中分離出來(lái)。
例如,“哪個(gè)城市的游客傾向于在我們酒店停留更長(zhǎng)時(shí)間?”包括游客、城市和酒店,但我們要尋找的變量是游客的原籍城市。對(duì)于“在我們雇用更多呼叫中心代表后,等待時(shí)間是否有任何變化?”這個(gè)問(wèn)題,兩個(gè)變量是:1.時(shí)間序列(幫助我們推斷變化前后的信息)和2.客戶等待的時(shí)間。
步驟3:定義問(wèn)題的分析目標(biāo)
確定了問(wèn)題中的變量后,我們現(xiàn)在可以對(duì)問(wèn)題的目標(biāo)進(jìn)行分類。這可以通過(guò)將其改寫為指令并對(duì)該指令進(jìn)行分類來(lái)實(shí)現(xiàn)。確定目標(biāo)可以幫助我們縮小一些適當(dāng)?shù)亩考夹g(shù)的范圍,以便我們能夠回答原始問(wèn)題。
請(qǐng)記?。悍治瞿繕?biāo)和問(wèn)題的意圖是不同的。問(wèn)題的意圖確定了決策者計(jì)劃如何處理答案或他們計(jì)劃如何解釋分析結(jié)果。問(wèn)題的分析目標(biāo)決定了我們?cè)诖_定變量后想要如何處理它們。
描述性問(wèn)題可能尋求實(shí)現(xiàn)三種類型的目標(biāo),這些目標(biāo)取決于我們之前確定的變量:
描述一個(gè)變量
如果問(wèn)題的目標(biāo)是描述一個(gè)變量,那么答案將要求我們找到描述主題的某個(gè)參數(shù)或一組參數(shù)。如果我們可以使用關(guān)鍵字“find”后跟問(wèn)題的主題來(lái)重述我們的問(wèn)題,那么問(wèn)題的目標(biāo)就是描述變量。
例如:“我們今年第二季度的銷售額是多少?”的目標(biāo)是獲得一個(gè)代表所有銷售額的值;因此,它要求我們找到銷售額的總和。作為指示,我們可以將問(wèn)題重述為“找到今年第二季度的銷售額總和”。
可用于回答這些問(wèn)題的大多數(shù)技術(shù)包括計(jì)算描述性統(tǒng)計(jì)數(shù)據(jù)(如總和、平均值、眾數(shù)、范圍等)或可視化工具(如直方圖或核密度估計(jì)圖)。但是,根據(jù)問(wèn)題的性質(zhì),還存在更高級(jí)的技術(shù)。
比較組或變量
如果問(wèn)題的目標(biāo)是比較變量?jī)?nèi)的組或比較不同的變量,那么我們的問(wèn)題可以使用“比較”關(guān)鍵字重新表述。這些問(wèn)題還可以包括時(shí)間比較,這可能需要我們從時(shí)間序列中創(chuàng)建一個(gè)變量作為時(shí)間類別(例如用“之前/之后”、小時(shí)、月等表示的時(shí)間組)。
在“我們的臨床患者護(hù)理中存在性別偏見嗎?”這個(gè)例子中,問(wèn)題旨在比較不同性別組之間的患者護(hù)理,也可以重新表述為指令:“比較所有性別的臨床患者護(hù)理”。
有許多技術(shù)可以幫助比較組或變量。條形圖或餅圖等可視化工具可以幫助比較組,直方圖和密度圖可以幫助比較兩個(gè)變量之間的值分布,折線圖可以幫助比較時(shí)間上的值,散點(diǎn)圖可以幫助比較單個(gè)點(diǎn)??梢圆捎妹枋鲂越y(tǒng)計(jì)數(shù)據(jù)和統(tǒng)計(jì)比較檢驗(yàn)(如t檢驗(yàn)或方差分析)來(lái)比較兩個(gè)或多個(gè)分布。
識(shí)別趨勢(shì)或關(guān)系
如果問(wèn)題的目標(biāo)是識(shí)別一系列變量(如時(shí)間)中的模式或兩個(gè)或多個(gè)變量之間的模式,那么我們可以使用關(guān)鍵字“識(shí)別聯(lián)系/相關(guān)性”將描述性問(wèn)題改寫為指令。重要的是要注意,關(guān)系并不意味著因果關(guān)系,而只是試圖建立變量之間的聯(lián)系;因果關(guān)系在診斷問(wèn)題中得到解決。
例如:“今年我們的收入如何變化?”旨在識(shí)別收入隨時(shí)間的變化趨勢(shì)。我們可以將其改寫為指令:“識(shí)別收入和時(shí)間之間的聯(lián)系。”
問(wèn)題“氣溫和海水溫度是否相關(guān)”旨在找出這兩種溫度之間的關(guān)系。我們可以將其改寫為“識(shí)別氣溫和海水溫度之間的相關(guān)性”。
為了識(shí)別變量之間的關(guān)系,散點(diǎn)圖、氣泡圖和熱圖可以在視覺上提供幫助,而像Pearson或Spearman相關(guān)性這樣的統(tǒng)計(jì)方法可以幫助識(shí)別變量是否存在關(guān)聯(lián)。使用折線圖和ARIMA等統(tǒng)計(jì)方法可以最好地直觀地識(shí)別時(shí)間/序列中的趨勢(shì)。
案例研究
讓我們看一下第一部分中的一個(gè)問(wèn)題:“火車會(huì)晚點(diǎn)嗎?”為了找到正確有效的技巧來(lái)回答這個(gè)問(wèn)題,讓我們遵循上面概述的策略步驟。
評(píng)估意圖:假設(shè)這個(gè)問(wèn)題來(lái)自火車運(yùn)營(yíng)公司的副總裁。通過(guò)與她的交談,我們發(fā)現(xiàn)副總裁想知道如果火車確實(shí)晚點(diǎn),是否應(yīng)該采取任何行動(dòng)來(lái)調(diào)解當(dāng)前的火車時(shí)刻表。如果火車實(shí)際上沒有晚點(diǎn),她還希望將晚點(diǎn)設(shè)為KPI指標(biāo)并繼續(xù)監(jiān)控。此外,副總裁告訴我們,如果大多數(shù)火車晚點(diǎn)超過(guò)一分鐘,她就認(rèn)為“火車晚點(diǎn)”。
確定變量:“火車是否晚點(diǎn)”這個(gè)問(wèn)題中感興趣的身份是火車晚點(diǎn),但哪個(gè)或哪些變量可以代表這個(gè)身份呢?通過(guò)對(duì)問(wèn)題和意圖的分析,我們可以確定變量選擇的幾個(gè)選項(xiàng):
兩個(gè)變量:火車預(yù)計(jì)到達(dá)時(shí)間和火車實(shí)際到達(dá)時(shí)間
一個(gè)變量:列車實(shí)際到達(dá)時(shí)間與預(yù)計(jì)到達(dá)時(shí)間之差
一個(gè)變量:如果列車實(shí)際到達(dá)時(shí)間和預(yù)計(jì)到達(dá)時(shí)間相差大于1分鐘,則將二進(jìn)制標(biāo)志設(shè)置為1
我們的變量選擇應(yīng)該取決于問(wèn)題的意圖,并且肯定會(huì)影響我們?nèi)绾未_定問(wèn)題的目標(biāo)。從意圖來(lái)看,我們知道如果大多數(shù)火車晚點(diǎn),VP就會(huì)認(rèn)為火車晚點(diǎn)。所以實(shí)際上——我們只需要一個(gè)二進(jìn)制標(biāo)志來(lái)識(shí)別每列火車是否確實(shí)晚點(diǎn)。這是我們可以提供的最簡(jiǎn)單的信息,它將幫助我們了解火車的總體晚點(diǎn)情況,并幫助我們的決策者確定下一步行動(dòng)。
定義分析目標(biāo):既然我們已經(jīng)確定了意圖和相關(guān)變量,我們現(xiàn)在可以定義分析目標(biāo)并選擇一種技術(shù)。由于我們使用的是單個(gè)變量,即二進(jìn)制“晚點(diǎn)列車”標(biāo)志,我們知道問(wèn)題的目標(biāo)是描述該變量。問(wèn)題的目的是確定大多數(shù)列車是否晚點(diǎn)。因此,我們可以選擇的技術(shù)之一是計(jì)算所有晚點(diǎn)列車的百分比,以確定其中是否有50%以上的列車晚點(diǎn)。我們可以將最終信息傳達(dá)給我們的副總裁,以便她決定下一步該怎么做。
如果問(wèn)題的意圖或受眾不同,這種策略將有很大不同。如果我們的決策者想要了解火車晚點(diǎn)的分布,我們應(yīng)該選擇火車實(shí)際到達(dá)時(shí)間和預(yù)計(jì)到達(dá)時(shí)間之間的差異,并選擇直方圖等視覺技術(shù)來(lái)傳達(dá)火車晚點(diǎn)的分布。
最后幾點(diǎn)說(shuō)明
歡迎您以適合方式使用上述策略,但以下是一些使其為您服務(wù)的提示:
保持事情簡(jiǎn)單,并根據(jù)需要增加復(fù)雜性。
戰(zhàn)略過(guò)程應(yīng)該直觀地進(jìn)行,但寫下意圖、變量和目標(biāo)永遠(yuǎn)不是一個(gè)壞主意,這樣你就能清楚地了解任務(wù)或在方法上養(yǎng)成紀(jì)律。
保持靈活性—您的策略可能會(huì)隨著時(shí)間的推移而改變甚至演變。本文檔是一個(gè)很好的開始,但不要讓它限制您的創(chuàng)造力和思維。
別忘了分析!有些問(wèn)題不像其他問(wèn)題那么直觀,需要我們思考和分析才能理解并找到最佳答案。
二、回答診斷性問(wèn)題的策略
對(duì)于任何數(shù)據(jù)分析師來(lái)說(shuō),回答“為什么”的問(wèn)題都是困難的。缺乏專業(yè)知識(shí)、缺乏技術(shù)儲(chǔ)備和缺乏戰(zhàn)略方法,都可能對(duì)幫助決策者找到正確答案產(chǎn)生不利影響。然而,只要有堅(jiān)實(shí)的基礎(chǔ)和方向,任何人都可以輕松解決這些診斷問(wèn)題。
診斷性問(wèn)題經(jīng)常跟在描述性問(wèn)題的答案之后。在提出診斷性問(wèn)題時(shí),決策者的目的是了解某些信息是如何產(chǎn)生的,或者是什么導(dǎo)致了某件事的發(fā)生。因此,當(dāng)我們思考診斷性問(wèn)題時(shí),我們經(jīng)常會(huì)想到因果推理。因此,熟悉因果推理的一般原則是有益的。
以下介紹:
.因果推理簡(jiǎn)介
.回答診斷問(wèn)題的策略
.案例研究
.最后幾點(diǎn)說(shuō)明
因果推理簡(jiǎn)介
因果推理旨在揭示干預(yù)措施(或現(xiàn)狀變化)如何影響結(jié)果。在因果推理中,我們假設(shè)當(dāng)對(duì)某個(gè)單位實(shí)施某種干預(yù)措施(稱為“治療”)并導(dǎo)致該單位結(jié)果發(fā)生變化時(shí),就會(huì)發(fā)生因果關(guān)系。如果我們比較有無(wú)治療的單位結(jié)果,我們將能夠觀察到治療的效果(即因果關(guān)系)。
例如,如果我們想知道在掛牌出售房屋之前粉刷外墻是否會(huì)使其更快出售,最理想的情況是需要我們同時(shí)比較粉刷和不粉刷房屋的銷售時(shí)間。在這里,房子是我們的單位,粉刷外墻是我們的處理,銷售時(shí)間是我們的結(jié)果。然而,不可能同時(shí)粉刷和不粉刷同一所房子。因此,“我們永遠(yuǎn)無(wú)法觀察經(jīng)過(guò)處理和未經(jīng)處理的同一單位”[1]。
這就是因果推斷的用武之地。我們不必直接衡量治療對(duì)特定單位的影響,而是可以衡量關(guān)聯(lián)和偏差。關(guān)聯(lián)是所有接受治療的單位和所有未接受治療的單位之間的平均結(jié)果差異。偏差通過(guò)捕捉導(dǎo)致結(jié)果不同的所有因素來(lái)區(qū)分關(guān)聯(lián)和因果關(guān)系。
在我們的房屋銷售示例中,我們可以比較所有粉刷過(guò)的房屋和所有未粉刷過(guò)的房屋,并記錄它們的銷售時(shí)間。兩組房屋的銷售時(shí)間差異稱為“關(guān)聯(lián)”。如果沒有偏見,我們可以確定在出售前粉刷房屋會(huì)導(dǎo)致房屋出售得更快。
然而,大多數(shù)決定在出售前粉刷房屋的原房主也可能負(fù)擔(dān)得起,因?yàn)樗麄冏≡谝粋€(gè)更好的社區(qū);而更好社區(qū)的房子往往賣得更快。因此,偏見可能是房屋賣得更快不僅是因?yàn)樾滤⒘艘粚佑推?,還因?yàn)樗鼈兾挥谝粋€(gè)更好的社區(qū)。如果我們能消除這種偏見(以及其他偏見),我們就能確定在出售前粉刷房屋是否會(huì)導(dǎo)致房屋賣得更快。
這就是因果推理的要點(diǎn)。如果想深入了解,我強(qiáng)烈推薦MatheusFacureAlves的一本書:《勇敢而真誠(chéng)的因果推理》,這本書非常詳細(xì)地介紹了這個(gè)主題。因果推理的基礎(chǔ)構(gòu)成了回答診斷問(wèn)題的策略,所以讓我們更詳細(xì)地探討一下。
回答診斷問(wèn)題的策略
診斷性問(wèn)題之所以難以回答,是因?yàn)樗鼈冃枰獙?duì)主題有相當(dāng)?shù)牧私?。揭示某事發(fā)生或正在發(fā)生的原因的一般策略需要了解所有可能的原因和偏見,然后采用嚴(yán)格的技術(shù)方法來(lái)評(píng)估其影響。了解所有可能的原因需要花費(fèi)精力和時(shí)間來(lái)調(diào)查。因此,回答診斷性問(wèn)題所花費(fèi)的大部分時(shí)間都花在了研究上。不幸的是,研究有時(shí)會(huì)讓分析師陷入各種困境和死胡同。采用戰(zhàn)略方法和嚴(yán)謹(jǐn)性可以幫助完成這一過(guò)程。
一般來(lái)說(shuō),回答診斷問(wèn)題的方法包括:
確定結(jié)果
識(shí)別可能的原因和潛在的偏見
評(píng)估因果關(guān)系
在開始之前,需要注意的是,在幾乎所有情況下,我們可能無(wú)法確定某件事的確切根本原因。相反,我們可以確定最有可能的影響因素,并評(píng)估其影響的可能性。
不僅要理解這一點(diǎn),還要制定溝通策略,讓決策者在我們承諾回答他們的診斷問(wèn)題之前就意識(shí)到這一警告,這一點(diǎn)很重要。在尋找診斷問(wèn)題的答案時(shí),決策者承擔(dān)著風(fēng)險(xiǎn)。答案越不確定,風(fēng)險(xiǎn)就越大。因此,決策者必須知道,在根據(jù)提供的答案做出決策時(shí),必須權(quán)衡這一風(fēng)險(xiǎn)。下面,讓我們?cè)敿?xì)看看這個(gè)策略。
第一步:確定結(jié)果
問(wèn)題中的結(jié)果是受某些潛在原因影響的因變量。一般來(lái)說(shuō),診斷問(wèn)題應(yīng)該只有一個(gè)因變量。確定結(jié)果很重要,以便明確定義結(jié)果并驗(yàn)證結(jié)果是否可以衡量。如果問(wèn)題有多個(gè)因變量,則應(yīng)將問(wèn)題分解為單獨(dú)的問(wèn)題。
例如,在第一部分的問(wèn)題“是什么導(dǎo)致了熱浪”中,結(jié)果是熱浪,可以定義為溫度突然急劇上升。在問(wèn)題“為什么我們的客戶取消訂閱”中,我們要調(diào)查的結(jié)果是取消訂閱。如果我們被問(wèn)到“為什么房?jī)r(jià)上漲而租金下降”這樣的問(wèn)題,我們應(yīng)該回答兩個(gè)獨(dú)立的診斷問(wèn)題:“為什么房?jī)r(jià)上漲”和“為什么租金下降”。
第2步:確定可能的原因和潛在偏見
一旦我們確定了問(wèn)題結(jié)果,我們就必須列出所有可能解釋該結(jié)果并幫助我們回答“為什么”的事情。一般來(lái)說(shuō),這個(gè)過(guò)程可以分為三部分:原因、偏見和因果關(guān)系機(jī)制。應(yīng)構(gòu)建圖形因果模型來(lái)協(xié)助識(shí)別過(guò)程。
可以通過(guò)研究、專業(yè)知識(shí)、訪談和聯(lián)想來(lái)確定潛在原因。如果沒有適當(dāng)?shù)膶I(yè)知識(shí)或接觸專家,這一點(diǎn)很難實(shí)現(xiàn)。因此,有必要收集盡可能多的有關(guān)該主題的知識(shí)(查看我的文章“首先我們必須發(fā)現(xiàn)。然后,我們可以探索”,了解有關(guān)為什么積累知識(shí)很重要的更多詳細(xì)信息)。
列出潛在原因時(shí),頭腦風(fēng)暴是一個(gè)很好的工具。頭腦風(fēng)暴的一種新方法是重復(fù)這一過(guò)程:首先:列出盡可能多的原因,而不判斷其有效性;其次:仔細(xì)檢查列表,確保列出的原因是合理且合乎邏輯的。
例如,為了回答第1部分的問(wèn)題:“為什么我們的客戶取消訂閱”,我們可以首先進(jìn)行研究,了解流失的客戶是否報(bào)告了取消訂閱的原因。我們可以采訪我們的客戶成功團(tuán)隊(duì),了解他們經(jīng)常收到哪些客戶投訴。然后,我們可以通過(guò)與決策者的頭腦風(fēng)暴會(huì)議找出任何其他原因。
潛在偏見可能比潛在原因更難發(fā)現(xiàn),但會(huì)對(duì)答案產(chǎn)生重大影響。與原因一樣,偏見可以通過(guò)建立主題專業(yè)知識(shí)來(lái)確定。然而,與主要需要知識(shí)的潛在原因不同,偏見識(shí)別通常需要?jiǎng)?chuàng)造性和建設(shè)性的思考。
一個(gè)好的起點(diǎn)是熟悉數(shù)據(jù)分析中出現(xiàn)的常見偏見類型,并推斷它們是否出現(xiàn)在您的用例中。一些常見的偏見類型包括確認(rèn)偏差、選擇偏差、歷史偏差、幸存者偏差、可用性偏差和異常偏差。
幸存者偏差的一個(gè)非常突出的例子涉及亞伯拉罕·沃爾德在二戰(zhàn)期間所做的工作。作為哥倫比亞大學(xué)統(tǒng)計(jì)研究小組的一員,沃爾德和他的團(tuán)隊(duì)的任務(wù)是優(yōu)化戰(zhàn)機(jī)應(yīng)攜帶的防護(hù)罩?jǐn)?shù)量:如果飛機(jī)攜帶的防護(hù)罩太多——它們會(huì)因?yàn)橹亓慷鵁o(wú)法飛行;如果飛機(jī)攜帶的防護(hù)罩太少——它們將得不到保護(hù)。在分析了安全返回但有彈孔的飛機(jī)后,亞伯拉罕·沃爾德建議應(yīng)該在飛機(jī)上沒有彈孔的地方增加防護(hù)罩(而不是屏蔽彈孔的位置)。為什么?由于分析只包括幸存的飛機(jī),因此很可能沒有幸存的飛機(jī)在某些關(guān)鍵區(qū)域有彈孔。如果這些關(guān)鍵區(qū)域有隱藏物,它們就無(wú)法返回,因此在關(guān)鍵區(qū)域之上放置防護(hù)罩是有意義的。
因果關(guān)系機(jī)制決定了潛在原因如何影響結(jié)果。如果沒有因果關(guān)系機(jī)制,就很難區(qū)分原因和巧合。這在選擇推斷因果關(guān)系的模型時(shí)起著重要作用。
一個(gè)很好的巧合例子是離婚率與人造黃油消費(fèi)量之間的相關(guān)性。這兩種趨勢(shì)可能是平行的,但沒有可靠的機(jī)制可以解釋為什么一個(gè)趨勢(shì)會(huì)導(dǎo)致另一個(gè)趨勢(shì)。因此,我們不能認(rèn)為離婚率的上升會(huì)導(dǎo)致人造黃油消費(fèi)量的上升,反之亦然。
應(yīng)開發(fā)圖形因果模型來(lái)幫助識(shí)別原因和偏見以及構(gòu)成因果關(guān)系的機(jī)制。本質(zhì)上,這些模型是包含所有原因和結(jié)果的有向圖。開發(fā)圖形模型來(lái)理解因果關(guān)系也有助于增加我們對(duì)該主題的理解,并可用于幫助我們與決策者的溝通。
例如,圖形因果模型可以幫助我們發(fā)現(xiàn)混雜偏差。我們來(lái)自原因和偏差的變量不一定只影響結(jié)果——它們實(shí)際上可以相互影響。如果某個(gè)變量影響我們的潛在原因和結(jié)果,那么我們就是在處理混雜偏差。為了解決這個(gè)問(wèn)題,我們應(yīng)該控制所有常見的潛在原因。
假設(shè)我們正在調(diào)查在掛牌出售房屋之前粉刷房屋是否會(huì)影響出售時(shí)間。我們可以假設(shè)收入增加可能會(huì)影響房主是否決定在出售之前粉刷房屋。但是,我們可以認(rèn)識(shí)到,收入增加意味著房主還可以獲得可以縮短出售時(shí)間的資源。這是混雜偏差的一個(gè)例子,我們應(yīng)該在最終模型中控制收入。
步驟3:評(píng)估因果關(guān)系
現(xiàn)在我們有了結(jié)果、原因和偏見,以及構(gòu)成依賴關(guān)系的機(jī)制,我們可以評(píng)估因果關(guān)系了。最后一步需要我們驗(yàn)證我們假設(shè)的想法是否可行。根據(jù)情況和我們可用的資源,我們可以通過(guò)兩種方式實(shí)現(xiàn)這一點(diǎn):1.通過(guò)進(jìn)行隨機(jī)實(shí)驗(yàn)并比較結(jié)果或2.通過(guò)使用歷史數(shù)據(jù)來(lái)衡量因果關(guān)系,開發(fā)統(tǒng)計(jì)模型。
進(jìn)行包含治療組和對(duì)照組的隨機(jī)實(shí)驗(yàn)可以幫助我們減少偏差,確保實(shí)驗(yàn)中的兩個(gè)(或更多)組具有相似的總體代表性。如果各組的構(gòu)成相似,且樣本量足夠,我們應(yīng)該能夠比較各組之間的結(jié)果,并確定結(jié)果差異是否顯著。
在我們的房屋銷售示例中,我們可以抽樣兩組房屋賣家(確保兩組均能代表房主群體)。我們可以要求其中一組在掛牌出售房屋之前粉刷房屋,也可以要求另一組保持外墻油漆原樣。然后,我們將比較兩組之間的銷售時(shí)間分布。使用統(tǒng)計(jì)測(cè)試,我們可以查看銷售時(shí)間指標(biāo)是否存在顯著差異。
實(shí)際上,由于多種原因,這一點(diǎn)很難實(shí)現(xiàn),其中包括讓自愿的房主參與我們的實(shí)驗(yàn)、確保實(shí)驗(yàn)資金充足以及確保我們的樣本是隨機(jī)的并且代表了賣房人群。但是,如果我們無(wú)法進(jìn)行這樣的實(shí)驗(yàn),我們?nèi)匀挥衅渌x擇。
使用歷史數(shù)據(jù)建立統(tǒng)計(jì)模型可以幫助我們控制混雜原因和偏見,并估計(jì)直接原因?qū)Y(jié)果的影響。使用回歸之類的技術(shù),我們可以為每個(gè)原因和廣義偏差指標(biāo)分配權(quán)重。我們可以通過(guò)使用歷史可用數(shù)據(jù)訓(xùn)練模型來(lái)估計(jì)模型的參數(shù)(模型中的權(quán)重)。最終結(jié)果應(yīng)該有助于我們了解變量對(duì)最終結(jié)果的因果影響。“即使我們不能使用隨機(jī)對(duì)照試驗(yàn)來(lái)保持治療和未治療之間的其他因素相等,回歸也可以通過(guò)將相同的因素納入模型來(lái)做到這一點(diǎn),即使數(shù)據(jù)不是隨機(jī)的!”
然而,無(wú)論我們選擇哪種技術(shù)來(lái)衡量因果關(guān)系,重要的是要注意我們的模型無(wú)法確定因果關(guān)系。我們可以將數(shù)百個(gè)特征納入回歸模型,但僅僅因?yàn)樗鼈儽患{入并且僅僅因?yàn)樗鼈兙哂幸欢ǖ臋?quán)重,并不能保證它們是結(jié)果的原因。因此,在圖形因果模型中捕捉因果關(guān)系的可能機(jī)制很重要,這樣我們就可以避免包含不相關(guān)的特征并確保獲得足夠的結(jié)果。
案例研究
讓我們繼續(xù)第2部分的案例研究,我在其中制定了回答有關(guān)火車晚點(diǎn)的描述性問(wèn)題的策略。假設(shè)我們的決策者現(xiàn)在想知道“火車為什么晚點(diǎn)?”按照本文概述的步驟,我們可以制定以下策略來(lái)回答這個(gè)問(wèn)題:
確定結(jié)果。“火車為什么晚點(diǎn)”這個(gè)問(wèn)題的結(jié)果是火車晚點(diǎn)(我們將其定義為“如果火車實(shí)際到達(dá)時(shí)間和預(yù)計(jì)到達(dá)時(shí)間之間的差異大于1分鐘,則將二進(jìn)制標(biāo)志設(shè)置為1”)。
找出潛在原因和偏見。
為了找出潛在原因,我們可以與決策者安排一些訪談和頭腦風(fēng)暴會(huì)議,我們可以在站臺(tái)上觀察火車并乘坐火車,我們可以與列車乘務(wù)員和乘客交談。潛在原因的例子包括站臺(tái)卸貨和裝貨時(shí)間延遲、軌道施工、缺乏專用軌道導(dǎo)致列車會(huì)車和通過(guò)延誤、危險(xiǎn)(如樹葉、冰雪)、列車年齡和列車技術(shù)問(wèn)題。對(duì)于每個(gè)原因,我們還應(yīng)該確定原因?qū)Y(jié)果產(chǎn)生影響的機(jī)制。
為了識(shí)別潛在的偏見,我們可以熟悉偏見的類型,并評(píng)估其中是否有任何一種適用于我們的用例。例如,選擇偏見不一定會(huì)給我們帶來(lái)問(wèn)題,因?yàn)槲覀兛梢栽谘芯恐邪ㄋ辛熊嚕皇沁x定的列車子集。另一方面,我們可能存在幸存者偏見的情況,因?yàn)橐恍┝熊嚈C(jī)械問(wèn)題可能導(dǎo)致列車永遠(yuǎn)無(wú)法到達(dá),因此它將被排除在晚點(diǎn)列車數(shù)據(jù)集之外。
為了確定潛在的因果關(guān)系機(jī)制,我們應(yīng)該確定每個(gè)潛在原因如何影響或影響結(jié)果。例如,危險(xiǎn)(如樹葉或雪)可能會(huì)導(dǎo)致火車晚點(diǎn),因?yàn)槲kU(xiǎn)會(huì)使火車減速。我們可以假設(shè)火車年齡會(huì)影響火車晚點(diǎn),因?yàn)檩^舊的火車速度較慢。但這是真的嗎?收集相關(guān)數(shù)據(jù)并進(jìn)行探索性數(shù)據(jù)分析可以幫助我們驗(yàn)證這種因果關(guān)系機(jī)制是否合理。
我們可以整合一個(gè)圖形因果模型,以評(píng)估我們提出的原因和與結(jié)果相關(guān)的偏見,并概述每個(gè)原因的潛在機(jī)制。此時(shí),我們還可以進(jìn)行一些更具探索性的數(shù)據(jù)分析,以發(fā)現(xiàn)原因之間的隱藏關(guān)聯(lián),并選擇最終的潛在原因以納入我們的模型。例如,如果我們發(fā)現(xiàn)出現(xiàn)技術(shù)問(wèn)題的列車大多是較舊的列車,我們不需要將列車年齡作為模型參數(shù),因?yàn)樗呀?jīng)通過(guò)技術(shù)問(wèn)題參數(shù)暗示出來(lái)了。
評(píng)估因果關(guān)系。最后,我們準(zhǔn)備評(píng)估因果關(guān)系。不幸的是,對(duì)于我們的情況來(lái)說(shuō),進(jìn)行一系列實(shí)驗(yàn)來(lái)測(cè)試每個(gè)潛在原因既困難又昂貴。但是,由于我們有火車時(shí)刻表、火車問(wèn)題以及天氣和軌道狀況的詳細(xì)記錄,我們應(yīng)該致力于構(gòu)建一個(gè)回歸模型來(lái)驗(yàn)證可能的原因。在我們的案例中,我們可以使用可能的原因構(gòu)建一個(gè)邏輯回歸模型,以預(yù)測(cè)火車是否確實(shí)晚點(diǎn)。在訓(xùn)練模型后,與我們的模型參數(shù)相關(guān)的權(quán)重應(yīng)該表明每個(gè)原因?qū)Y(jié)果的影響。
在選出權(quán)重非零的原因后,我們可以向決策者展示我們的調(diào)查結(jié)果,并回答他們最初的問(wèn)題:“火車為什么晚點(diǎn)?”
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。