數據與決策
現代世界充斥著數據。經驗數據,由機器人和人類抓取、收集和存儲。人工數據,由科學家和工程師創(chuàng)建和運行的模型和模擬生成。甚至高管和主題專家的意見,記錄下來以備日后使用,也是數據。
為了什么?我們?yōu)槭裁匆ㄟ@么多時間和精力收集數據?數據革命的口號是數據驅動決策:我們可以利用這些數據做出更好的決策。對于企業(yè)來說,這可能意味著選擇一組能夠最大化未來收入的研發(fā)項目或營銷推廣。對于個人來說,這可能僅僅意味著對他們購買的下一輛汽車、手機或電腦的滿意度增加。
那么數據科學家以及分析師和工程師如何利用他們的數據來支持決策呢?大多數數據到決策的流程都是從探索性數據分析開始的——清理和描述數據集的過程,主要使用統(tǒng)計分析和支持圖表來展示許多特征之間的分布、異常值和相關性。探索性數據分析具有許多優(yōu)點,可以加深對數據集的理解,進而加深對任何可能用它做出的決策的理解:
識別潛在錯誤或有缺陷的數據,以及糾正它們的方法
識別數據集中可能代表性不足或過度的子群體,以便進行數學調整或推動額外的數據收集
建立對可能發(fā)生的事情和常見事情的直覺
開始理解不同特征之間的潛在因果關系(但永遠要注意相關性并不等于因果關系)
這是邁向決策的第一步!執(zhí)行良好的探索性數據分析將產生可靠的數據集和一系列關于數據趨勢的洞察,決策者可以使用這些洞察來指導他們的行動。稍微概括一下,趨勢洞察涉及數據集中項目取特定值的頻率:例如“這些東西通常是X”或“當這些東西是X時,其他東西通常是Y”。
不幸的是,許多現實世界的數據到決策流程都止步于此:將數據科學家使用探索性數據分析生成的一些趨勢洞察拋給給業(yè)務決策者。然后,決策者負責將這些洞察推斷出他們(可能有很多)不同行動方案的可能后果。說起來容易做起來難!這是一項具有挑戰(zhàn)性的任務,無論是復雜性還是規(guī)模,尤其是對于非技術利益相關者而言。
數據科學家經常需要將趨勢“拋給”做出商業(yè)決策的人,而無法了解這些決策是如何做出的,有時甚至不知道這些決策是什么!
如果我們想做出更好的決策,就需要打破數據與決策本身之間的隔閡。如果我們能夠收集或生成與決策者可用的選擇或行動方案直接對應的數據,我們就可以讓他們免于根據趨勢進行推斷。根據所做決策的類型,這通常很簡單:例如,購房者擁有一份其所在地區(qū)所有待售房屋的清單,或者工程公司擁有可以評估新組件的數千種潛在設計的模型。
創(chuàng)建以決策為中心的數據集需要的思維方式與傳統(tǒng)探索性數據分析略有不同,結果更容易解釋,因此更有可能充分支持決策。我們的探索不會止步于趨勢,而是需要解決大海撈針的問題,找到集合中最好的單個數據點,以便從端到端完成數據到決策的流程。
從數據知情到數據驅動
在我們深入探討權衡空間探索的細節(jié)之前,讓我們先用一個示例決策來展開討論。買車是許多人都熟悉的一個決策,它是一個很好的例子,原因如下:
.后果很嚴重,值得付出努力“改正”。汽車價格昂貴,理想情況下使用壽命長,大多數人每天都使用它們!任何買過次品的人都會告訴你,這是一個特別具有挑戰(zhàn)性和令人沮喪的挫折。
.人們在比較汽車時會關心多種因素:價格、可靠性、安全性、操控性等。這不是您可以簡單地選擇馬力最大的汽車并期望感到滿意的問題。
.通常有很多選擇。每個制造商的新車、來自停車場和在線市場的二手車,甚至摩托車等與汽車相鄰的東西都可能是有效的解決方案。有很多潛在數據需要整理!
為了進一步簡化這個例子,假設我們只想購買一輛二手車。
現在,讓我們思考一下,針對這個問題的正常探索性數據分析工作可能是什么樣子。首先,我會獲得一個大型數據集,最常見的數據集是由經驗觀察組成:瓜子二手車的銷售數據集就很好。像這樣的平面數據文件,其中每個項目對應于由一組共享特征描述的汽車列表,是公開數據集的最常見格式。然后,我將開始總結、查找問題并清理數據以刪除不完整/異常列表或定義不一致的列。數據清理完畢后,我將使用統(tǒng)計數據或圖表分析數據集,以確定不同變量之間的相關性。
常見的探索性數據分析可視化是散點圖矩陣,顯示數據集中關鍵參數的成對關系。
現在再想想這個決定:我想買一輛二手車。探索性數據分析幫助了我嗎?對于探索性數據分析粉絲和專家來說,好消息是:當然有幫助!我現在掌握了與我的決定高度相關的趨勢見解。價格與車型年份顯著相關,與里程表里程多少相關!大多數可用的汽車都有3-7年車齡!通過更好地了解二手車市場,我將更有信心地判斷一輛車是否劃算。
但是探索性數據分析是否找到了最適合我的汽車?答案是否定的!我實際上無法購買數據集中的汽車,因為它們是歷史列表。如果其中有任何汽車仍然有效,我不知道是哪些,因為它們沒有被標明。我沒有實際可用的汽車數據,因此我仍然需要自己找到這些汽車——而且我的探索性數據分析只有在我發(fā)現的趨勢可以幫助我在手動搜索其他數據集時找到好車時才有用。
當有關過去數據的趨勢被“拋到”決策者面前,而決策者正在查看當前/未來的數據時,這些趨勢就更難被用來做出正確的決策。
這就是所謂的數據和決策之間存在的隔閡,在實踐中這種情況極為常見,因為絕大多數數據集都包含歷史數據,但我們的決策是當前或面向未來的。盡管探索性數據分析可以將大量歷史數據集處理成一組有用的見解,但見解和主動決策之間存在脫節(jié),因為它們僅通過類比描述我的選擇(即,如果我愿意假設當前的二手車市場與過去的市場相似)。也許將以這種方式做出的決策稱為數據知情決策而不是數據驅動決策更好。真正的數據驅動決策將基于描述實際決策的數據集——在本例中,數據集由當前可用的汽車列表填充。
設置交易空間
交易空間探索,或者更具體地說多屬性交易空間探索(MATE),是一個數據驅動的決策分析框架。它最初于2000年在麻省理工學院創(chuàng)建,經過數十年的改進和應用,至今仍未過時。MATE將以價值為中心的思維帶入了大型數據集的世界,其明確目的是增加利用這些數據做出的決策所創(chuàng)造的價值。
MATE框架可幫助決策者和數據科學家/分析師批判性地思考如何定義和構建決策問題、如何進行數據收集,以及最終如何探索數據以產生實用、相關的見解并找到最佳解決方案。從高層次來看,MATE分為三個層次,分別對應于以下步驟:定義、生成和探索。
MATE的定義、生成、探索層將做出數據驅動決策所需的步驟劃分為單獨的任務,以全面描述問題、收集必要的數據,然后可視化/分析結果。
定義基本的MATE研究首先要從幾個核心概念開始:
.利益相關者。誰做出決定或受其影響?為簡單起見,我們假設我是購車的唯一利益相關者;但是,請記住,許多決策都有多個利益相關者,他們的需求和愿望可能截然不同,我們可以而且應該將他們全部考慮在內。
.替代方案。有哪些可能的解決方案,即有哪些可用的選擇?在這個例子中,我已經將自己限制為購買二手車。我的替代方案是任何在我居住地附近合理距離內有售的二手車。重要的是,替代方案應該是唯一的:我可以用制造商、型號和年份等基本變量來定義我的選擇,但如果有多個相同車型的列表,則還需要一個像VIN這樣的唯一標識符。
.資源。利益相關者如何獲得和使用替代方案,即需要花費多少錢?每輛車都有一次性購買價格。我還可以選擇考慮以后產生的所有權成本,例如燃料和維護,但我們現在先忽略這些。
.好處。我們?yōu)槭裁聪胍粋€替代方案,即利益相關者使用什么標準來判斷替代方案有多“好”?也許我關心的是汽車可以搭載的乘客數量(為了實用性)、發(fā)動機氣缸(為了樂趣)、里程表里程(為了耐用性)和安全等級(為了……安全)。
這個簡單的大綱為我們指明了如何在生成步驟中收集數據。為了正確捕捉這一決定,我需要收集我在定義步驟中確定的所有替代變量、資源和收益的數據。如果數據不足,我的價值圖景就會不完整——但我可以隨時添加任何我認為有用的額外變量。
在嘗試收集數據之前完成定義層有助于確保收集工作充分,并避免在不必要的參數上浪費時間。
想象一下,瓜子二手車汽車數據集確實包含一列,指示哪些列表仍可供購買,因此是我做決定的真正替代方案。我收集完數據了嗎?沒有——這個數據集包括我的替代變量(制造商、型號、年份、VIN)和我的資源(價格),但缺少我的兩個優(yōu)勢:乘客人數和安全評級。我需要用其他數據補充這個數據集,否則我將無法準確判斷我對每輛車的喜愛程度。這需要分析師做一些準備工作來獲取新數據并將其與新列中的現有數據集正確匹配。
幸運的是,替代變量可以充當交叉引用不同數據集的“鍵”。例如,我需要為每個替代方案找到一個安全評級。安全評級通常針對汽車的品牌/型號/年份,因此我可以:
.查找有關安全評級的表格數據(由其他人編制),然后通過連接品牌/型號/年份等列的表格將其與我自己的數據相結合
.自行收集安全評級數據并將其直接插入我的表格中,例如通過搜索查找每個替代方案的品牌/型號/年份
我可能還想用其他替代方案補充瓜子二手車數據:畢竟,并非所有二手車都在瓜子二手車上出售。MATE的最佳做法是盡可能多地提供替代方案,以免預先限制決策。通過訪問附近汽車經銷商的網站并搜索他們的二手車庫存,我可以將更多汽車作為附加行添加到我的數據集中。根據可用的汽車數量(以及我自己的動機),我甚至可以使用網絡爬蟲自動執(zhí)行此過程,這通常是大規(guī)模執(zhí)行數據收集的方式。但請記?。何胰匀恍枰辽儆袛祿忻枯v車的替代變量、資源和好處的數據。大多數經銷商列表不會包含安全評級等詳細信息,因此我需要以與以前相同的方式使用其他數據源來補充這些信息。
此時,我已經有了數據“大海撈針”,我?guī)缀鯗蕚浜脝犹剿鲗硬ふ夷歉?ldquo;針”。但我該怎么做?MATE與探索性數據分析有何不同?
什么才是好的解決方案?
現在我的數據集中已經填充了與實際決策相關的替代方案,我是否可以只對其進行探索性數據分析來解決問題并找到最佳汽車?嗯……既可以又不行。您可以也應該!對MATE數據集執(zhí)行探索性數據分析—清除數據集中的潛在錯誤或異常仍然很重要,如果數據是通過網絡抓取工具等自動化流程收集的,這一點尤其重要。建立對數據趨勢的直覺的目標也沒有什么不同:我們越了解不同標準之間的關系,我們最終的決策就越有信心。例如,我在幾張圖片之前展示的散點圖矩陣也是MATE的常見可視化。
但即使擁有活躍汽車列表數據集和所有必要變量,探索性數據分析的基本相關性和分布分析也無法幫助提取單個高價值數據點。請記住:我們關心汽車的許多不同屬性(多屬性交易空間探索的多屬性),因此我們不能簡單地按價格排序并選擇最便宜的汽車。僅憑探索性數據分析趨勢洞察,我仍然需要手動檢查許多潛在選擇,直到找到具有理想功能、性能和價格組合的汽車。
我需要的是一種工具,可以將最好的汽車放在最前面。這種工具就是:價值建模。
從最基本的層面上講,價值模型是一種數學函數,它試圖復制利益相關者的偏好。我們將在定義層中確定的利益和/或資源輸入其中,并得出一個價值分數,該分數表示每個替代方案的“好”程度。如果模型準確,我們的利益相關者將更喜歡得分較低的替代方案(汽車)。
價值模型的參數是為了模擬利益相關者的偏好而創(chuàng)建的,這樣,如果傳入汽車的收益/資源指標,模型就會返回一個分數,該分數可用于自動將其相對于其他汽車進行排名。
大多數數據科學家可能已經多次創(chuàng)建并使用了一個簡單的價值模型(無論他們是否意識到這一點或用不同的名稱稱呼它),作為完成這項任務的一種手段:在數據集中創(chuàng)建一個新列,使用其他列的函數對行進行“評分”,以便可以對數據集進行排序并突出顯示高分行。價值模型有很多種類型,每種都有自己的優(yōu)點和缺點。更準確的價值模型通常更復雜,相應地需要更多精力來創(chuàng)建。
在這個例子中,我們將使用一個簡化的效用函數來結合我從購買汽車中獲得的四個好處。有一個正式的啟發(fā)過程可以與利益相關者一起完成,以創(chuàng)建一個可驗證的正確效用函數,但我們只需通過為每個屬性分配一個閾值要求(最差可接受水平)、目標(最大價值水平,超過此點沒有額外價值)和波動權重(重要性度量)來快速構建一個效用函數。還有其他方法可以自定義效用函數,包括非線性曲線和互補/替代效應,我們這次將跳過這些。
每個屬性在需求和目標之間都有一條定義的效用曲線(在本例中為線性曲線),以及將單屬性效用組合成多屬性效用的擺動權重。背景中的條形圖顯示了該參數在數據集中的分布。
但是等一下:為什么我沒有將價格納入效用函數?技術上的答案是,大多數人在收益和資源之間表現出“不完全排序”——這是一種花哨的說法,即利益相關者通常無法明確說明他們是喜歡低成本低收益的替代方案還是高成本高收益的替代方案,因為兩者都不是嚴格意義上優(yōu)于另一個。順便說一句,這也是為什么通過優(yōu)化函數來“解決”決策非常困難的原因:在實踐中,決策者通常喜歡看到一組從低成本低收益到高成本高收益的替代方案,并自己判斷,這比將收益/成本結合到一個價值模型中更可靠。這個集合稱為帕累托集(或以圖形方式查看時為帕累托前沿),是交易空間中價值最高的區(qū)域。
交易空間的散點圖,突出顯示了帕累托前沿——最理想的替代方案通常位于前沿附近。請注意,左上角的收益率低于100%,因為數據集中并非所有汽車都符合我們的要求。
這就是“權衡空間”。散點圖的y軸表示收益,x軸表示成本(每個散點圖都可能是一個由多個屬性組成的價值模型)。收益和成本之間的權衡是迄今為止最常見的現實世界中用通俗英語表達的決策框架,而MATE框架的存在是為了指導我們以數據為驅動的決策分析,將其納入利益相關者和決策者所熟悉的這種結構中。這些點中的每一個都是我可以購買的汽車——一個我可以實際做出的選擇,以及一種無需依賴過去趨勢推斷就能解決我的決策的方法。
現在只剩下探索層,我需要從那堆點中找到我最喜歡的針。
找到大海里的針
讓我們使用程序對我的汽車數據集進行快速探索。首先,因為它們可能是我要購買的候選車型,所以我將用火焰突出顯示帕累托集中的汽車-一個自定義標記,它出現在圖的“頂部”,即使我更改圖尺寸也會保留。我還對里程表里程與交易空間的價值維度之間的關系感到好奇,所以我將使用該參數為點著色。
交易空間按里程表里程數著色,帕累托集汽車以洋紅色三角形標記。
我立刻想到了兩個問題:
.辨別里程表里程的模式有點困難,因為17,000多輛汽車的交易空間非常密集,以至于點相互遮擋:一些點遮住了其他點。我可以看出,這些點通常沿著y軸向上從暗變亮,但如果我可以消除遮擋,我就可以更清楚地看到不同里程等級在我的收益/資源維度上的分布。
/我還看不出帕累托集中汽車的里程表里程數,因為它們是洋紅色的。如果我仍能突出顯示這些汽車,同時還能看到它們的里程顏色,那就太理想了。
為了解決這些問題,我將以兩種方式修改我的情節(jié):
.我將用凸包替換交易空間中的點——本質上將里程表的里程范圍劃分為更小的塊,并在每個塊中的所有汽車周圍繪制一個“氣泡”。
.我將保留我的帕累托集火焰,但對其進行更新,使三角形填充相應的里程表里程顏色。
通過這兩個更改,我得到了以下結果:
交易空間以里程表里程的凸包表示,其中帕累托集中的個別汽車仍以火焰突出顯示??纯催@個!我可以看到里程表里程和效用之間的明確關系,這是有道理的,因為這是我在價值模型中使用的收益指標之一。此外,除了圖右下角的幾個賣家外,很明顯里程數較高的汽車的最高要價較低——但也許更有趣的是,里程數似乎不會對最低要價產生很大影響。即使是低里程數的汽車也可以便宜買到!
但是讓我們回到通過關注帕累托集來做出決定。我沒有篩選數據集來刪除高成本的汽車,因為正如我之前提到的,在開始探索層之前不減少替代方案的數量被認為是MATE的最佳實踐。但實際上,我的購買預算為10,000美元,也許我想要在這個限制內最好的汽車——尤其是現在我知道我仍然能夠找到在這個價格范圍內里程數較低的汽車。我將添加我的預算要求并切換回散點圖:
交易空間,以里程表里程數為顏色,x軸上的預算要求為10,000美元。請注意,由于預算原因,左上角的收益率進一步下降至約36%。
好的,現在我們看到的是一張放大版的經濟型汽車圖片。如果我只想購買最符合我預算的汽車,那么它就是最右上方的帕累托設定點。我可以用鼠標懸停來查看該汽車的詳細信息:
將鼠標懸停在某個點上會顯示詳細信息的工具提示。一輛行駛里程為14,000英里、售價為9,000美元的2006款克萊斯勒300。還不錯!但等等……它被漆成了白色。我忘了我討厭白色汽車!MATE的探索層的一部分是完善利益相關者的偏好,這些偏好通常會在接觸到新信息時發(fā)生變化:即我的數據驅動決策的數據。使用交互式工具的一個優(yōu)點是,我可以輕松更新價值模型或過濾器以響應這些變化。我只需添加一個刪除白色汽車的過濾器,保存一個新的帕累托集并:
再次過濾交易空間以移除白色汽車,并保存帶有綠色方塊的新帕累托集。
好了!現在我預算范圍內最好的車是一輛銀色的2009款大眾途銳。與克萊斯勒相比,我少了一名乘客(6比5),這并不理想,但由于里程表明顯較低(14,000比158),這輛車的實用性幾乎一樣高。它幾乎是全新的,而且只需3500美元!
我們找到了:大海撈針。我們可以用數據驅動的證據來證明我們的決定是正確的!
我對它一見鐘情——但我必須先從20,000輛其他汽車中發(fā)現它!
結論
本文展示了探索性數據分析和權衡空間探索如何相似/互補,但強調當最終目標是找到數據集中的“最佳”點時,數據收集和可視化方式的一些關鍵差異。權衡空間探索可以成為探索性數據分析的“一步之遙”,推動決策從數據知情轉向真正的數據驅動。
分享到微信 ×
打開微信,點擊底部的“發(fā)現”,
使用“掃一掃”即可將網頁分享至朋友圈。