中國的反欺詐有多難?
“2011年至2015年,五年共造成經(jīng)濟(jì)損失550億元,”通付盾創(chuàng)始人董事長兼CEO汪德嘉,在一本財(cái)經(jīng)舉辦的“2017消費(fèi)金融CRO全球峰會”上稱,看看中國黑產(chǎn)的規(guī)模,就知道反欺詐有多難。
大數(shù)據(jù)、人工智能、活體識別、人像比對、設(shè)備指紋、人臉識別……大量的風(fēng)控技術(shù),都開始運(yùn)用到場景之中。
技術(shù)真的能阻擋黑產(chǎn)腳步嗎?
段瑩:“未來信貸是拼圖式的,拼成一個(gè)生態(tài)”
01 五類信貸資產(chǎn)
我們總結(jié)2017年整個(gè)中國信貸市場上信貸資產(chǎn)的特點(diǎn),可以分為五大類:
1、線下消費(fèi)貸。以場景風(fēng)控為核心,比如捷信,擁有幾萬人駐扎的門店。通常經(jīng)營標(biāo)準(zhǔn)化的3C、家電產(chǎn)品等。它的優(yōu)勢是,因?yàn)橛邢M(fèi)場景,所以風(fēng)險(xiǎn)相對可控;但需要大量的地面人員,門檻相對高。
2、線下信用貸。通過門店去獲客,比如車主貸、白領(lǐng)貸等等。這類特點(diǎn)是通過門店、信貸員去獲客,做初步審核,然后加上中央的集中風(fēng)控,是比較典型的“信貸員模式”和“信貸工廠模式”的結(jié)合。
這兩類玩家相對比較多一點(diǎn)。
3、抵押貸。比如車抵貸、房抵貸等,以抵押的形式控制風(fēng)險(xiǎn),風(fēng)控也偏向傳統(tǒng),是很多傳統(tǒng)金融機(jī)構(gòu)開展的業(yè)務(wù)。
4、線上小額現(xiàn)金貸,Payday。
5、線上大額現(xiàn)金貸。
不管是線上還是線下的現(xiàn)金貸業(yè)務(wù),都是在2015年才開始有比較大發(fā)展。payday這種模式,在2015年中旬起步,隨著一些公司的快速擴(kuò)張,迅速興起。這類模式的特點(diǎn)是,額度特別小,利率相對高。
為什么很多人會做payday呢?
因?yàn)楹芏鄼C(jī)構(gòu)是偏互聯(lián)網(wǎng)出身的,payday更多是強(qiáng)調(diào)高利率來覆蓋高風(fēng)險(xiǎn),通過快速的風(fēng)控迭代,保證存量用戶,就能產(chǎn)生利潤。
線上的大額現(xiàn)金貸,跟payday相比,最大的特點(diǎn)是借款額度相對大。這時(shí),機(jī)構(gòu)就沒有足夠資金或風(fēng)險(xiǎn)忍受度,能在在幾萬、幾十萬甚至上百萬的用戶中測試。
所以,這種模式更多是通過定向邀請白名單用戶來做。比如微粒貸,是把高風(fēng)險(xiǎn)、高利率的小額現(xiàn)金貸,往更高的額度、更低利率、更長的期限來擴(kuò)展。
目前,受限于種種的因素,從事的大額現(xiàn)金貸的機(jī)構(gòu)相對少一點(diǎn)。
02 風(fēng)口浪尖的payday
未來,什么樣的信貸資產(chǎn)更加符合這個(gè)時(shí)代的發(fā)展潮流?
從去年監(jiān)管出臺,20萬借款限額出現(xiàn)后,兩類業(yè)務(wù)發(fā)展的特別快:一類是車抵貸,一類是payday。
payday,它的優(yōu)勢是能快速積累用戶,最大的特點(diǎn)是必須有足夠的流量,通過大量“新客戶變成老用戶”的沉淀來建立信貸體系,可能風(fēng)控更依賴催收去做。
這個(gè)行業(yè)過去一年半發(fā)展非常紅火,競爭很激烈,也存在很多問題,比如政策風(fēng)險(xiǎn),還有共債嚴(yán)重。
我們從2016年初開始關(guān)注共債嚴(yán)重問題。
從數(shù)據(jù)來看,2015年下半年,payday共債率大概百分之三四十,但一年半后,如今共債率漲到百分之九十以上。
這個(gè)行業(yè)競爭激烈,因?yàn)樗鄬碇v門檻低一點(diǎn),競爭激烈在所難免。
payday的這些人群到底是不是只申請payday呢?是不是可能里面也有相對好的人群會申請利率更低金額更大的產(chǎn)品呢?從百融的數(shù)據(jù)來看,基本上印證了我們的觀點(diǎn)。我們發(fā)現(xiàn)payday產(chǎn)品的申請人還去申請別家產(chǎn)品的payday比例挺大的,30%左右,比信用卡等一些利率更低的產(chǎn)品比例要高。
03 白名單
不過,payday人群里,其實(shí)還有不少“好人”,可以給他們提供利率更低、時(shí)間更長的信貸產(chǎn)品。
但其實(shí)很多人也都想到這一點(diǎn),問題在于如何找到這類優(yōu)質(zhì)人群呢?如何避免被欺詐團(tuán)伙盯上呢?
我們做了一些嘗試,通過邀請制的方式,先找出比較好的客戶,定向去邀請。通過這種方式,一方面盡可能避免被欺詐團(tuán)伙盯上,另一方面還保證比較好的用戶體驗(yàn)。
太陽底下沒有什么新鮮事,其實(shí)這個(gè)思路也并不是獨(dú)創(chuàng)。傳統(tǒng)信用卡會有聯(lián)名卡,本質(zhì)是認(rèn)為某一類場景下的用戶就是資質(zhì)比較好的客戶,通過預(yù)篩選把風(fēng)控前置,不管是主動邀請被動觸發(fā),都能解決用戶體驗(yàn)和風(fēng)控的矛盾。
預(yù)設(shè)白名單,一方面能改進(jìn)用戶體驗(yàn),更快進(jìn)行額度定位、審批;對于信貸機(jī)構(gòu)而言,能夠做到風(fēng)險(xiǎn)前置,避免風(fēng)險(xiǎn)后置的矛盾。
未來的信貸可能是拼圖式的,需要四塊拼圖,第一是資金,第二是風(fēng)控能力、技術(shù)、系統(tǒng),第三是流量、獲客,第四是數(shù)據(jù)。所以未來任何機(jī)構(gòu)之間的合作,各家的核心能力不同,把拼圖拼到一塊,搭建一個(gè)更好的生態(tài)。
汪德嘉:“反欺詐不可能孤軍作戰(zhàn)”
風(fēng)控從另一個(gè)維度看,就是客戶關(guān)系的管理,流量就是獲客,精準(zhǔn)營銷就是獲得流量。真正做好金融,就是要做好精準(zhǔn)的風(fēng)控。什么是精準(zhǔn)風(fēng)控?就是技術(shù)+數(shù)據(jù)+人工智能。
在中國用手機(jī)號做欺詐,團(tuán)伙的規(guī)模到金額,觸目驚心。2011年至2015年,五年共造成經(jīng)濟(jì)損失550億元,2016年電信欺詐,僅上半年就立案近百萬件,造成損失逾兩百億元。
為什么會發(fā)生這種情況?一是海量數(shù)據(jù)泄漏;二是新型欺詐行為更多是通過“人機(jī)對話”,有很強(qiáng)的隱蔽性;三是詐騙手段翻新速極快;四是金融欺詐逐步形成了包括上、中、下游結(jié)構(gòu)完整黑色產(chǎn)業(yè)鏈,增加了風(fēng)控的難度。
舉例說明,黑客非法獲取用戶個(gè)人信息,數(shù)據(jù)拿到后,大量二道販子在中間賺取差價(jià)。每個(gè)環(huán)節(jié)每個(gè)人分工十分明確,甚至有人會專門去聯(lián)系相關(guān)的培訓(xùn)機(jī)構(gòu)或詐騙團(tuán)伙,從而把手上的數(shù)據(jù)賣到下游。而下游這些團(tuán)隊(duì),有專人負(fù)責(zé)詐騙的話術(shù)編寫培訓(xùn)、線上通過第三方支付平臺洗錢、線下ATM機(jī)提款等,分工十分明確。
因此,企業(yè)做反欺詐不可能孤軍作戰(zhàn),一定要一幫朋友,打群架的時(shí)代,有朋友、有渠道、有信息,才能把反欺詐做好。
從移動金融風(fēng)控整個(gè)鏈條看,我們關(guān)注幾點(diǎn):一是賬號,二是應(yīng)用APP,三是業(yè)務(wù),即欺詐風(fēng)險(xiǎn)和信用風(fēng)險(xiǎn)。形成一套產(chǎn)品,把風(fēng)控防止前置,做到多維度,態(tài)勢感知,以及風(fēng)險(xiǎn)信息共享,只有這樣才能做到更精準(zhǔn)的防控。
目前互聯(lián)網(wǎng)金融應(yīng)用都以APP的形式存在。對黑客來說,只要有漏洞,就可以偽造交易,竊取用戶的信息,從而利用這些信息來騙貸。因此,一定要對APP進(jìn)行檢測,看是不是有病,是否健康。
如何對APP進(jìn)行檢測?我們的做法是把移動互聯(lián)網(wǎng)上所有的APP、安卓、IOS都集中起來放在一個(gè)庫里。再用不同的維度進(jìn)行分析,從偽造、密碼、弱點(diǎn)、內(nèi)容等角度掃描。黑客一旦通過APP發(fā)到云端,我們立刻就能知道他的具體位置,從而幫助破案取證。
現(xiàn)在也有許多公司利用人工智能做風(fēng)控,我認(rèn)為人工智能的算法不重要,重要的是樣本。例如向C端提供反欺詐機(jī)器人,可以看手機(jī)是否健康;通過深度學(xué)習(xí)技術(shù)智能分析各行業(yè)風(fēng)險(xiǎn),打造全場景風(fēng)控策略。這些都是很好的嘗試。
喬楊:“大數(shù)據(jù)風(fēng)控,既要用‘術(shù)’也得懂‘道’”
01 數(shù)到用時(shí)方恨少
我講兩個(gè)部分,大數(shù)據(jù)風(fēng)控困境和突圍。首先,第一個(gè)問題,數(shù)據(jù)是不是越多越好?
我們認(rèn)為在數(shù)據(jù)質(zhì)量可控、數(shù)據(jù)質(zhì)量有保證的情況下,盡量引入更豐富、更多元化的數(shù)據(jù)加入到模型中,對模型提升是非常重要的。
隨著互聯(lián)網(wǎng)的普及,1994年到2004年的十年期間,語音識別領(lǐng)域,語音識別的錯(cuò)誤率下降了一半,機(jī)器翻譯準(zhǔn)確度提升了一倍。其中,20%來自于算法的提升,80%來自于數(shù)據(jù)量的提升。通過這個(gè)例子大家可以看到,數(shù)據(jù)量決定了可能的上限。
縱觀中國整個(gè)數(shù)據(jù)積累的情況和成熟度,我們對這個(gè)市場并不是很樂觀。目前數(shù)據(jù)共享問題并無有效的解決方案。所以基于在征信、大數(shù)據(jù)風(fēng)控領(lǐng)域的經(jīng)驗(yàn),我們觀察到“數(shù)到用時(shí)方恨少”是非常普遍的現(xiàn)象。
第二個(gè)問題,什么樣的數(shù)據(jù)更優(yōu)質(zhì)?
在探討這個(gè)問題之前,我想解釋兩個(gè)概念。第一個(gè)概念,什么是大數(shù)據(jù)?
大數(shù)據(jù)其實(shí)一定要具備三個(gè)特點(diǎn),一是量大,二是多元性/多維度,三是即時(shí)性。百度地圖的數(shù)據(jù)就具備這樣的特點(diǎn)。
另外一個(gè)概念還需要解釋一下:原始數(shù)據(jù)和加工數(shù)據(jù)的區(qū)別。
很多公司之間的客群、抓取數(shù)據(jù)的方式、手段和維度都是類似的,但為什么風(fēng)控表現(xiàn)參差不齊呢?其實(shí)這個(gè)道理很簡單。這些數(shù)據(jù)提供方,包括這些數(shù)據(jù)使用方,在“特征工程”階段的能力不一樣。
如果說數(shù)據(jù)量決定了模型的可能上限,特征工程的優(yōu)劣決定了模型的實(shí)際上限。
不同的特征工程對模型效果的差別是非常大的。舉個(gè)例子,2016年6月,大數(shù)據(jù)分析競賽平臺Kaggle,上線了全球最大的酒店預(yù)定網(wǎng)站Expedia的“酒店預(yù)定預(yù)測比賽”。
這項(xiàng)比賽主要是要求參賽者基于Expedia提供的用戶的歷史搜索數(shù)據(jù)來預(yù)測客戶最終會預(yù)定哪一個(gè)酒店,共有1974個(gè)隊(duì)伍參賽。
最終比賽結(jié)果評比標(biāo)準(zhǔn)為平均精確值(MeanAveragePrecision),值越大說明模型預(yù)測的精度越高。
我們以最終排名前15位的一個(gè)團(tuán)隊(duì)的特征工程步驟為例。在第一階段,團(tuán)隊(duì)做了較為簡單的特征工程處理,最終得分0.04。第二階段,團(tuán)隊(duì)進(jìn)行了精進(jìn)的特征工程,最終得分0.28。模型效果提升達(dá)到了6倍。由此可見特征工程對模型效果的影響是非常明顯的。
特征工程無非是從大量的噪聲數(shù)據(jù)里面篩選出可用的、有價(jià)值的特征。自從互聯(lián)網(wǎng)誕生以來,就像我們在錄音的時(shí)候產(chǎn)生大量的噪聲一樣,產(chǎn)生大量的垃圾信息。如何從這些海量的數(shù)據(jù)里面篩選出可用的、高效的特征,其實(shí)就是考驗(yàn)一個(gè)建模能力的過程。
所以關(guān)鍵的步驟有兩個(gè),第一步,數(shù)據(jù)清洗;第二步,特征變量的加工。
那么,是不是召集一個(gè)技術(shù)非常強(qiáng)大的團(tuán)隊(duì),全部是由博士和統(tǒng)計(jì)學(xué)的碩士組成的團(tuán)隊(duì)做出來的模型一定是非常好的?這里有思維誤區(qū),特征工程其實(shí)優(yōu)劣與否,不只是基于一個(gè)理論知識,更多是對于業(yè)務(wù)的理解。
舉個(gè)我前東家的例子:Discover信用卡反欺詐做得好在業(yè)內(nèi)是有口碑的。第一代反欺詐模型是vendor模型(外包模型),是由包括FICO在內(nèi)的頂尖數(shù)據(jù)公司模型團(tuán)隊(duì)搭建的。
經(jīng)濟(jì)危機(jī)后,美國監(jiān)管機(jī)構(gòu)要求金融機(jī)構(gòu)能夠解釋自己的模型,由于模型是外包的,我們對于模型的解釋性是非常受限的。只有通過自建模型才能解決這個(gè)問題。
我有幸參與并領(lǐng)導(dǎo)了Discover第二代反欺詐預(yù)測模型項(xiàng)目。我們整個(gè)項(xiàng)目團(tuán)隊(duì)一共6個(gè)人,用了6個(gè)月的時(shí)間完成了模型的搭建,模型的效果大大出乎我們的意料。
所以,一個(gè)成功的風(fēng)控團(tuán)隊(duì)不只是建立在扎實(shí)的理論知識基礎(chǔ)上的,更需要對業(yè)務(wù)的深刻理解。
那有人會問了,我花重金請一批既有技術(shù)又懂業(yè)務(wù)的大牛,這個(gè)問題不就解決了嗎?答案也是否定的。
在未來,新數(shù)據(jù)源和新特征的獲取會越來越難。模型的精度并不是隨著特征的增長而線性提高。隨著人工特征工程的深入,投入的人力和時(shí)間越來越長,得到的新特征對系統(tǒng)的提升卻越來越少。換句話說,人力投入的邊際收益是遞減的。
再舉個(gè)IBM沃森的例子。IBM沃森具備很強(qiáng)的語音分析能力,可以像谷歌的搜索軟件一樣,迅速搜索自己巨大的知識庫找出答案。美國有一個(gè)比較知名的公司,以沃森作為實(shí)驗(yàn),所有這些點(diǎn)都是實(shí)際的人類參賽點(diǎn)的表現(xiàn),跟計(jì)算機(jī)的表現(xiàn)完全不在一個(gè)量級上面。
隨著時(shí)間的推移加入更多的數(shù)據(jù)和特征,沃森表現(xiàn)越來越好,人力投入的邊際效益是遞減的。
邊際效益遞減達(dá)到一個(gè)邊際的時(shí)候,怎么對模型和策略進(jìn)行優(yōu)化?
我認(rèn)為有兩個(gè)方面:一方面,經(jīng)濟(jì)學(xué)上的Gilder'sLaw,是說盡可能多的采用便宜的資源,盡可能節(jié)約貴的資源。另一方面,在特征工程達(dá)到效益邊際之后,就需要在算法和模型上做進(jìn)一步的優(yōu)化。
如圖所示,2個(gè)上限,1個(gè)途徑。
數(shù)據(jù)源與數(shù)據(jù)清洗是決定了這個(gè)模型能達(dá)到的可能上限,特征變量加工是決定了模型的實(shí)際上限,最終模型與算法的提升是接近上限途徑。
但在模型和算法提升的過程中,也有一個(gè)誤區(qū)。如上圖所示,隨著訓(xùn)練樣本的迭代,訓(xùn)練誤差越來越低。但同時(shí)在認(rèn)證樣本上的誤差達(dá)到一定復(fù)雜程度的時(shí)候會增高,這就會出現(xiàn)一個(gè)問題。
如何從全局觀,通過模型和算法提升整體決策效果,將成為下一個(gè)風(fēng)控難題。
總結(jié)來看,大數(shù)據(jù)風(fēng)控面臨四大困境:數(shù)據(jù)資源壁壘,自有數(shù)據(jù)累積,數(shù)據(jù)特征提煉,算法模型提升。
02 既要用“術(shù)”也需得“道”
那么,這些困境有沒有解決方案?
以市場營銷為例,解決這個(gè)問題,可以通過智能推薦的算法方式對客戶進(jìn)行精準(zhǔn)的評判。
以一家信用卡公司的客戶觸達(dá)策略為例,當(dāng)接通任一用戶的電話時(shí),客服代表的系統(tǒng)上會提示客戶的基本畫像,可推薦的產(chǎn)品列表及預(yù)測的購買概率,方便客服代表進(jìn)行溝通和推薦產(chǎn)品。系統(tǒng)背后有多個(gè)主題模型,用來預(yù)測各個(gè)主題的產(chǎn)品的購買傾向,并最終給出推薦產(chǎn)品的排序和組合。
重要的是,這些主題模型的建立,是根據(jù)真實(shí)的歷史數(shù)據(jù)訓(xùn)練出來的。而這些歷史數(shù)據(jù)的積累是有著嚴(yán)格的實(shí)驗(yàn)設(shè)計(jì)規(guī)則的。
由于模型評分Top20%的人響應(yīng)率為34%,因此預(yù)計(jì)200萬客戶中會有約68萬人開卡。而如果沒有該模型,隨機(jī)發(fā)送(響應(yīng)率10%),需要發(fā)680萬人才能達(dá)到相同的開卡量。
因此僅該營銷活動,就為部門節(jié)省480萬營銷預(yù)算(近70%)。
說到反欺詐,可以說目前的互聯(lián)網(wǎng)反欺詐離不開文本挖掘,最重要的是語義識別,其次是圖像的挖掘。但是二者問題都是投入大,突破小,極易遇到瓶頸。
機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等是大招,當(dāng)對不良內(nèi)容其他的方式都難以識別的時(shí)候用機(jī)器學(xué)習(xí)的方式效果最好。缺點(diǎn)是見效慢,維護(hù)成本大,樣本的收集工作量大等等。但是一旦機(jī)器學(xué)習(xí)到達(dá)一定程度,會是最好的反欺詐手段。
以上說的都是“術(shù)”,都是被動的去處理問題,而真正想把反欺詐做好需要的是“道”。
也就是產(chǎn)品模式的突破,信用體系的搭建,從源頭使欺詐的門檻高于欺詐的收益,才會最終杜絕欺詐。這也就是反欺詐領(lǐng)域里所有人努力的目標(biāo)。
隨著網(wǎng)絡(luò)上意見型數(shù)據(jù)的爆發(fā),情感分析也被廣泛研究和應(yīng)用。目前常見的情感極性分析方法主要是兩種:基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法。
但情感詞典存在著一定弊端。詞典把所有常用詞都打上了唯一分?jǐn)?shù),有許多不足之處:一是,不帶情感色彩的停用詞會影響文本情感打分;二是,由于中文的博大精深,詞性的多變成為了影響模型準(zhǔn)確度的重要原因。再有就是,同一個(gè)詞在不同的語境下可以是代表完全相反的情感意義。
尤其是在中介言論識別方面,是否能夠準(zhǔn)確的對漏洞的大小進(jìn)行衡量,是平臺的核心。
在反欺詐和平臺輿情風(fēng)險(xiǎn)管理方面,我們ZRobot有非常多的嘗試。我們從豐富的輿情來源,包括網(wǎng)絡(luò)上面的涉黑論壇、黑產(chǎn)、中介信息進(jìn)行了文本分析、語音分析,能夠?yàn)榭蛻籼峁┫耧L(fēng)險(xiǎn)預(yù)警、漏洞紕漏以及防控建議。我們對情感分析也做了大量的研究。
我們也通過機(jī)器學(xué)習(xí)的方式在這方面有了大量的嘗試,通過這個(gè)方式可以判斷中介的一些言論,關(guān)聯(lián)到他對這個(gè)中介表達(dá)出來的風(fēng)險(xiǎn)漏洞到底有多大,做出精準(zhǔn)的評判。
最后,我們還換了一個(gè)角度去看社交網(wǎng)絡(luò)數(shù)據(jù),通過全局的觀點(diǎn)對整體網(wǎng)絡(luò)做了一個(gè)評判。這也是我們目前自創(chuàng)的一個(gè)技術(shù),叫做漫網(wǎng)技術(shù)。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。