一個充滿中性詞匯的句子可能就充滿了敵意(“只有白人應該有權(quán)利”),而一個充滿潛在敵意詞匯的句子(“去他媽的,他媽的你穿的什么”)在你承認它是坎耶·維斯特式的詩句的時候那就是中立的。
人類通常都擅長做這種語法分析,而機器卻無法做到。然而,F(xiàn)acebook在去年6月宣布,它已經(jīng)建立了一個文本分類引擎,以幫助機器翻譯文字。
這個名為“深度文本”的系統(tǒng)是基于最高級人工智能的基礎(chǔ),和一種叫做“單詞嵌入”的概念來運行的,意思是它的設計是為了模擬語言在我們大腦中的運行方式。當該系統(tǒng)遇到一個新單詞時,它會像人類一樣,試圖從周圍的其他單詞中推斷出它的意思。
例如,白色這個詞在不同的環(huán)境中會有完全不同的意思,當你看到“雪、襪字、白宮或面粉這些詞時都會想到白色。深度文本的設計初衷是要像人類一樣思考,并隨著時間的推移不斷提高。
深度文本是一種內(nèi)部工具,它可以讓Facebook工程師快速處理大量的文本,創(chuàng)建分類規(guī)則,然后構(gòu)建產(chǎn)品來幫助用戶。如果你在Facebook上吐槽白襪隊,這個系統(tǒng)應該很快就會發(fā)現(xiàn)你在談論棒球,在更深層次上,它應該已經(jīng)知道這是一項運動。如果你在談論白宮,它分析你可能會想看新聞。如果你在雪附近使用“白色”這個詞,它會覺得你可能會想買靴子。如果你談論的是白色的面粉,也許你不應該出現(xiàn)在這個平臺上。
正如Facebook所解釋的那樣,使用“深度文本”就像是在用魚叉捕魚。然后,開發(fā)者們就開始在河中跋涉。
在了解了深度文本之后,Instagram的高管們幾乎立刻就看到了一個與Facebook競爭的機會,F(xiàn)acebook曾在2012年收購了一個平臺:垃圾郵件。人們使用Instagram主要是為了拍照,但他們經(jīng)常很快就會離開,因為界面下方很多沒用的話,在那里,會有機器人(有時也是人類)推銷產(chǎn)品,繼續(xù)往下,或者只是沒完沒了地重復“成功”這個詞。
Instagram要做的第一步是雇傭一些人來整理平臺上的評論,并將他們歸類哪些是垃圾,哪些不是垃圾。這類工作,大致相當于社交媒體上的消防員,在科技行業(yè)是很常見的。人類訓練機器來完成單調(diào)甚至是令人沮喪的任務,機器最終會做得更好。如果人類把這些工作做好,機器就會失去工作。與此同時,所有人發(fā)布的消息都得到了深入的分析。
在分析員們整理了大量的污垢、丑聞和低等級的敲詐信息之后,五分之四的數(shù)據(jù)被導入了深度文本。然后,Instagram的工程師們努力創(chuàng)建算法,試圖對垃圾進行分類。
同時,系統(tǒng)分析了每句話的語義,并將信息來源考慮在內(nèi)。一個你不關(guān)注的人的筆記更可能是垃圾郵件,而不單單是那個人有問題;在塞雷娜·戈麥斯(SelenaGomez)的帖子里,那些沒完沒了的評論可能不是由一個人做的。
之后,使用算法來檢測沒有被投入深度文本的那五分之一的數(shù)據(jù),以觀察這些機器與人類分析的匹配程度。最終,Instagram對這一結(jié)果感到滿意,該公司于去年10月悄然推出了這款產(chǎn)品。垃圾郵件開始隨著算法的運行而逐漸消失,就像一個充滿灰塵的大房間一下子變得很干凈。
instagram不愿透露該工具減少了多少垃圾,或者泄露該系統(tǒng)是如何運作的內(nèi)部秘密。當我們向一個垃圾發(fā)送者表現(xiàn)出防御姿態(tài)時,他們會思考如何反擊。但是,Instagram的首席執(zhí)行官凱文·斯特羅姆(KevinSystrom)卻很高興。
因此他決定在一個更復雜的問題上使用深度文本:消除刻薄的評論?;蛘撸唧w地說,刪除那些違反Instagram社區(qū)準則的評論,或者像該公司的一位發(fā)言人所說的,刪除那些違反道德準則的評論。這些指導原則相當于社交媒體平臺的憲法。Instagram公開發(fā)布了一個1200字的規(guī)則——要求人們永遠尊重他人,永遠不要赤身裸體——而且,它還有一個字數(shù)更多的內(nèi)部要求,員工們會把它作為指南。
一個人看一看評論,然后判斷它是否合規(guī)。如果不合規(guī),他就會將其歸類為一種類似于欺凌、種族主義或性騷擾的行為。這些分析員至少掌握兩種語言,他們分析了大約200萬條評論,每條評論都至少被分析兩次。
與此同時,Instagram的員工們也在自己的手機上對該系統(tǒng)進行了測試,同時公司也在不斷調(diào)整算法:選擇和修改那些有用的,刪除那些沒用的。這些機器給每條評論在0到1之間打分,這就是Instagram的置信度,根據(jù)這個可以分析哪些評論是無禮的或不恰當?shù)摹?/p>
當置信度超過某個閾值,該評論就會受到攻擊。和垃圾郵件一樣,這些評論都基于對文本的語義分析,以及評論者和分析者的關(guān)系,還有發(fā)出評論者的歷史背景等因素。陌生人比你的朋友發(fā)出的東西更容易被公正的評分。
今天早上,Instagram宣布該系統(tǒng)將正式上線。當你輸入一些帶有惡意或騷擾的東西,如果系統(tǒng)有效,那些話就會消失。這項技術(shù)將自動融入人們的信息流中,但也很容易關(guān)閉:只需在設置菜單中點擊省略號,然后點擊評論。
這個過濾器將首先只可以在英語中使用,但其他語言之后也會跟隨。與此同時,Instagram還宣布,他們正在不斷增強自己的機器人垃圾郵件過濾器,以使其他九種語言:英語、西班牙語、葡萄牙語、阿拉伯語、法語、德語、俄語、日語和中文中一些充滿惡意的評論不會通過。
當然,也有新的風險,系統(tǒng)可能刪除一些無傷大雅甚至有用的評論。托馬斯戴維森建立了一個機器學習系統(tǒng)來識別Twitter上的仇恨言論,他指出,Instagram試圖解決的問題將會多么困難。機器雖然是智能的,但它們可以被不同語言或不同語境中代表不同事物的單詞所絆倒。
以下是一些他的系統(tǒng)作出的錯誤地判斷:
“我這個周末沒買酒,只買了20包香煙。我很驕傲,我還剩40英磅。“
“亞拉巴馬隊在過去的兩周里被高估了,在他們的盔甲上,有太多的中國佬給他們造成的破壞。”
當被問及這些特定的句子時,Instagram并沒有特別回應。他們只是指出系統(tǒng)也會出現(xiàn)錯誤。這個系統(tǒng)的基礎(chǔ)是原始評分者的判斷,而所有人都會犯錯誤。算法也是有缺陷的,而且他們可能會因為他們所接受的數(shù)據(jù)而產(chǎn)生偏見,而且,這個系統(tǒng)有著百分之一的錯誤率,但不是零。
在該系統(tǒng)推出之前,我問了斯特羅姆(Systrom),他是否會讓系統(tǒng)在艱難選擇中掙扎,那些選擇可能意味著要屏蔽那些不應該被屏蔽的東西。
“這是一個很經(jīng)典的問題,”他回答道。“如果你目標明確,你會對一堆實際上相當不錯的東西進行分類。”所以,你知道,如果你是我的朋友,我只是在和你開玩笑,Instagram就應該讓它通過。我們不想做的事情就是在任何情況下屏蔽不應該被屏蔽的東西。但是現(xiàn)實是,這件事一定會發(fā)生,所以,最重要的問題是:這種誤差幅度是否能阻止那些真正糟糕的東西?”他接著說,“我們不是來限制言論自由的。我們不是來限制朋友間的有趣對話的。我們在這里是為了確保我們可以消除Instagram上的負面評論。”
如果Systrom的說法正確的話,在這個系統(tǒng)的運作下,Instagram可能會成為互聯(lián)網(wǎng)上最友好的地方之一。又或者,它看起來似乎過于精致和可控。或者,這個系統(tǒng)可能會開始刪除友好的玩笑或政治言論。斯特羅姆(Systrom)渴望找出答案。他說:“機器學習的全部理念是,能夠理解這些細微差別,它比任何一種算法都要好得多,也比任何一個人能做到的都要好得多。”“我認為,我們需要做的是找出如何進入這些灰色區(qū)域,并根據(jù)時間判斷算法的性能,看看它是否真的能改進。”因為,如果它只能給我們帶來麻煩,卻不起任何作用,我們就會放棄它,重新開始研究新的東西。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。