請想象今年是2022年。你正坐在一輛自動駕駛汽車中,按照每日的常規(guī)路線行駛。你們來到了一處停車標志前,這個地方已走過了上百次。然而這一次,汽車竟直接開了過去。
在你看來,這塊停車標志看上去別無二致。但對于汽車來說,它卻和其它停車標志截然不同。你和汽車不知道的是,就在幾分鐘前,一名街頭藝術(shù)家在這塊標志上貼了一小張貼紙。人眼注意不到,卻逃不過機器的“眼睛”。換句話說,這張小小的貼紙使汽車將停車標志“看”成了完全不同的標志。
這聽上去離我們很遙遠。但近期研究顯示,人工智能很容易被類似的方法糊弄,“看見”的東西與人眼產(chǎn)生巨大偏差。隨著機器學習算法在交通、金融和醫(yī)療體系中運用得愈加普遍,計算機科學家希望在不法分子真正動手之前、找到對抗這些攻擊的方法。
“機器學習和人工智能領(lǐng)域?qū)@一問題感到十分擔憂,更何況這些算法被運用得越來越普遍。”俄勒岡大學計算機與信息科學助理教授丹尼爾·洛德(Daniel Lowd)指出,“如果只是漏標了一封垃圾郵件,沒什么大不了的。但如果你坐在一輛自動駕駛汽車里,你就得確保汽車知道往哪兒走、且不會撞上什么東西,因此風險自然高得多。”
智能機器是否會失靈、或受到黑客控制,取決于機器學習算法“了解”世界的方法。若機器受到干擾,就可能將熊貓看成長臂猿,或是將校車看成鴕鳥。法國和瑞士研究人員開展的一項實驗顯示,這樣的干擾可導致計算機將松鼠看成灰狐貍,或?qū)⒖Х葔乜闯甥W鵡。
這是如何實現(xiàn)的呢?思考一下兒童學習識數(shù)的過程:兒童觀察數(shù)字時,會注意到不同數(shù)字的共同特征,如“1又細又高,6和9都有一個大圓環(huán),8則有兩個”等等??催^了足夠多的數(shù)字之后,即使字體不同,兒童也能迅速認出4、8、3等新數(shù)字。
機器學習算法了解世界的過程其實與此類似。要使計算機探測到某種信息,科學家會先向計算機中輸入成百上千條實例。機器篩查這些數(shù)據(jù)時(如:這是一個數(shù)字;這不是數(shù)字;這是一個數(shù)字;這不是數(shù)字),便可逐漸了解該信息的特征。很快,機器便能準確得出“圖片上是數(shù)字5”這樣的結(jié)論。
計算機不會對高級細節(jié)多加留意
從數(shù)字到貓咪,從船只到人臉,兒童和計算機都利用了這一方法學習識別各種各樣的物件。但和人類兒童不同,,如貓咪毛茸茸的耳朵、或數(shù)字4獨特的三角形結(jié)構(gòu)。機器“看見”的不是圖片整體,而是圖片中的單個像素。以數(shù)字1為例,如果大多數(shù)數(shù)字1都在某一位置上有黑像素、另一個位置上有幾個白像素,那么機器只有在檢查過這幾個像素之后,才會做出決斷。再說回停車標志。如果標志的某些像素出現(xiàn)了肉眼不易察覺的變化,即專家所說的“干擾”,機器就會將停車標志看成其它東西。
懷俄明大學與康奈爾大學的進化人工智能實驗室開展了類似研究,使人工智能產(chǎn)生了一系列視覺幻覺。這些圖片中的抽象圖案和色彩在人眼看來毫無意義,計算機卻能迅速將其識別為蛇或步槍。這說明人工智能“眼中”的物體可能與實際情況大相徑庭。
各種機器學習算法都存在這一缺陷。“每種算法都存在其漏洞,”美國范德堡大學計算機科學與計算機工程助理教授葉夫提尼·沃羅貝琴科(Yevgeniy Vorobeychik)指出,“我們生活在一個極其復雜的多維世界中,而算法只能關(guān)注其中的一小部分。”沃羅貝琴科“堅信”,如果這些漏洞的確存在,遲早會有人研究出利用漏洞的方法。有些人可能已經(jīng)這么做了。
以垃圾郵件過濾程序為例。垃圾郵件有時會改變單詞拼寫(如將 Viagra 寫成 Vi@gra),或是加上合法郵件中常見的“正面詞匯”(如“高興”,“我”或“好”),有時還會刪除一些非法郵件的常見詞匯,如“索賠”、“手機”、“贏取”等。
這些方法是否能讓不法分子得逞呢?被停車標志上的貼紙糊弄的自動駕駛汽車就是該領(lǐng)域?qū)<姨岢龅牡湫颓榫?。除此之外,非法?shù)據(jù)可能使色情影片躲過過濾程序;不法之徒可能會篡改支票上的數(shù)字;黑客可能會修改惡意程序代碼、以混過數(shù)字安保系統(tǒng)。
不法分子只需將相應(yīng)的機器學習算法弄到手,便可編寫出用來進攻的數(shù)據(jù)。但要想騙過算法,其實并不一定要這樣做。黑客可以強行發(fā)起攻擊,反復調(diào)整同一封郵件、或同一張圖片,直到混過過濾系統(tǒng)。長此以往,黑客便掌握了過濾系統(tǒng)搜查的關(guān)鍵信息,然后編寫出可蒙騙這些系統(tǒng)的數(shù)據(jù)。
“從機器學習系統(tǒng)問世以來,就有人試圖對其進行操縱,”賓州大學計算機科學與工程教授帕特里克·麥克丹尼爾(Patrick McDaniel)表示,“如果有人私下里使用這些技術(shù),我們也許毫不知情。”想利用該技術(shù)的人不只是犯罪分子,有些人只是想避開現(xiàn)代科技的“監(jiān)視”。“如果你在一個專制國家持有不同政見,想在政府不知情的情況下開展政治活動,就需要在機器學習的基礎(chǔ)上躲開自動監(jiān)視系統(tǒng)。”洛德指出。
在去年十月開展的一項研究中,卡耐基梅隆大學的研究人員發(fā)明了一副眼鏡,能夠不知不覺地騙過面部識別系統(tǒng),使計算機誤將女演員瑞茜·威瑟斯彭(Reese Witherspoon)認作男演員羅素·克勞(Russell Crowe)。聽上去很搞笑,但這一技術(shù)或許真能幫到那些必須躲開當權(quán)者視線的人。
與此同時,算法還有什么值得改進之處呢?“要想避免上述問題,唯一的方法便是打造一套完美的、永遠正確的模型。”洛德指出。就算我們研發(fā)出了比人類更厲害的人工智能,世界仍然充斥著各種不確定性,答案不會立即浮出水面。
人們通常以準確度評價機器學習算法的好壞。正確識別物體的概率越高,程序就越出色。但一些專家認為,我們還應(yīng)考察算法抵御攻擊的能力,越不易被攻破就越出色。專家提前對程序進行考察也不失為一種解決方法。程序員可預先猜測攻擊者的意圖,在實驗室中模擬攻擊,然后將其展示給機器學習算法。這有助于算法逐漸增強抵抗能力,前提是模擬出的攻擊符合現(xiàn)實情況。
麥克丹尼爾提出,我們可以讓人類參與其中,為算法的猜測結(jié)果提供外部驗證。Facebook 的“M”等“智能助手”就有人類輔助,檢查機器產(chǎn)生的答案。還有科學家指出,在法庭判決等敏感情境中,也應(yīng)讓人類進行驗證。“機器學習系統(tǒng)只是一種推理工具。在處理我們輸入的信息和機器提供的信息時,我們必須足夠聰明和理智,”麥克丹尼爾說道,“我們不應(yīng)將機器所言奉為真理。”
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。