2019年12月21日,“OpenI/O 2019啟智開發(fā)者大會(huì)”在深圳召開,此屆論壇由鵬城實(shí)驗(yàn)室、新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟主辦,粵港澳大灣區(qū)人工智能與機(jī)器人聯(lián)合會(huì)、廣東省人工智能與機(jī)器人學(xué)會(huì)協(xié)辦。
大會(huì)首日,國家新一代人工智能戰(zhàn)略規(guī)劃執(zhí)筆人、北航高等工程學(xué)院副院長、OpenI理事會(huì)理事吳文峻從AI治理技術(shù)、國內(nèi)外研究現(xiàn)狀、平臺建設(shè)等方面分享了“人工智能的治理與評測方法”。
以下為吳文峻演講內(nèi)容實(shí)錄,AI科技大本營(ID:rgznai100)整理:
新一代人工智能帶來的挑戰(zhàn)
現(xiàn)在以深度神經(jīng)網(wǎng)絡(luò)為代表的AI帶動(dòng)了新一輪人工智能的發(fā)展。但是,在這個(gè)發(fā)展后面,也有很多新的挑戰(zhàn)和隱憂。在自動(dòng)駕駛領(lǐng)域,有特斯拉出現(xiàn)車禍,在目前利用一些方法來進(jìn)行深度偽造,嘴邊拿一個(gè)視頻過來就可以把你自己說的話換成名人的頭像,比如這張圖,讓奧巴馬說一段其他名人說的話。我記得前段時(shí)間國內(nèi)有批量換臉的應(yīng)用,但是很快下架了。所以,深度偽造帶來的潛在社會(huì)危害是非常巨大的。
還有人工智能的公平性問題,這在國內(nèi)外許多AI應(yīng)用里面都有提到,比如不同膚色、不同人種用AI進(jìn)行智能司法判決的時(shí)候,包括在找工作的時(shí)候AI進(jìn)行自動(dòng)簡歷篩查,包括在銀行進(jìn)行貸款發(fā)放的時(shí)候等等,如果算法在數(shù)據(jù)上面的處理不夠均衡,很有可能算法所做出的最終判斷就是有偏差的,從倫理道德來說就會(huì)帶來很嚴(yán)重的社會(huì)問題。
我今天重點(diǎn)講的是關(guān)于深度神經(jīng)網(wǎng)絡(luò)本身的安全問題。雖然在座很多開發(fā)者和同學(xué)都用過深度神經(jīng)網(wǎng)絡(luò),但是你會(huì)發(fā)現(xiàn),雖然深度神經(jīng)網(wǎng)絡(luò)在相當(dāng)數(shù)據(jù)情況下解決很多問題,比傳統(tǒng)方法的效率和效果都要好,但是安全性確實(shí)是深度神經(jīng)網(wǎng)絡(luò)目前最需要解決的問題。如果你把這樣不安全的神經(jīng)網(wǎng)絡(luò)應(yīng)用在自動(dòng)駕駛、應(yīng)用在人臉識別、應(yīng)用在安防監(jiān)控這些領(lǐng)域里面,帶來的危害是現(xiàn)實(shí)的。
我們這里可以總結(jié)一下在AI治理方面或者倫理原則方面,以獲取人的信任為主要核心,覆蓋方向主要是四個(gè),一個(gè)是Security(安全),二是Transparency(透明度),這個(gè)算法不是黑箱,讓人理解深度神經(jīng)網(wǎng)絡(luò)的運(yùn)行、推理過程和訓(xùn)練過程。第三是Privacy(隱私)。第四是Fairness(公平性)。
這些原則無論是學(xué)術(shù)界還是工業(yè)界,都在開展很多研究。因?yàn)閲@著前面這四個(gè)原則,去探討法律、道德甚至哲學(xué)層面,可以永遠(yuǎn)探討下去,因?yàn)檫@是我們?nèi)祟惿鐣?huì)對終極正義追求的一種表現(xiàn)。
AI治理技術(shù)
目前來說,我個(gè)人覺得最重要的是怎么樣把與人為善的AI的根本原則能夠落地,能夠和現(xiàn)有技術(shù)手段進(jìn)行有機(jī)結(jié)合。
比如,在透明化方面正在做可解釋性的工作,包括對AI的推理過程翻譯成自然語言,包括把一個(gè)復(fù)雜的黑箱式的深度神經(jīng)網(wǎng)絡(luò)能不能等價(jià)成一個(gè)簡化的代理網(wǎng)絡(luò),比如決策樹、貝葉斯圖。還有各種深度神經(jīng)網(wǎng)絡(luò)的可視化工作,把神經(jīng)元推理過程中不同輸入情況下激活的狀態(tài)以可視化的方式展現(xiàn)出來。
另外一個(gè)是溯源,因?yàn)锳I模型和應(yīng)用是不斷連續(xù)的過程,從它產(chǎn)生數(shù)據(jù)到中間數(shù)據(jù)不斷訓(xùn)練出來的模型,以及訓(xùn)練中產(chǎn)生的方法,在軟件工程中,都可以用分階段版本的形式刻畫出來,然后把演化過程或數(shù)據(jù)給表達(dá)出來。當(dāng)出現(xiàn)問題的時(shí)候,就可以分階段地進(jìn)行判斷、審計(jì)、健全等等,通過這樣的方式最終確定AI模型在一定文化或者事故情況下的權(quán)利劃分。
還有兩個(gè)針對AI治理的技術(shù),一個(gè)是測試技術(shù),一個(gè)是形式化驗(yàn)證技術(shù)。
在軟件工程里,對軟件的形式化驗(yàn)證有很多年的研究,主要是利用計(jì)算機(jī)科學(xué)里的形式化方法,也就是梳理邏輯和離散數(shù)學(xué)里的形式方法,對程序的建立、數(shù)學(xué)模型和建模情況下程序的行為、屬性所需要的滿足性質(zhì)進(jìn)行驗(yàn)證。
目前,學(xué)術(shù)界還沒有得到一個(gè)非常短時(shí)間內(nèi)可以覆蓋很大規(guī)模神經(jīng)網(wǎng)絡(luò)的形式化工具,但是在最近幾年,一些初步研究探索已經(jīng)在開始了,至少可以對部分情況用形式化的方法:對神經(jīng)元在不同輸入里的上下邊界進(jìn)行數(shù)值的刻畫。神經(jīng)元最大的問題是有擾動(dòng)的情況下會(huì)產(chǎn)生嚴(yán)重偏差,這會(huì)導(dǎo)致很嚴(yán)重的誤判。所以未來可以期待的是,至少在一定范圍里,特別是自動(dòng)駕駛,肯定會(huì)出現(xiàn)比較嚴(yán)格的面向神經(jīng)網(wǎng)絡(luò)的形式化方法,以保證將來訓(xùn)練出來的關(guān)鍵系統(tǒng)的模型的可能性。
最后一個(gè)是測試技術(shù),我們知道軟件里面測試很多年了,方法也很成熟。對于神經(jīng)網(wǎng)的測試,沒有把它作為工程法的方法來對待,大家在不平常當(dāng)中對學(xué)習(xí)訓(xùn)練的測試是用測試集來訓(xùn)練它的acc、auc等性能,但是對它在擾動(dòng)情況下出現(xiàn)的各種錯(cuò)誤行為,過去這種測試是比較少的。對神經(jīng)網(wǎng)本身的一些覆蓋測試、黑盒測試研究等等也是剛開始。
綜合這些技術(shù),在目前這種AI大潮情況下,能夠把人工智能模型的開發(fā)和運(yùn)維周期有效結(jié)合起來,無論是從任務(wù)的提出到模型訓(xùn)練數(shù)據(jù)的收集,到訓(xùn)練過程,到對模型的測試和評價(jià)過程,以及到最后的模型應(yīng)用,我們都可以不斷地加入剛才提到的這些治理要求,比如剛才講的公平的要求、質(zhì)量的要求等等。通過工具嵌入到開發(fā)周期當(dāng)中,能夠使得在每一個(gè)階段都能使模型數(shù)據(jù)、模型本身的實(shí)現(xiàn)能達(dá)到我們的倫理期待,這是將來很多人都會(huì)不斷推進(jìn)和做的一件事情。
目前,在測試方面國家雖然有很多宏觀政策,要求我們人工智能安全、可靠、可控地發(fā)展,但是目前還沒有對于機(jī)器學(xué)習(xí)算法的統(tǒng)一測試方法、標(biāo)準(zhǔn)規(guī)范,這都是急需要推進(jìn)的事情。在國外,包括ISO、美國標(biāo)準(zhǔn)局和加拿大等等陸續(xù)出臺了一些法規(guī),很多都是含糊的原則性措辭,可以想見,在這個(gè)領(lǐng)域是大有可為的。
我們想到將來的AI產(chǎn)品、算法和模型如果要大規(guī)模推廣,不只是它的功能,安全、可靠這些東西都要做測試,如果達(dá)不到測試標(biāo)準(zhǔn),那它根本沒有辦法得到國家有關(guān)部門的授權(quán),能夠真正在市場中推廣。我相信將來肯定會(huì)出現(xiàn)這么一種局面,所以所有的重要領(lǐng)域的AI算法產(chǎn)品,你要真正部署應(yīng)用的時(shí)候,必須要經(jīng)過嚴(yán)格的測試和認(rèn)證。
國內(nèi)外研究現(xiàn)狀
這幾年這個(gè)領(lǐng)域的研究非?;钴S,特別是從軟件工程角度和對AI模型自身角度的研究,特別是哥倫比亞大學(xué)做的工具、自動(dòng)駕駛做的deep test工具,包括IBM、谷歌、清華、百度等等都有相應(yīng)的工具出臺。
對于這些研究主要集中在對神經(jīng)網(wǎng)的對抗樣本研究,也就是說,目前運(yùn)用GAN網(wǎng)絡(luò),在正常情況下,通過加入人眼無法辯識的信號干擾,使得AI模型產(chǎn)生完全不期望的結(jié)果。比如一個(gè)熊貓,你加一些噪音進(jìn)去,認(rèn)成猴子或者猩猩,一個(gè)香蕉加了干擾可能認(rèn)為是礦卷水瓶子。
大量的數(shù)據(jù)和大規(guī)模網(wǎng)絡(luò)在訓(xùn)練的時(shí)候,我們知道深度神經(jīng)網(wǎng)絡(luò)都是用算法迭代式的進(jìn)行優(yōu)化,往往只找到局部的最優(yōu)點(diǎn),不能找到全局的,所以優(yōu)化過程中最優(yōu)化的曲率和梯度坍塌、爆炸都是常見的問題。通過反復(fù)訓(xùn)練,使模型性能提高了百分之幾,但是模型的安全性是極無法得到保障的,是極不穩(wěn)定的。
在這里,我們做了一系列工作,包括在路牌上貼一些小的patch,根據(jù)算法來生成,實(shí)際上是加了一些噪音,最后使得自動(dòng)駕駛的算法在進(jìn)行停車、通行、限速方面,完全不一樣,比如指定限速20邁,通過加上標(biāo)簽,一下提升到80邁,自動(dòng)駕駛的車輛過去的時(shí)候會(huì)產(chǎn)生嚴(yán)重的誤判,就會(huì)產(chǎn)生問題,這都是用GAN的算法生成, 需要充分考慮到場景。
另外,我們把這樣算法用在機(jī)器人導(dǎo)航識別當(dāng)中,比如三維導(dǎo)航場景當(dāng)中機(jī)器人需要識別物體對象是什么,通過三維場景中增加一些擾動(dòng)信號,可以使得典型的機(jī)器人算法發(fā)生根本性誤判。
這里也有一個(gè)展示,跟大家網(wǎng)上購物有關(guān)系,比如京東或者其他購物APP可以對物體進(jìn)行拍照,可以在網(wǎng)上商城找到相應(yīng)的商品列表。比如在方便面上打一個(gè)這樣的patch或者在礦泉水瓶上打一個(gè)patch,最后認(rèn)出的商品是五花八門的,完全不是你想要的情況。
模型測試
剛才PPT顯示了在場景里面增加對抗的patch,能夠使得機(jī)器學(xué)習(xí)算法完全失效的情況。我們通過什么方法能夠更好地加固和優(yōu)化我們的算法,以避免產(chǎn)生這樣的誤判、提升系統(tǒng)的穩(wěn)定性和魯棒性?
我們做的工作,對于神經(jīng)元的敏感性進(jìn)行刻畫。這個(gè)敏感性定義是說,你對神經(jīng)網(wǎng)絡(luò)進(jìn)行對抗性樣本輸入的時(shí)候,很明顯的觀察到,并不是所有神經(jīng)元都是敏感的,并不是所有東西都明顯的產(chǎn)生比較劇烈的反應(yīng)或者輸出激活的狀態(tài)下,所以你可以標(biāo)出敏感度最高的神經(jīng)元,圍繞著神經(jīng)元每一層輸出的地方,可以加入自適應(yīng)的調(diào)節(jié)機(jī)制,來弱化這個(gè)過度敏感的神經(jīng)元對整個(gè)神經(jīng)網(wǎng)絡(luò)判別過程的影響。我們這里做了一些可視化的工作以及對于敏感性增強(qiáng)的一些工作。
模型理解
另外,對于模型不同信號的噪音,包括自然噪音和對抗樣本生成的噪音,把相關(guān)性進(jìn)行分析比較。在自然噪音情況下,比如加雪花、變形等等,和對抗樣本生成的人工擾動(dòng)具有一定的相似性,這就說明魯棒性問題是模型本身的結(jié)構(gòu)和模型的參數(shù)訓(xùn)練問題造成的。要解決它,除了在結(jié)構(gòu)和參數(shù)的加固、優(yōu)化外,在訓(xùn)練過程中多樣性的訓(xùn)練數(shù)據(jù)也是很重要的。
這里組織了一個(gè)神經(jīng)網(wǎng)可解釋的??瘉硗苿?dòng)對這方面的工作。這里是對模型量化進(jìn)行的一些工作,特別是對量化參數(shù)加入一些線性網(wǎng)絡(luò)模塊,加在每一層現(xiàn)行權(quán)重輸出的地方,能夠使得權(quán)重在一個(gè)比較穩(wěn)定的范圍。
另外,我們把對抗樣本加入到神經(jīng)網(wǎng)的反向訓(xùn)練BP過程當(dāng)中,通過這樣的方式,可以有效地提升訓(xùn)練出來的神經(jīng)網(wǎng)對抗的魯棒性和對自然噪聲的魯棒性。
模型優(yōu)化
這是剛才提到的對敏感性神經(jīng)網(wǎng)怎么通過算法的方式進(jìn)行有效地加固。
標(biāo)準(zhǔn)制定
目前,基于這一系列的工作,我們已經(jīng)在這方面國家標(biāo)準(zhǔn)的制定方面進(jìn)行了一些探討,特別是在去年年底和今年年初的時(shí)候,中國電子工業(yè)化技術(shù)協(xié)會(huì)下推動(dòng)了一項(xiàng)團(tuán)標(biāo),專門是用來對機(jī)器學(xué)習(xí)算法的魯棒性怎么進(jìn)行度量,像最差的決策邊界、噪音敏感度、神經(jīng)元敏感度,把這些都納入到團(tuán)標(biāo)當(dāng)中,目前在把這個(gè)團(tuán)標(biāo)向國家標(biāo)準(zhǔn)立項(xiàng)方向進(jìn)行推進(jìn)。
另外,我們跟工信部門合作,把剛才這些算法納入到工信部門接綁行動(dòng)的標(biāo)準(zhǔn)化評價(jià)評測平臺的研制當(dāng)中,構(gòu)建相應(yīng)的數(shù)據(jù)模型和資源庫,同時(shí)引進(jìn)模型的數(shù)據(jù)檢測和模型評測的方法等等。
平臺建設(shè)
整個(gè)AI的運(yùn)維管理,目前一般來說在下面需要一個(gè)云的環(huán)境。今天我們講了各種開發(fā)工具,包括數(shù)據(jù)標(biāo)注、主動(dòng)學(xué)習(xí)、知識圖譜的工具,特別強(qiáng)調(diào)了安全驗(yàn)證工具等等,這些都可以作為微服務(wù)來進(jìn)行有效地串接在一起。在這上面,可以從數(shù)據(jù)的收集、整理、訓(xùn)練到模型部署、運(yùn)維的整個(gè)流程來進(jìn)行打通。
如果我們比較一下目前在軟件工程CI/CD領(lǐng)域持續(xù)集成、持續(xù)部署流程和深度學(xué)習(xí)模型,這樣的流程之間有一定的相似性。軟件的CI/CD流程,軟件要從代碼庫里面通過編譯進(jìn)行流程管理,引入一些工具對代碼質(zhì)量進(jìn)行評測,然后放在Google Net或者其他云上面。我們對AI模型也是這樣,需要選結(jié)構(gòu)、設(shè)計(jì)和調(diào)優(yōu)部署。目前大部分廠商對于設(shè)計(jì)調(diào)優(yōu)和部署有相當(dāng)多的工具支持,但是對圖片中的這一塊對評價(jià)測試和加固優(yōu)化工作的開源工具相對比較少。這需要國內(nèi)、國外大力開發(fā)研究和推進(jìn)的。
這是我們研究的測試平臺原型,和一般的開發(fā)流程差不多。
這是開發(fā)目前的基本界面,在這個(gè)界面大家可以提交自己的模型,我們通過生成的不同測試樣本對抗噪音和自然噪音,對算法的性能、安全性、可靠性進(jìn)行評測,進(jìn)一步給出模型的改進(jìn)建議。基于剛才的框架,還有很多后續(xù)的工作和工具可以繼續(xù)來做。
根據(jù)剛才所說的這些,我們的計(jì)劃是能夠在理論研究和原型開發(fā)基礎(chǔ)上,能夠使平臺更加成熟,計(jì)劃在今年晚些時(shí)候能夠納入到我們的OpenI開源框架體系里,為AI持續(xù)健康的發(fā)展和治理做出努力。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。