在過去十年中,機(jī)器學(xué)習(xí)在很多領(lǐng)域都取得了前所未有的進(jìn)展,如圖像識別,自動駕駛汽車、和玩復(fù)雜游戲如「GO」等。這些成就在很大程度上都是通過采用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種范式中的一種來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)得以實(shí)現(xiàn)的。這兩種范式都要求人為設(shè)定「訓(xùn)練信號」并將其傳遞給計(jì)算機(jī)。在監(jiān)督學(xué)習(xí)的示例中,這些信號被視為「目標(biāo)」(例如某個(gè)圖像的正確標(biāo)簽);在強(qiáng)化學(xué)習(xí)中,它們是行為正確時(shí)獲取的「獎勵(lì)」(例如在 Atari 游戲中獲得高分)。因此,機(jī)器學(xué)習(xí)的界限是由人類訓(xùn)練者所定義的。
雖然一些科學(xué)家認(rèn)為,擁有足夠包容的訓(xùn)練體制,如使智能體具備完成各類任務(wù)的能力,就應(yīng)該足以達(dá)到通用的智能水平,但其他人則認(rèn)為真正的智能需要更多的獨(dú)立學(xué)習(xí)策略。例如,回歸到人類幼童如何學(xué)習(xí)的場景,她的祖母可能會坐在她身旁,耐心地舉出什么是「鴨子」的例子(該行為像是監(jiān)督學(xué)習(xí)中的指示信號),或者在她完成木版拼圖時(shí)用掌聲表示獎勵(lì)(如同在強(qiáng)化學(xué)習(xí)中一樣)。但是,幼兒在絕大多數(shù)時(shí)間里都是在天真地探索世界,通過好奇心、游戲和觀察的方式來理解她周圍的環(huán)境。無監(jiān)督學(xué)習(xí)是一種旨在通過獎勵(lì)智能體(即計(jì)算機(jī)程序)來創(chuàng)建自主智能以便在不考慮特定任務(wù)的情況下學(xué)習(xí)其觀察到的數(shù)據(jù)的范式。換句話說,智能體是為了學(xué)習(xí)而學(xué)習(xí)。
無監(jiān)督學(xué)習(xí)的一個(gè)關(guān)鍵動機(jī)是,雖然傳遞給學(xué)習(xí)算法的數(shù)據(jù)擁有很豐富的內(nèi)部結(jié)構(gòu)(如圖像、視頻和文本),但用于訓(xùn)練的目標(biāo)和獎勵(lì)通常都非常稀疏(例如,標(biāo)簽「狗」指的是尤其多變的物種,標(biāo)簽「0」或「1」表示游戲中的「失敗」或「成功」)。這表明算法學(xué)到的大部分內(nèi)容必須包括對數(shù)據(jù)本身的理解,而不是將這種理解應(yīng)用于特定任務(wù)。
解碼視覺元素
2012 年是深度學(xué)習(xí)的里程碑年,這一年,AlexNet (以其首席架構(gòu)師 Alex Krizhnevsky 命名)席卷ImageNet 分類競賽,其識別圖像的能力被認(rèn)為是前所未有的,而更令人矚目的則是它的內(nèi)部結(jié)構(gòu)。當(dāng)研究人員分析 AlexNet 時(shí),發(fā)現(xiàn)它通過構(gòu)建圖像輸入更復(fù)雜的內(nèi)部表示來解釋圖像。在底層表示如紋理和邊緣之類的低層特征,然后將它們組合在一起形成高級概念,如輪子和狗。
這與我們的大腦處理信息的方式非常相似,在初級感官處理區(qū)域的簡單邊緣和紋理被聚合成復(fù)雜對象,如更高區(qū)域中的面部。因此,復(fù)雜場景的表示可以由視覺基元構(gòu)建,這種方式大致類似于構(gòu)成句子的單個(gè)詞所帶來的意義。即使沒有明確的指導(dǎo),AlexNet 的層級也已經(jīng)發(fā)現(xiàn)了一個(gè)基本的視覺「詞匯」來解決其任務(wù)。從某種意義上說,它已經(jīng)學(xué)會了玩 Wittgenstein 所謂的「語言游戲」,該游戲會反復(fù)地將像素轉(zhuǎn)換為標(biāo)簽。
卷積神經(jīng)網(wǎng)絡(luò)的視覺詞匯。在網(wǎng)絡(luò)的每一層都會生成最大程度地激活特定神經(jīng)元的圖像。然后,這些神經(jīng)元對其他圖像的響應(yīng)可以被解釋為視覺上看不見的「單詞」,如紋理、書架、狗鼻子、鳥等。(圖源:特征可視化,Olah et al,2017)。
遷移學(xué)習(xí)
從通用智能的角度來看,關(guān)于 AlexNet 詞匯的最有趣的事情,就是它可以被重復(fù)使用或遷移到正在訓(xùn)練以外的視覺任務(wù)中,例如識別整個(gè)場景而不是單個(gè)對象。在不斷變化的世界中,遷移是必不可少的,并且也是人類所擅長的,我們能夠?qū)囊延薪?jīng)驗(yàn)(世界認(rèn)知模型)中得到的技能和理解迅速地順手應(yīng)用到任何場景中。例如,一位古典樂鋼琴家可以相對輕松地演奏爵士鋼琴。理論上,塑造了對于世界正確的內(nèi)部表征的人工智能體,應(yīng)該能夠做類似的事情。
盡管如此,AlexNet 等分類器所學(xué)到的表示仍具有局限性。特別是,由于該網(wǎng)絡(luò)只訓(xùn)練成單一類別(如貓、狗、汽車、火山)的標(biāo)注圖像,因此標(biāo)注推理中任何不需要的信息都易于被忽略,無論這些信息對其他任務(wù)有多重要。例如,如果標(biāo)簽推導(dǎo)的總是前景,那表示可能就無法捕獲圖像的背景特征。一種可行的解決方案是提供更全面的訓(xùn)練信號,如將描述圖像的標(biāo)題更詳細(xì)化:不僅僅在標(biāo)題中提到「狗」,而要完整地寫出「柯基犬在陽光明媚的公園中追趕飛盤」。然而,這些目標(biāo)很難獲取,特別是在規(guī)模上,可能不足以捕獲完成任務(wù)所需的所有信息。無監(jiān)督學(xué)習(xí)的基本前提是,學(xué)習(xí)內(nèi)容豐富、廣泛可遷移性的表示的最佳途徑就是嘗試學(xué)習(xí)能被學(xué)到數(shù)據(jù)的所有信息。
如果通過表示學(xué)習(xí)的遷移概念看起來過于抽象,那么可以試想一個(gè)學(xué)過將人畫成火柴人的小孩。她發(fā)現(xiàn)了一種高度緊湊和具有快速適應(yīng)性的人類形態(tài)的表示。她可以通過為每個(gè)火柴人增加具體細(xì)節(jié),為她所有的同學(xué)繪制肖像畫:例如為她最好的朋友畫一幅眼鏡,給她同桌「穿」上他最喜歡的紅色 T 恤。而且她學(xué)習(xí)這項(xiàng)技能不是為了完成一項(xiàng)特定任務(wù)或獲得獎勵(lì),而是對反映了她周圍世界的基本需求的回應(yīng)。
從創(chuàng)造中學(xué)習(xí):生成式模型
也許無監(jiān)督學(xué)習(xí)的簡單的目標(biāo)是訓(xùn)練算法以生成其本身的數(shù)據(jù)實(shí)例。所謂的生成式模型不應(yīng)該簡單地再現(xiàn)他們正在上面訓(xùn)練的數(shù)據(jù),這是一種無趣的記憶行為。生成式模型的目的是建立一個(gè)基礎(chǔ)類,并能夠從中抽取數(shù)據(jù)的模型:不是特定的馬或彩虹的照片,而是馬和彩虹的所有照片集;不是來自特定發(fā)言者的特定表達(dá),而是說話表達(dá)方式的通用性分布。生成式模型的指導(dǎo)原則是,能夠構(gòu)建一個(gè)令人信服的數(shù)據(jù)例子就是智能體已經(jīng)理解了該數(shù)據(jù)的最有力證據(jù):正如 Richard Feynman 所說,「對于我所無法理解的東西,我就無法創(chuàng)造出來?!?/p>
對于圖像,迄今為止最成功的生成式模型要數(shù)生成式對抗網(wǎng)絡(luò)(簡稱 GAN),它包含兩個(gè)網(wǎng)絡(luò),即一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò),二者在 GAN 中的作用就如同參與一場類似于藝術(shù)品偽造和甄別的識別競賽。生成網(wǎng)絡(luò)產(chǎn)生圖像的目的是誘使鑒別者相信它們是真實(shí)的;與此同時(shí),判別網(wǎng)絡(luò)則會因發(fā)現(xiàn)贗品而獲得獎勵(lì)。所生成的圖像,先是雜亂和隨機(jī)的,隨后在許多次迭代中被細(xì)化,并且在網(wǎng)絡(luò)之間的持續(xù)動態(tài)會讓圖像變得更加逼真——在許多情況下,這些圖像甚至與真實(shí)照片無法區(qū)分。生成對抗性網(wǎng)絡(luò)還可以由用戶大致用草圖勾勒出其定義的場景細(xì)節(jié)。
掃一眼下面的這些圖像,它們足以讓我們相信,網(wǎng)絡(luò)已經(jīng)學(xué)會了如何表示其訓(xùn)練的圖片的許多關(guān)鍵特征,如動物身體的結(jié)構(gòu)、草的紋理以及光影的細(xì)節(jié)效果(即使是通過肥皂泡折射的)。但仔細(xì)觀察下面這些圖,就不免能發(fā)現(xiàn)些許小異常,如白狗明顯多了條腿,噴泉其中一個(gè)噴嘴的水流呈奇怪的直角狀。雖然生成式模型的開發(fā)者在努力避免這種不完美,但這些可見的不完美也突顯了重建熟悉的數(shù)據(jù)(如圖像)的一個(gè)好處,即研究人員可以通過檢查樣本,推斷出模型學(xué)到了什么以及沒有學(xué)到什么。
從預(yù)測中創(chuàng)造
無監(jiān)督學(xué)習(xí)中另一個(gè)著名的成員是自回歸模型,該模型其中的數(shù)據(jù)被分成一連串小部分,然后對每個(gè)小部分依次進(jìn)行預(yù)測。這類模型可以通過連續(xù)預(yù)測接下來會發(fā)生什么,從而來生成數(shù)據(jù),并將上輪預(yù)測結(jié)果作為新的輸入繼續(xù)進(jìn)行預(yù)測。語言模型可能就是最好的例子,語言模型中每個(gè)單詞都是它上一個(gè)的單詞的預(yù)測結(jié)果,這些模型可用于在某些電子郵件和消息應(yīng)用程序中彈出的文本預(yù)測。語言建模的最新進(jìn)展是能夠生成看似合理的段落,例如下圖所示的 OpenAI 的 GPT-2生成的段落。
文本中一個(gè)有趣的謬誤就是獨(dú)角獸被描述為有四個(gè)角:再次證明了對于網(wǎng)絡(luò)理解局限性的探討是非常有趣的。
通過控制用于決定輸出預(yù)測的輸入序列,自回歸模型也可以用來將一個(gè)序列轉(zhuǎn)換為另一個(gè)序列。這個(gè) demo使用了一個(gè)假定的自回歸模型將文本轉(zhuǎn)換為逼真的手寫。WaveNet 可以將文本轉(zhuǎn)換為自然語音,并且現(xiàn)在也應(yīng)用于為 Google 智能助理生成語音。條件和自回歸生成的類似處理過程也可用于語種間的翻譯。
自回歸模型通過嘗試以特定順序預(yù)測數(shù)據(jù)來學(xué)習(xí)數(shù)據(jù)。通過一部分?jǐn)?shù)據(jù)來預(yù)測其他數(shù)據(jù)的方法可以用來構(gòu)建一種更泛化的無監(jiān)督學(xué)習(xí)的算法類。例如,這可以看做是從句子中刪除一個(gè)單詞,并嘗試用剩余的內(nèi)容來預(yù)測這個(gè)被刪掉的單詞。通過學(xué)習(xí)來進(jìn)行大量的局部預(yù)測,模型逐漸能夠從整體上學(xué)習(xí)數(shù)據(jù)。
關(guān)于生成式模型的一個(gè)擔(dān)憂,就是它們有可能被濫用。人類雖然早就能夠通過照片,視頻和音頻編輯操縱證據(jù),但借助生成式模型可以更容易地惡意編輯媒體數(shù)據(jù)。我們可以看到所謂的「deepfakes」的例子,比如對奧巴馬總統(tǒng)的偽造視頻片段。鼓舞人心的是,針對這些挑戰(zhàn),業(yè)界已經(jīng)開展了幾項(xiàng)主要的應(yīng)對工作,其中包括使用統(tǒng)計(jì)技術(shù)來幫助檢測合成媒體和驗(yàn)證真實(shí)媒體、提高公眾意識以及圍繞限制訓(xùn)練好的生成式模型的可用性的討論。此外,生成式模型本身可用于檢測合成媒體和異常數(shù)據(jù),如模型可用于檢測虛假語音或識別支付異常以保護(hù)客戶免受欺詐。而研究人員則需要研究生成式模型,以便更好地理解它們并降低其應(yīng)用風(fēng)險(xiǎn)。
重新想象的智力
生成式模型本身就很吸引人,但 DeepMind 對于它們主要感興趣的是,該模型能夠在通往通用智能的道路上起到「墊腳石」的作用。賦予智能體生成數(shù)據(jù)的能力就是一種賦予其想象力的方式,從而使其具備規(guī)劃和推理未來的能力。我們的研究表明,即使沒有明確的數(shù)據(jù)支持,學(xué)習(xí)預(yù)測環(huán)境的方方面面也可以豐富智能體的世界模型,從而提高其解決問題的能力。
這些結(jié)果與我們對人類思維的認(rèn)知非常一致。我們所擁有的在沒有明確監(jiān)督的情況下了解世界的能力,是我們所認(rèn)為的智力的基礎(chǔ)。在乘坐火車時(shí),我們可能會無精打采地凝視著窗戶,將手指劃過座位的天鵝絨,看著坐在我們對面的乘客。我們沒有帶著任何任務(wù)去做這些事,然而幾乎都在情不自禁地收集信息,并且我們的大腦也在無意識地不斷地解我們周圍的世界,以及我們所處的位置。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。