本文由騰訊數(shù)碼獨(dú)家發(fā)布
直到最近幾十年,相機(jī)的作用才專門為普通人而設(shè)計。無論是為了好玩,為了藝術(shù),還是為了記錄歷史。隨著機(jī)器人技術(shù)的快速發(fā)展,以及各種各樣的自動駕駛汽車,需要從自己所處的環(huán)境中觀察和學(xué)習(xí),許多相機(jī)都是專門用于完成機(jī)器視覺任務(wù)的。其中一些最明顯的,比如自動駕駛汽車,嚴(yán)重依賴于物體識別,這幾乎是普遍的意思是神經(jīng)網(wǎng)絡(luò)對常見的物體進(jìn)行訓(xùn)練。在包括電動汽車在內(nèi)的許多嵌入式系統(tǒng)中,機(jī)器視覺的部署是一個限制,這是必要的計算和電力。因此,重新設(shè)計相機(jī)的設(shè)計,考慮什么是特定應(yīng)用程序的理想相機(jī)架構(gòu),而不是簡單地重新設(shè)計現(xiàn)有的相機(jī)模型是有意義的。
本著這樣一種精神,來自斯坦福大學(xué)由助理教授Gordon Wetzstein和研究生Julie Chang領(lǐng)導(dǎo)的一個團(tuán)隊(duì),建立了一個系統(tǒng)的原型,將一個物體識別神經(jīng)網(wǎng)絡(luò)的第一層直接移動到相機(jī)的光學(xué)上。這意味著所需的推理的第一部分基本上沒有時間,也沒有權(quán)力。雖然他們目前的原型是有限的和笨重的,但它為一些新穎的方法指明了在物聯(lián)網(wǎng)、車輛和其他嵌入式應(yīng)用程序中創(chuàng)建低功耗、高性能、推理解決方案的方法。這項(xiàng)研究從人工智能、成像和光學(xué)上得到了大量的研究,因此我們沒有任何方法可以在一篇文章中詳細(xì)描述整個系統(tǒng)。下面我們會帶你去看那些讓原型變得如此有趣的亮點(diǎn)和一些突破。
基本對象識別 神經(jīng)網(wǎng)絡(luò)風(fēng)格
大多數(shù)當(dāng)前的對象識別系統(tǒng)都使用一個多層神經(jīng)網(wǎng)絡(luò)。藝術(shù)系統(tǒng)的狀態(tài)通常包括幾十層,但有可能解決簡單的測試套件,比如MNIST、谷歌的QuickDraw、和Cifar 10,只有一層或兩層。無論網(wǎng)絡(luò)有多深,第一層或?qū)佣际堑湫偷木矸e層。卷積是在圖像上傳遞一個矩陣(稱為內(nèi)核)的過程,在每個位置乘以它,并對結(jié)果求和以創(chuàng)建一個激活矩陣。簡單地說,這個過程突出顯示了與內(nèi)核模式相似的圖像區(qū)域。典型的系統(tǒng)涉及多個內(nèi)核,每個內(nèi)核都反映了被研究對象中發(fā)現(xiàn)的一個特性。當(dāng)網(wǎng)絡(luò)被訓(xùn)練時,這些內(nèi)核應(yīng)該開始看起來像那些特性,因此產(chǎn)生的激活映射將幫助稍后的網(wǎng)絡(luò)級別識別特定的對象,其中包括各種特性的例子。
之后的網(wǎng)絡(luò)層通常是完全連接的,這比卷積層更容易計算。斯坦福的混合光學(xué)數(shù)碼相機(jī)并沒有解決這些問題,而是用一種光學(xué)替代品代替了計算昂貴的初始卷積層,而這個團(tuán)隊(duì)稱之為opt-conv層。傳統(tǒng)的光學(xué)系統(tǒng)沒有任何簡單的方法可以在圖像上與任意的內(nèi)核進(jìn)行卷積,更不用說多個同步的卷積了。然而,如果圖像首先使用傅里葉變換將其轉(zhuǎn)換為頻率,那么快速卷積就有可能成為可能——因?yàn)樵陬l域中相乘就像在傳統(tǒng)的空間域中執(zhí)行卷積一樣。
為了利用這一特性,研究小組利用傅里葉光學(xué)技術(shù),建立了所謂的4F光學(xué)系統(tǒng)。一個4F系統(tǒng)依靠一個初始透鏡來呈現(xiàn)圖像的傅里葉變換。該系統(tǒng)允許使用中間過濾器或過濾器處理轉(zhuǎn)換后的圖像,然后用最后一個鏡頭反轉(zhuǎn)轉(zhuǎn)換,并呈現(xiàn)修改后的結(jié)果。
光學(xué)計算
進(jìn)入到斯坦福的原型技術(shù)中,包含了很多很深奧的光學(xué)部分,但是它基本上把一些強(qiáng)大的技術(shù)結(jié)合在一起我們可以很簡潔地描述(如果沒有完全解釋的話)
首先,它是傅里葉變換的一個眾所周知的特征(它接受一個信號或圖像,并以頻率的形式呈現(xiàn)它),你也可以翻轉(zhuǎn)它,把原始圖像放回去。重要的是,你可以用一個簡單的光學(xué)系統(tǒng)來做這個,只有幾個透鏡,叫做4F光學(xué)系統(tǒng)(這整個光學(xué)領(lǐng)域叫做傅里葉光學(xué))。
第二,如果你通過一個部分不透明的表面來過濾圖像的傅里葉變換,這和執(zhí)行卷積是一樣的。
第三,你可以將多個內(nèi)核平鋪到一個過濾器中,并將它們應(yīng)用到原始圖像的填充版本中。這模擬了一個多內(nèi)核系統(tǒng)的行為,它通常會產(chǎn)生一個多通道輸出,通過創(chuàng)建一個輸出一個平鋪的等效項(xiàng),如下所示:
所以通過計算所需的內(nèi)核使用傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù),他們可以用來創(chuàng)建一個自定義過濾器——的形式階段不同厚度的面具,可以添加到午夜4F系統(tǒng)立即執(zhí)行玲瓏如光穿過設(shè)備。
訓(xùn)練和實(shí)現(xiàn)光學(xué)卷積層
建議的光學(xué)系統(tǒng)的一個限制是,硬件過濾器必須根據(jù)訓(xùn)練的重量來制造。所以用這個系統(tǒng)來訓(xùn)練自己是不現(xiàn)實(shí)的。培訓(xùn)是通過對系統(tǒng)的模擬來完成的。一旦確定了所需的最終重量,它們就被用來制造一個相位掩模(一個具有不同厚度的過濾器,它改變了通過它的光的相位),有16個可能的值,可以與4F光管道一起放置。
混合光學(xué)電子攝像系統(tǒng)的性能
斯坦福的研究團(tuán)隊(duì)在模擬和使用他們的物理原型時評估了他們的解決方案的性能。他們測試了這兩種方法,既可以使用谷歌的QuickDraw數(shù)據(jù)集來創(chuàng)建獨(dú)立的光學(xué)相關(guān)器,也可以作為兩層神經(jīng)網(wǎng)絡(luò)的第一層,與一個完全連接的層相結(jié)合,使用Cifar-10數(shù)據(jù)集完成基本的對象識別。即使考慮到光學(xué)系統(tǒng)的限制,所有的重量都必須是非負(fù)的,作為一個相關(guān)器,系統(tǒng)的精度在70%到80%之間。
這類似于使用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)技術(shù)創(chuàng)建的更傳統(tǒng)的卷積層,但不需要有驅(qū)動計算元素來執(zhí)行卷積。類似的,使用混合光學(xué)電子第一層的兩層解決方案在cifar 10上實(shí)現(xiàn)了大約50%的性能,與傳統(tǒng)的兩層網(wǎng)絡(luò)差不多,但其計算能力的一小部分,以及典型解決方案的電能的一小部分。
雖然目前的原型體積龐大,而且需要單色光源,而且只需要使用灰度圖像,但該團(tuán)隊(duì)已經(jīng)開始考慮如何在更典型的光照條件下和全彩色圖像進(jìn)行擴(kuò)展。類似地,4F系統(tǒng)本身也可以通過使用平面衍射光學(xué)元件來代替當(dāng)前的透鏡來縮小尺寸。
該團(tuán)隊(duì)還表示,他們將針對自己的系統(tǒng)公開提供完整的源代碼。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。