何在保證基因數(shù)據(jù)和醫(yī)療記錄安全的同時(shí),運(yùn)用云端強(qiáng)大的計(jì)算能力分析找出基因和疾病之間有意義的關(guān)聯(lián)?
未來醫(yī)學(xué)的夢想是理解DNA和疾病之間的聯(lián)系,并以此為基礎(chǔ)為患者制定個(gè)性化的治療方案。但是,科學(xué)家意識到這樣的「個(gè)性化」或「精準(zhǔn)」醫(yī)學(xué)有一個(gè)難題:如何在保證基因數(shù)據(jù)和醫(yī)療記錄安全的同時(shí),能夠運(yùn)用云端強(qiáng)大的計(jì)算能力分析找出基因和疾病之間有意義的關(guān)聯(lián)。
目前,一項(xiàng)新興的數(shù)據(jù)加密技術(shù)也許可以解決這一難題。
加州大學(xué)圣地亞哥分校(以下簡稱UCSD)正在探討如何結(jié)合加密技術(shù)進(jìn)行基因數(shù)據(jù)分析,他們在較小的數(shù)據(jù)集中應(yīng)用一個(gè)被稱作「同態(tài)加密(homomorphic encryption)」的方法,10分鐘內(nèi)就能找到與疾病相關(guān)的基因變異。盡管在實(shí)際工作中,計(jì)算機(jī)從由成百上千DNA片段組成的全基因組數(shù)據(jù)集里找出與疾病相關(guān)的基因變異要花費(fèi)數(shù)小時(shí)時(shí)間,但是,密碼技術(shù)專家還是值得鼓勵(lì)。
同態(tài)加密是一種加密形式,它允許人們對密文進(jìn)行特定的代數(shù)運(yùn)算得到仍然是加密的結(jié)果,將其解密所得到的結(jié)果與對明文進(jìn)行同樣的運(yùn)算結(jié)果一樣。換言之,這項(xiàng)技術(shù)令人們可以在加密的數(shù)據(jù)中進(jìn)行諸如檢索、比較等操作,得出正確的結(jié)果,而在整個(gè)處理過程中無需對數(shù)據(jù)進(jìn)行解密。其意義在于,真正從根本上解決將數(shù)據(jù)及其操作委托給第三方時(shí)的保密問題,例如對于各種云計(jì)算的應(yīng)用。
這一直是密碼學(xué)領(lǐng)域的一個(gè)重要課題,以往人們只找到一些部分實(shí)現(xiàn)這種操作的方法。而2009年9月克雷格·金特里(Craig Gentry)的論文從數(shù)學(xué)上提出了「全同態(tài)加密」的可行方法,即可以在不解密的條件下對加密數(shù)據(jù)進(jìn)行任何可以在明文上進(jìn)行的運(yùn)算,使這項(xiàng)技術(shù)取得了決定性的突破。人們正在此基礎(chǔ)上研究更完善的實(shí)用技術(shù),這對信息技術(shù)產(chǎn)業(yè)具有重大價(jià)值。
——摘自維基百科
UCSD的一名計(jì)算機(jī)科學(xué)家Xiaoqian Jiang說道,「這是一個(gè)可預(yù)見的結(jié)果,但挑戰(zhàn)依然存在」。
醫(yī)生和研究人員認(rèn)為,理解基因和疾病之間的關(guān)系需要從數(shù)以百萬計(jì)人群中收集數(shù)據(jù),包括基因方面和生理方面的數(shù)據(jù)。有些規(guī)劃項(xiàng)目已經(jīng)啟動(dòng),比如,美國總統(tǒng)奧巴馬發(fā)起的精準(zhǔn)醫(yī)學(xué)項(xiàng)目以及英國的十萬基因組項(xiàng)目。如此龐雜的任務(wù)可能需要利用互聯(lián)網(wǎng)云端主機(jī)的處理能力,但是,過去幾年里網(wǎng)絡(luò)安全漏洞暴露了在云端存儲大量敏感數(shù)據(jù)的巨大隱患。美國國家衛(wèi)生研究院的基因型與表型數(shù)據(jù)庫(dbGaP)有一個(gè)有關(guān)醫(yī)療和基因數(shù)據(jù)的目錄,它的管理人員非常擔(dān)心安全問題,他們禁止數(shù)據(jù)庫的用戶在可聯(lián)網(wǎng)的電腦上儲存數(shù)據(jù)。
同態(tài)加密可以解決這種擔(dān)憂,從而讓研究者用數(shù)學(xué)加密的方式把資料儲存在云端。該技術(shù)會把本地電腦上的數(shù)據(jù)進(jìn)行加密,然后再把加密后的數(shù)據(jù)上傳到云端。加密數(shù)據(jù)的計(jì)算也可以在云端進(jìn)行,計(jì)算的結(jié)果加密后再傳會本地的計(jì)算機(jī)。即便有人在此過程中竊取了加密的數(shù)據(jù),但這些加密數(shù)據(jù)里包含的隱藏內(nèi)容仍然是安全的。
UCSD的計(jì)算機(jī)科學(xué)家Lucila Ohno-Machado認(rèn)為:「如果能確保這項(xiàng)技術(shù)由作用,那么對于解決保護(hù)個(gè)人隱私的前提下進(jìn)行海量數(shù)據(jù)的運(yùn)算和存儲的難題至關(guān)重要,這簡直可以提升我們的信心?!?/p>
1978年,同態(tài)數(shù)據(jù)加密技術(shù)被首次提出,不同于其他方式,這一技術(shù)可以在云端處理加密的數(shù)據(jù),從本質(zhì)上說,云永遠(yuǎn)不會真正「看到」數(shù)據(jù)處理。另一個(gè)不同點(diǎn)則是,該技術(shù)還能給出未加密狀態(tài)下的相同數(shù)據(jù)處理結(jié)果。
直到2009年,IBM沃森研究中心的密碼學(xué)家Craig Gentry論證了對同態(tài)加密數(shù)據(jù)可以進(jìn)行任何形式的運(yùn)算可能性。此時(shí),這一理念還很大程度上停留在理論層面。該方法通過將每個(gè)數(shù)據(jù)點(diǎn)轉(zhuǎn)換為一塊加密的信息或密文,但加密后的數(shù)據(jù)量比原始數(shù)據(jù)更大也更復(fù)雜。每個(gè)未加密的字節(jié)被加密成幾兆字節(jié)的數(shù)據(jù),相當(dāng)于一張數(shù)碼照片的大小。
固然這是一個(gè)突破,但加密前后如此大的容量差異也讓這項(xiàng)技術(shù)無法真正應(yīng)用起來,要知道數(shù)據(jù)存儲的硬件成本是很高的。
從那時(shí)起,密碼學(xué)家們開發(fā)出了各種系統(tǒng)來解決這些問題。比如同時(shí)加密許多數(shù)據(jù)片段,這樣就可以對數(shù)據(jù)進(jìn)行并行處理;也有人提出把數(shù)據(jù)直接加密成單一的密文,而不是首先轉(zhuǎn)換成字節(jié),這種創(chuàng)新比對每一個(gè)數(shù)據(jù)片段單獨(dú)運(yùn)算要節(jié)約大量計(jì)算時(shí)間和計(jì)算內(nèi)存。IBM研究中心的密碼學(xué)家Shai Halevi說道,與2009年相比現(xiàn)在同態(tài)加密數(shù)據(jù)的運(yùn)算速度提高了150,000倍。一個(gè)更直接的數(shù)據(jù)對比則是:相同的運(yùn)算量,2012年要花費(fèi)一天半而現(xiàn)在只要5分鐘。
2015年3月中旬,致力于數(shù)據(jù)集成分析的iDASH協(xié)會組織舉辦了一個(gè)主題為隱私和安全的學(xué)術(shù)會議,五個(gè)團(tuán)隊(duì)透露利用同態(tài)加密技術(shù)可以在10分鐘內(nèi)檢測400人的數(shù)據(jù),并且可以從染色體上已知的可能產(chǎn)生變異的311個(gè)位點(diǎn)中找出與疾病相關(guān)的變異基因?,F(xiàn)在分析一個(gè)含有5000個(gè)DNA堿基對的典型基因片段需要花費(fèi)30分鐘;但對于較大的序列數(shù)據(jù),比如100000個(gè)堿基對(其含量大約相當(dāng)于整個(gè)基因組數(shù)據(jù)的0.003%),卻要花費(fèi)幾個(gè)小時(shí),而且要比分析未加密數(shù)據(jù)多消耗100倍的內(nèi)存。密碼學(xué)家表示這一結(jié)果仍顯示了技術(shù)的重大進(jìn)展;Jiang評論道「三年前,人們認(rèn)為這是不可能的,但我們對困難的挑戰(zhàn)表明解決這一難題并非不可能?!?/p>
但是某些數(shù)據(jù)管理員對此仍持懷疑態(tài)度。Steven Sherry負(fù)責(zé)管理dbGap,他同時(shí)也是美國國家生物技術(shù)信息中心的主管。他說,即使密碼系統(tǒng)能起到作用,也未必會保護(hù)研究人員的電腦,也不能增加數(shù)據(jù)分析的靈活性。他傾向于把數(shù)據(jù)訪問權(quán)限局限在一個(gè)由科學(xué)家組成的小圈子里,這些科學(xué)家要保證使用數(shù)據(jù)時(shí)遵守相應(yīng)的制度。他接著說:「我們并沒有關(guān)注加密方法,因?yàn)樗鼪]有證明同時(shí)具備安全和實(shí)用性?!?/p>
但是一些密碼學(xué)家已經(jīng)開始在生物醫(yī)學(xué)領(lǐng)域部署使用有限的同態(tài)加密技術(shù)。一個(gè)HIV研究中心以及瑞士一家醫(yī)院的生物樣本庫采用了類似的方案。瑞士聯(lián)邦理工學(xué)院的Jean-Pierre Hubaux進(jìn)一步指出:「人們現(xiàn)在很擔(dān)心不久以后,因?yàn)榛驍?shù)據(jù)泄漏而產(chǎn)生的各種丑聞事件?!?/p>
而這也恰巧是未來技術(shù)發(fā)展的方向。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。