新模型的代碼包含所有生命功能的指令。基因組中每個(gè)序列都遵循復(fù)雜的語(yǔ)法和句法,這些結(jié)構(gòu)產(chǎn)生了意義。正如改變幾個(gè)單詞可從根本上改變句子含義,生物序列的微小變化也可使序列編碼產(chǎn)生巨大差異。
科學(xué)家將遺傳信息的流動(dòng)總結(jié)為“生物學(xué)中心法則”:信息從DNA轉(zhuǎn)移到RNA再到蛋白質(zhì),蛋白質(zhì)創(chuàng)造活細(xì)胞的結(jié)構(gòu)和功能。mRNA在最后一步(稱為翻譯)將信息轉(zhuǎn)化為蛋白質(zhì)。mRNA只有一部分包含蛋白質(zhì)代碼,其余部分不進(jìn)行翻譯,但控制翻譯過程的重要方面。
控制蛋白質(zhì)生產(chǎn)效率是mRNA疫苗發(fā)揮作用的關(guān)鍵機(jī)制。在對(duì)少數(shù)物種進(jìn)行模型訓(xùn)練后,研究人員生成了數(shù)百個(gè)新的優(yōu)化序列,并通過實(shí)驗(yàn)驗(yàn)證了這些結(jié)果。最佳序列的性能優(yōu)于疫苗開發(fā)的多個(gè)領(lǐng)先基準(zhǔn),其中蛋白質(zhì)生產(chǎn)的整體效率提高了33%。
研究團(tuán)隊(duì)使用經(jīng)過訓(xùn)練的模型創(chuàng)建了包含211個(gè)新序列的庫(kù),每個(gè)都針對(duì)所需功能進(jìn)行了優(yōu)化,提高了翻譯效率。這些蛋白質(zhì),如新冠疫苗靶向的刺突蛋白,可驅(qū)動(dòng)針對(duì)傳染病的免疫反應(yīng)。
最新發(fā)表在《自然·機(jī)器智能》上的一篇論文中,美國(guó)普林斯頓大學(xué)研究人員詳細(xì)介紹了一種語(yǔ)言模型,該模型可追蹤部分基因組序列并優(yōu)化這些序列,利用其語(yǔ)義表示能力來設(shè)計(jì)更有效的信使RNA(mRNA)疫苗。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。