近期,上海交通大學(xué)人工智能與微結(jié)構(gòu)實(shí)驗(yàn)室通過(guò)引入生成人工智能中的 Transformer 算法,提出了人工智能模型 T-AIMD,為分子動(dòng)力學(xué)長(zhǎng)期以來(lái)的計(jì)算耗時(shí)問(wèn)題提供解決方案。
T-AIMD 模型結(jié)合了序列特征和物理描述符(如電荷、溫度等),通過(guò)這種方式,模型不僅學(xué)習(xí)序列的動(dòng)態(tài)特性,還融入了物質(zhì)的靜態(tài)屬性,從而提高了模型的泛化能力和預(yù)測(cè)的準(zhǔn)確性。
此外,該模型利用高性能計(jì)算資源支持深度學(xué)習(xí)模型的訓(xùn)練和運(yùn)算,通過(guò)智能算法優(yōu)化計(jì)算過(guò)程,實(shí)現(xiàn)快速準(zhǔn)確的物質(zhì)特性預(yù)測(cè)。
以一個(gè)包含 100 個(gè)原子的材料系統(tǒng)為例,如果需要進(jìn)行 30 皮秒的從頭算分子動(dòng)力學(xué)(AIMD,ab initio Molecular Dynamics,也稱(chēng)第一性原理分子動(dòng)力學(xué))模擬,需要在高性能中央處理器(CPU,Central Processing Unit)計(jì)算機(jī)上運(yùn)行兩到三個(gè)月。
而 T-AIMD 方法通過(guò)學(xué)習(xí)原子長(zhǎng)距離擴(kuò)散行為,可在極短時(shí)間內(nèi)預(yù)測(cè)任何離子在任何晶體結(jié)構(gòu)中的離子導(dǎo)電性,從而實(shí)現(xiàn)在至少 100 倍的速度加速離子導(dǎo)電性的計(jì)算。
通過(guò)結(jié)合機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)網(wǎng)絡(luò),T-AIMD 能夠從小范圍的序列數(shù)據(jù)中預(yù)測(cè)整個(gè) AIMD 模擬的結(jié)果,極大地縮短實(shí)驗(yàn)周期,加速材料科學(xué)和生物科學(xué)的發(fā)展。
T-AIMD 模型能夠應(yīng)用于材料領(lǐng)域。不局限于特定類(lèi)型的材料或結(jié)構(gòu),可以廣泛應(yīng)用于各種離子導(dǎo)體的研究,包括鋰離子、鎂離子離子導(dǎo)體等。
當(dāng)把 T-AIMD 拓展到分子動(dòng)力學(xué)(MD,Molecular Dynamics)領(lǐng)域,則在各種生物蛋白體系中具有應(yīng)用潛力,例如藥物研發(fā)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、細(xì)胞分子動(dòng)力學(xué)、生物大分子復(fù)合體等。
日前,相關(guān)論文以《變壓器使固體電解質(zhì)的離子傳輸行為演化和電導(dǎo)率調(diào)節(jié)》(Transformer enables ion transport behavior evolution and conductivity regulation for solid electrolyte)為題,發(fā)表在 Energy Storage Materials(IF 18.9)上[1]。
上海交通大學(xué)博士研究生陶科豪是第一作者,李金金教授擔(dān)任通訊作者。
近年來(lái),高性能生成式算法的出現(xiàn)代表了生成人工智能(GAI,Generative artificial intelligence)的發(fā)展高峰。在許多領(lǐng)域,生成方法已經(jīng)逐漸從隨機(jī)生成過(guò)渡到目標(biāo)生成,GAI 的成熟極大地促進(jìn)了基礎(chǔ)學(xué)科的發(fā)展。
同時(shí),生成式預(yù)訓(xùn)練變壓器(GPT,Generative Pre-Trained Transformer)的出現(xiàn),為解決材料科學(xué)中的許多問(wèn)題帶來(lái)新的曙光。
最近熱門(mén)的 ChatGPT 中的“T”,即代表變壓器(Transformer)。Transformer 由于自注意力機(jī)制、并行計(jì)算和位置編碼的優(yōu)勢(shì),幾乎在各個(gè)方面都擊敗了傳統(tǒng)的序列神經(jīng)網(wǎng)絡(luò)。
MD 和 AIMD 是研究人員分析體系運(yùn)動(dòng)行為,解決體系結(jié)構(gòu)、性質(zhì)、反應(yīng)機(jī)制、分子相互作用等問(wèn)題必不可少的方法,廣泛應(yīng)用在材料科學(xué)、生物科學(xué)、化學(xué)等領(lǐng)域。
AIMD 的優(yōu)點(diǎn)是能提供高精度的模擬結(jié)果。在 AIMD 模擬中,每個(gè)原子的位置和速度隨時(shí)間演化,這些信息可用來(lái)計(jì)算物質(zhì)的物理和化學(xué)屬性,如離子導(dǎo)電率。
但不可忽視的是,其缺點(diǎn)是計(jì)算耗時(shí)高、模擬成本高,尤其是對(duì)于大系統(tǒng)和長(zhǎng)時(shí)間尺度的模擬。幾十年來(lái),該問(wèn)題一直困擾著科研人員,也制約了對(duì)新材料的研發(fā)和生命分子的探索。
為解決上述問(wèn)題,研究人員想到,或許可嘗試引入 GAI 中的 Transformer 算法。
Transformer 廣泛應(yīng)用于處理序列數(shù)據(jù),如文本或時(shí)間序列,其核心是自注意力機(jī)制。
李金金解釋說(shuō)道:“Transformer 非常適合處理長(zhǎng)序列和捕獲長(zhǎng)期依賴(lài)關(guān)系,這一點(diǎn)在 AIMD 序列的前后聯(lián)系中尤為重要。”
在 T-AIMD 模型中,Transformer 被用來(lái)學(xué)習(xí)和預(yù)測(cè)原子在固態(tài)電解質(zhì)中的擴(kuò)散行為。
具體來(lái)說(shuō),模型首先從少量的 AIMD 模擬數(shù)據(jù)中學(xué)習(xí)原子的擴(kuò)散模式。然后,利用這些學(xué)習(xí)到的模式,來(lái)預(yù)測(cè)更長(zhǎng)時(shí)間尺度上的原子擴(kuò)散行為。
該方法的核心優(yōu)勢(shì)在于,結(jié)合了 AIMD 的精確性和 Transformer 的高效率和強(qiáng)大的序列處理能力。T-AIMD 使用數(shù)據(jù)驅(qū)動(dòng)方法,依賴(lài)于大量的訓(xùn)練數(shù)據(jù)來(lái)優(yōu)化模型參數(shù)。
“通過(guò)這種方式,模型能夠捕獲復(fù)雜的物理過(guò)程,并快速預(yù)測(cè)未知條件下的行為,對(duì)于加速材料開(kāi)發(fā)和應(yīng)用至關(guān)重要。”李金金表示。
該研究的探索過(guò)程中,在大規(guī)模數(shù)據(jù)處理與特征提取、模型的訓(xùn)練和優(yōu)化、多源數(shù)據(jù)融合、模型驗(yàn)證與實(shí)驗(yàn)對(duì)比等多方面存在挑戰(zhàn)。
AIMD 模擬產(chǎn)生的數(shù)據(jù)量龐大,且數(shù)據(jù)的時(shí)間序列特性要求模型能夠有效捕獲時(shí)間依賴(lài)性。因此,如何從原始的分子動(dòng)力學(xué)數(shù)據(jù)中提取有用的特征是挑戰(zhàn)之一。
研究人員采用 Transformer 架構(gòu)處理序列數(shù)據(jù),利用其自注意力機(jī)制來(lái)捕捉長(zhǎng)期依賴(lài)關(guān)系。“我們通過(guò)設(shè)計(jì)專(zhuān)業(yè)數(shù)據(jù)預(yù)處理流程,包括數(shù)據(jù)歸一化和時(shí)間窗口劃分,來(lái)確保輸入數(shù)據(jù)的質(zhì)量和模型訓(xùn)練的效率。”李金金說(shuō)。
另一方面,深度學(xué)習(xí)模型特別是基于 Transformer 的模型在訓(xùn)練時(shí),對(duì)計(jì)算資源的需求極高,且容易過(guò)擬合。
研究人員通過(guò)在高性能計(jì)算平臺(tái)并行訓(xùn)練模型,來(lái)解決資源需求的問(wèn)題。為了防止過(guò)擬合,他們采用正則化技術(shù),如 dropout 和 L2 正則化。此外,還使用了多種優(yōu)化算法,以提高模型的收斂速度和穩(wěn)定性。
該研究中的難題還體現(xiàn)在融合數(shù)據(jù),T-AIMD 需要處理來(lái)自不同源的數(shù)據(jù)(如序列特征和材料描述符),而這些數(shù)據(jù)的維度和性質(zhì)差異較大。
針對(duì)此,他們開(kāi)發(fā)了一種混合特征提取框架,該框架能夠同時(shí)處理時(shí)間序列數(shù)據(jù)和靜態(tài)材料屬性。通過(guò)設(shè)計(jì)融合層來(lái)整合這些不同的特征,并通過(guò)實(shí)驗(yàn)評(píng)估不同融合策略的效果,以?xún)?yōu)化模型的預(yù)測(cè)能力。
此外,與實(shí)際實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,驗(yàn)證 T-AIMD 模型的預(yù)測(cè)結(jié)果的準(zhǔn)確性十分關(guān)鍵,這要求高度精確的實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)收集。該實(shí)驗(yàn)室與清華大學(xué)的研究人員合作,進(jìn)行了系列固態(tài)電解質(zhì)材料的實(shí)驗(yàn)驗(yàn)證。
通過(guò)對(duì)比模型預(yù)測(cè)的電導(dǎo)率與實(shí)驗(yàn)測(cè)量值,不斷調(diào)整和優(yōu)化模型參數(shù)。與此同時(shí),他們還利用已發(fā)布的文獻(xiàn)數(shù)據(jù),進(jìn)一步驗(yàn)證模型的泛化能力。
不同于有機(jī)材料,李金金實(shí)驗(yàn)室現(xiàn)在做的晶體結(jié)構(gòu)很難進(jìn)行有效編碼,用傳統(tǒng)的計(jì)算機(jī)語(yǔ)言難以體現(xiàn)出晶體材料的重要性質(zhì),這也是限制大語(yǔ)言模型和生成式人工智能在晶體材料上應(yīng)用的重要原因之一。
因此,他們計(jì)劃接下來(lái)在 T-AIMD 的基礎(chǔ)上進(jìn)一步探索,根據(jù)特定的應(yīng)用需求定向設(shè)計(jì)材料的分子結(jié)構(gòu)。
通過(guò)機(jī)器學(xué)習(xí)和人工智能算法的優(yōu)化,使模型能夠基于目標(biāo)功能(如離子導(dǎo)電性、熱穩(wěn)定性、機(jī)械強(qiáng)度等材料屬性),逆向推導(dǎo)出最優(yōu)的材料結(jié)構(gòu)。這種根據(jù)特定功能定向生成材料的大模型,為新材料的研發(fā)指明了方向。
李金金在上海交通大學(xué)攻讀物理學(xué)博士學(xué)位,在美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校從事博士后研究后,作為研究員任職于美國(guó)加州大學(xué)圣巴巴拉分校。
隨著人工智能的發(fā)展與政策支持,她回到上海交通大學(xué)成立上海交通大學(xué)人工智能與微結(jié)構(gòu)實(shí)驗(yàn)室(AIMS-Lab,Artificial Intelligence and Micro-Structure Laboratory),并擔(dān)任實(shí)驗(yàn)室主任,博士生導(dǎo)師。
該實(shí)驗(yàn)室的 AI for Science 主要面向人工智能材料信息學(xué)與人工智能生命信息學(xué)。近年來(lái),發(fā)展了人工智能材料信息學(xué)研發(fā)平臺(tái) AlphaMat,以及針對(duì)生物分子設(shè)計(jì)與發(fā)現(xiàn)的人工智能平臺(tái) AlphaBio。
AlphaMat 平臺(tái)是連接人工智能與材料科學(xué)的橋梁,截至目前已集成超過(guò) 50 個(gè) AI 模型、200 多個(gè)材料數(shù)據(jù)后處理和分析工具、上百萬(wàn)專(zhuān)有材料屬性數(shù)據(jù)庫(kù),可預(yù)測(cè)超過(guò) 15 種材料屬性(包括形成能、帶隙、離子電導(dǎo)率、磁性、體積模量等)[1-6]。
并且,即便沒(méi)有編程經(jīng)驗(yàn)的用戶(hù)也能便利地使用該平臺(tái)?;谠撥浖?,該實(shí)驗(yàn)室在鋰電池電極材料、固態(tài)電解質(zhì)、鈣鈦礦材料、催化材料等多個(gè)二維/三維體系中,已累積發(fā)現(xiàn)上百種新材料。
在生命科學(xué)領(lǐng)域,該實(shí)驗(yàn)室開(kāi)發(fā)了獨(dú)有的 AI 蛋白質(zhì)大模型與專(zhuān)精模型協(xié)同進(jìn)化平臺(tái) AlphaBio。
以 AlphaBio 大模型為基底,預(yù)訓(xùn)練后賦能下游近百個(gè)專(zhuān)業(yè) AI 模型,包括 AI 蛋白質(zhì)功能預(yù)測(cè)模型、AI 蛋白質(zhì)折疊突變預(yù)測(cè)模型、AI 酶制劑改造算法、AI 力場(chǎng)開(kāi)發(fā)算法等[7-10]。
AlphaBio 推動(dòng)著生命科學(xué)領(lǐng)域的 AI 垂直落地應(yīng)用,在藥物研發(fā)、蛋白質(zhì)結(jié)構(gòu)/功能預(yù)測(cè)、細(xì)胞分子動(dòng)力學(xué)、生物大分子復(fù)合體解析中可發(fā)揮重要作用。
之所以選擇回國(guó)發(fā)展,與李金金對(duì)國(guó)家和行業(yè)發(fā)展的分析和預(yù)判密不可分。她說(shuō):“中國(guó)與美國(guó)在算力、數(shù)據(jù)方面存在差距。”
美國(guó)的優(yōu)勢(shì)在于,能夠擁有更多的圖形處理器(GPU,Graphics Processing Unit)芯片、更多的算力,來(lái)發(fā)展包括 AI 通用文本/視頻/圖像在內(nèi)的大模型。并且,能夠方便地獲取來(lái)自世界各地龐大的互聯(lián)網(wǎng)數(shù)據(jù),特別是英文數(shù)據(jù)總量遠(yuǎn)遠(yuǎn)大于中文數(shù)據(jù)。
“而中國(guó)的優(yōu)勢(shì)也非常突出,很多中國(guó)科學(xué)研究組都在開(kāi)發(fā)高性能的算法,力求在算力不足的情況下,通過(guò)算法創(chuàng)新實(shí)現(xiàn) AI 高性能的快速預(yù)測(cè)。例如在這次新研究中,我們就是通過(guò) Transformer 算法將分子動(dòng)力學(xué)模擬提升上百倍。”李金金表示。
此外,中國(guó)擁有強(qiáng)大的實(shí)體經(jīng)濟(jì)、通信、基建、輕工業(yè)、重工業(yè)等,每個(gè)企業(yè)、每個(gè)團(tuán)隊(duì)都有私有數(shù)據(jù),且這些數(shù)據(jù)是非公開(kāi)的。
雖然不能訓(xùn)練類(lèi)似 GPT 的大模型,但隨著越來(lái)越多的企業(yè)打造自己的專(zhuān)業(yè)模型,屆時(shí)這些數(shù)據(jù)有望發(fā)揮巨大的作用,真正地將 AI 轉(zhuǎn)化成新質(zhì)生產(chǎn)力。
李金金指出,當(dāng)把實(shí)體經(jīng)濟(jì)的數(shù)據(jù)、行業(yè)經(jīng)驗(yàn)、應(yīng)用場(chǎng)景和 AI 結(jié)合起來(lái),就會(huì)給生產(chǎn)效率帶來(lái)巨大的提升,反過(guò)來(lái)也會(huì)對(duì) AI 技術(shù)形成巨大的牽引力。人工智能的下半場(chǎng)比的不是 AI,而是“AI+”中的加號(hào),中國(guó)的主場(chǎng)優(yōu)勢(shì)才剛剛開(kāi)始。
據(jù)介紹,目前該實(shí)驗(yàn)室已與相關(guān)企業(yè)緊密合作,通過(guò) AI 材料設(shè)計(jì)和 AI 生命設(shè)計(jì)賦能工業(yè)大生產(chǎn),以?xún)?yōu)化工業(yè)生產(chǎn)流程、降本增效。
展望 AI 與更多學(xué)科的發(fā)展,李金金表示,未來(lái),量子計(jì)算與 AI 的結(jié)合有望解決傳統(tǒng)計(jì)算無(wú)法處理的復(fù)雜系統(tǒng)模擬問(wèn)題,從而開(kāi)啟科學(xué)研究的新篇章。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。