科技日報(bào)記者 張夢然
《科學(xué)》雜志15日發(fā)布了一項(xiàng)突破性研究成果:美國斯坦福大學(xué)Arc研究所團(tuán)隊(duì)利用人工智能(AI),開發(fā)出一種大規(guī)?;蚪M基礎(chǔ)模型“Evo”,翻開了生命的“密碼全書”。該模型采用先進(jìn)架構(gòu),能夠以前所未有的精度,解析和設(shè)計(jì)從分子層面到整個(gè)基因組級別的DNA、RNA及蛋白質(zhì)序列。其不僅能夠預(yù)測突變對細(xì)胞內(nèi)部各個(gè)調(diào)控層級的影響,還能設(shè)計(jì)出用于操控細(xì)胞功能的DNA序列,這或?qū)氐赘淖兒铣缮飳W(xué)的發(fā)展路徑。
科學(xué)家一直試圖借鑒大型語言模型的成功經(jīng)驗(yàn),讓AI技術(shù)將DNA視為一種“語言”來建模,但現(xiàn)有模型捕捉廣泛基因組交互作用的能力有限。
此次,研究團(tuán)隊(duì)開發(fā)了具備70億參數(shù)的Evo模型,能夠生成覆蓋整個(gè)基因組的DNA序列。該模型利用270萬來自進(jìn)化多樣性微生物的基因組數(shù)據(jù)集進(jìn)行了訓(xùn)練,并首次報(bào)告了DNA領(lǐng)域的縮放定律,這項(xiàng)發(fā)現(xiàn)與語言和視覺領(lǐng)域已知的現(xiàn)象相呼應(yīng)。實(shí)驗(yàn)結(jié)果顯示,Evo在預(yù)測性和生成性的生物學(xué)任務(wù)中均表現(xiàn)優(yōu)異,無論是預(yù)測突變對細(xì)菌蛋白質(zhì)和RNA的影響,還是在模擬基因調(diào)控機(jī)制方面,都展現(xiàn)出了極高的準(zhǔn)確性。
此外,Evo還能夠處理編碼序列與非編碼序列之間的復(fù)雜共進(jìn)化關(guān)系,支持設(shè)計(jì)包括功能性CRISPR-Cas復(fù)合體和轉(zhuǎn)座子在內(nèi)的復(fù)雜生物體系。這是首次實(shí)現(xiàn)蛋白質(zhì)-RNA和蛋白質(zhì)-DNA結(jié)構(gòu)與語言模型協(xié)同設(shè)計(jì)的例子。在全基因組尺度上,Evo能夠生成超過100萬堿基對的序列,其預(yù)測和生成能力涵蓋了從分子到基因組的多層次復(fù)雜度,極大推進(jìn)了人們對生物學(xué)本質(zhì)的認(rèn)識(shí)和操控能力。
團(tuán)隊(duì)認(rèn)為,后續(xù)模型將進(jìn)一步擴(kuò)展至人類及其他真核生物的基因組數(shù)據(jù)學(xué)習(xí),通過增加上下文長度來更好地捕捉大基因組間的遠(yuǎn)程相互作用。這將為生物學(xué)研究開辟新的視野,推動(dòng)生命科學(xué)領(lǐng)域的持續(xù)發(fā)展。
基因組序列的變化,其實(shí)有助于生物體適應(yīng)不斷改變的環(huán)境條件,進(jìn)而驅(qū)動(dòng)物種進(jìn)化。隨著DNA測序技術(shù)的飛躍進(jìn)步,科學(xué)家已能夠在全基因組范圍內(nèi)繪制出基因組變異圖譜。再結(jié)合創(chuàng)新的AI算法,使得構(gòu)建一個(gè)能深入理解DNA、RNA和蛋白質(zhì)功能及其相互作用的綜合模型成為可能。換句話說,現(xiàn)在,人們擁有了一個(gè)解碼生命指令的基因組基礎(chǔ)模型。