近段時間,人工智能大模型展現(xiàn)了強大的自然語義處理能力,再次掀起了人工智能的研究熱潮。從圖靈測試開始,機器人能否與人對話就被用作判斷機器是否具有高級別認知智能的依據(jù)。大模型的建立,讓人工智能距離通過圖靈測試更近一步。
那么,當(dāng)前的人工智能還有哪些潛力?在生物醫(yī)學(xué)領(lǐng)域應(yīng)如何更進一步發(fā)展適用的人工智能?科技日報記者日前對中國科學(xué)院院士、中國科學(xué)院生物物理研究所研究員陳潤生進行了采訪。
生物信息數(shù)據(jù)量大、維度廣
記者:距離人類遺傳密碼被破譯已經(jīng)過了20多年,但似乎仍有很多健康問題難以解決,這是為什么?
陳潤生:過去我們認為生物網(wǎng)絡(luò)是“單色”的,或者說是單因素作用的。因為當(dāng)時我們認為具有生命功能的分子只有蛋白質(zhì),遺傳物質(zhì)經(jīng)過轉(zhuǎn)錄、翻譯的過程轉(zhuǎn)化為蛋白質(zhì),進而執(zhí)行生命活動中的各項功能。
基于這樣的認知,人類遺傳密碼的破譯被理解為解讀“生命天書”。將人類全部30億個堿基序列全部測序完成,就能讀懂這部“生命天書”,提綱挈領(lǐng)地搞清生命活動的運轉(zhuǎn)體系,從而揭開所有健康的秘密,獲得解決健康問題的手段。
但現(xiàn)在我們發(fā)現(xiàn),生物網(wǎng)絡(luò)不是“單色”的,生命活動的調(diào)控、抑制、互作中,還有核酸的參與。比如有些核酸序列也會發(fā)揮之前被認為屬于蛋白質(zhì)的功能,調(diào)控細胞活動。在承載人類遺傳信息的30億個堿基對中,還有很大一部分雖然我們讀出了序列,但并不知道功能,它們在生命活動中究竟起到什么作用也沒有被研究清楚。大量這樣的區(qū)域被稱為遺傳物質(zhì)的“沙漠區(qū)”……因此,當(dāng)前對人類遺傳密碼的破譯進程只走了解決健康問題過程中的一小步。
記者:既然生命活動這么復(fù)雜,是否需要更多的生物信息數(shù)據(jù)才有希望破解健康難題?目前需要充分利用的有哪些維度的生物信息學(xué)數(shù)據(jù)?
陳潤生:這30年來,人類遺傳密碼的破譯帶動著整個生物醫(yī)學(xué)領(lǐng)域內(nèi)廣泛的數(shù)據(jù)都成為了大數(shù)據(jù)。
生物信息學(xué)最早的研究對象是遺傳密碼,研究任務(wù)是對遺傳密碼進行收集、整理、存儲、發(fā)布、分析和解釋?,F(xiàn)在數(shù)據(jù)更廣泛了,生物信息學(xué)的研究從20世紀八九十年代創(chuàng)立時的無信息可用,到現(xiàn)在數(shù)據(jù)呈現(xiàn)海量、多維、異質(zhì)化特征。比如通過電子病歷大數(shù)據(jù)挖掘,我們可以得到很多重要信息。中山大學(xué)一些研究人員通過電子病歷分析找到的科學(xué)結(jié)論被發(fā)表在了國際著名期刊上。又比如可穿戴設(shè)備帶來的生理生化指標(biāo),這類信息具備實時、環(huán)境情緒相關(guān)等特性。這些數(shù)據(jù)還包括醫(yī)院中的影像學(xué)數(shù)據(jù)、臨床病人在治療用藥后的病情變化數(shù)據(jù)、環(huán)境數(shù)據(jù)、微生物數(shù)據(jù)、地質(zhì)數(shù)據(jù)、化學(xué)農(nóng)藥殘留數(shù)據(jù)等。所有這些跟健康相關(guān)的數(shù)據(jù)集納起來,構(gòu)成了非常復(fù)雜的健康大數(shù)據(jù)類型。
可大幅提高生物信息處理能力
記者:如何解析復(fù)雜的健康大數(shù)據(jù)?
陳潤生:健康大數(shù)據(jù)很復(fù)雜,舉例來說,電子病歷寫的是字,處理這樣的信息需要自然語言處理模塊,生理生化指標(biāo)如腦電、心電等信息需要處理的是波形圖,而影像學(xué)要處理圖像,組學(xué)要處理符號。對這些性質(zhì)各異的生物信息進行全面提取處理,就如同秦始皇統(tǒng)一六國不僅要統(tǒng)一文字、語言,還要統(tǒng)一貨幣、度量衡,需要將不同的信息融通,再做解析和決策。
當(dāng)前最核心的生物醫(yī)學(xué)大數(shù)據(jù)問題是解決各種可測量的數(shù)據(jù),包括遺傳密碼與表觀表型之間的關(guān)系問題。我們知道分子水平的基因組學(xué)、蛋白質(zhì)組學(xué)研究產(chǎn)生的數(shù)據(jù)量不計其數(shù),近年來發(fā)展起來的表型組學(xué)研究也在不斷積累數(shù)據(jù)量,我們會逐漸擁有大量的表觀數(shù)據(jù)。那么這兩大數(shù)據(jù)如何偶聯(lián)?如此規(guī)模巨大、系統(tǒng)復(fù)雜的分析只能由人工智能來完成。
目前來看,要解析生物醫(yī)學(xué)大數(shù)據(jù),人工智能技術(shù)是最適用的手段。
記者:從最初的人工智能到阿爾法狗再到大模型,人工智能發(fā)生了哪些變化?當(dāng)前的大模型在處理生物醫(yī)學(xué)信息方面有哪些優(yōu)勢?
陳潤生:20世紀80年代,由于受算力和算法的限制,我們能設(shè)計運行的人工智能神經(jīng)網(wǎng)絡(luò)非常簡單,只有幾層。
現(xiàn)在的人工智能神經(jīng)網(wǎng)絡(luò),比如阿爾法狗、阿爾法折疊等,它的網(wǎng)絡(luò)模型架構(gòu)達到200—300層。當(dāng)今的計算能力能夠使它們完成更加復(fù)雜的任務(wù)。
人工智能大模型讓人工智能更進一步。我認為大模型的出現(xiàn)表明人工智能有了多方面、更深刻的進展。第一方面是對自然語言的處理能力發(fā)生了根本性的變化。處理人類的自然語言對于計算機來說很困難,突破這個能力后,人工智能可以擁有全局性的知識作為計算的基礎(chǔ)。
第二方面進展是具備了預(yù)學(xué)習(xí)能力。人類之所以能產(chǎn)生智慧,是因為從出生以來一直在不斷積累學(xué)習(xí)。現(xiàn)在在大模型中,計算機已經(jīng)可以預(yù)學(xué)習(xí)了,能夠在大量的知識被預(yù)先獲得的前提下,再將具體科學(xué)問題交給計算機,而不是針對某一個特定問題進行學(xué)習(xí)。
第三方面進展是可積極促進模態(tài)融合。模態(tài)融合可以這樣理解,比如人工智能不僅能完成基礎(chǔ)醫(yī)學(xué)里的結(jié)構(gòu)預(yù)測工作,還能完成臨床醫(yī)學(xué)中的識圖判讀工作,更重要的是可以把這兩個能力融合起來,即人工智能在每個領(lǐng)域都具備專家的知識,又能夠融會貫通、舉一反三。
基于以上三點,我認為發(fā)展人工智能作為未來醫(yī)學(xué)大數(shù)據(jù)挖掘的工具值得重視。
以人工智能解析生物醫(yī)學(xué)大數(shù)據(jù)
記者:很多人在健康出現(xiàn)問題之后的第一反應(yīng)是“為什么會這樣”,以后人工智能可以解答這樣的問題嗎?
陳潤生:想要回答“為什么會這樣”這個問題涉及到人工智能界的兩個提法:弱人工智能和強人工智能。弱人工智能就像阿爾法狗,能處理特定任務(wù)。而強人工智能被認為是有可能制造出來的、真正能推理和解決問題的智能機器。
所以你的問題其實是在問,強人工智能有可能出現(xiàn)嗎?過去我認為是不可能的,但現(xiàn)在看來,我覺得隨著大模型的出現(xiàn),一些問題正在破冰,強人工智能有了出現(xiàn)的苗頭和希望。當(dāng)然,現(xiàn)階段人工智能的發(fā)展與真正的強人工智能還差得很遠。
當(dāng)前我們正在進行一些與醫(yī)學(xué)相關(guān)的人工智能研究。比如擴大健康問題相關(guān)的參數(shù),抽提面部、表情等特征,也融合基因組、轉(zhuǎn)錄組、蛋白組、宏基因組、表觀組等全部維度的特征,甚至加入了中醫(yī)內(nèi)容,通過多模態(tài)融合建造醫(yī)學(xué)多模態(tài)數(shù)據(jù)智能整合計算平臺,我們稱之為“靈樞”,并將其用于醫(yī)學(xué)健康問題的實踐。
記者:網(wǎng)上有人調(diào)侃,能寫論文的人工智能卻無法解釋清楚“驢肉火燒”“魚香肉絲”,而生物醫(yī)學(xué)領(lǐng)域?qū)τ谌斯ぶ悄艿囊蟾?,您認為如何讓人工智能具有更嚴謹?shù)倪\行能力?
陳潤生:如何才能讓人工智能解釋清楚“驢肉火燒”“魚香肉絲”等人類世界的問題,其實是在問如何才能讓人工智能達到強人工智能的水平。
人工智能的智能水平主要由三個因素決定:數(shù)據(jù)、模型和算力。數(shù)據(jù)掌握在用戶手中,模型需要不斷研發(fā)討論精進,算力是由計算機的能力決定的。
從這三個決定因素入手,我們能夠發(fā)現(xiàn),在數(shù)據(jù)方面,要解決相應(yīng)的科學(xué)問題,人工智能掌握信息量高、信噪比低的足夠信息就可以了。在算力方面,要依靠計算機科學(xué)家不斷從硬件等解決方案入手提高運算能力。
只有模型方面是值得研討的,現(xiàn)在的模型理論夠不夠達到強人工智能的要求,如何讓模型更強?
目前有幾個途徑可以讓模型更強,即增加知識量、增加網(wǎng)絡(luò)節(jié)點數(shù)、增加網(wǎng)絡(luò)復(fù)雜度。當(dāng)前國際上幾個大模型的處理數(shù)據(jù)量已達到萬億參數(shù)級別,在此基礎(chǔ)上,我認為需要進一步增加的是網(wǎng)絡(luò)復(fù)雜度。
我們可以從生理學(xué)家的腦生理切片模型中得到啟發(fā)。新生兒的腦神經(jīng)網(wǎng)絡(luò)很簡單,復(fù)雜度不夠,學(xué)不了多少東西。成長讓人的腦神經(jīng)網(wǎng)絡(luò)逐步復(fù)雜,進而承載更多內(nèi)容。因此,我們可以從研究腦發(fā)育中獲得啟發(fā),進而形成一個更完善的基礎(chǔ)理論框架,獲得適用的模型,使人工智能走向強人工智能。
(科技日報記者 張佳星)