【資料圖】
記者沈怡然實(shí)習(xí)記者葛璇3月23日,生命科學(xué)平臺(tái)公司百圖生科對(duì)外發(fā)布了一款A(yù)IGP平臺(tái),這也是基于其自研的AI大模型“xTrimo”開發(fā)的、能幫助解決生命科學(xué)問(wèn)題的工具。
百圖生科(BioMap)是中國(guó)首家生物計(jì)算引擎驅(qū)動(dòng)的創(chuàng)新藥物研發(fā)平臺(tái),由百度創(chuàng)始人李彥宏于2020年創(chuàng)立?!皒Trimo”是一個(gè)AI大模型,也是全球首個(gè)針對(duì)生命科學(xué)領(lǐng)域的多模態(tài)預(yù)訓(xùn)練模型,相當(dāng)于“大腦”。該公司基于“xTrimo”研發(fā)的AIGP平臺(tái),則是一個(gè)與用戶交互的窗口,它可以理解基本的生命科學(xué)語(yǔ)言并據(jù)此推理和自主設(shè)計(jì),例如用戶向AIGP輸入蛋白質(zhì)或酶的一些參數(shù)、功能,就能得到一個(gè)相應(yīng)的蛋白質(zhì)或酶的設(shè)計(jì)方案。
百圖生科CEO劉維表示,與以ChatGPT為代表的自然語(yǔ)言處理AI大模型相比,基于“xTrimo”的AIGP平臺(tái),更像是一個(gè)基于生命科學(xué)語(yǔ)言大模型開發(fā)而得的交互界面,它生成的不是文本和語(yǔ)言,而是一個(gè)個(gè)蛋白質(zhì)、酶、細(xì)胞等的設(shè)計(jì)方案,可以提供蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、DNA序列比對(duì)、細(xì)胞代謝分析等。
在沒有AI大模型之前,生命科學(xué)領(lǐng)域的研究者主要通過(guò)實(shí)驗(yàn)和觀察等方法開展研究,這需要花費(fèi)大量時(shí)間和精力,且結(jié)果存在不確定性和局限性。劉維表示,如今,基于AI大模型“xTrimo”的AIGP平臺(tái),嘗試為科研人員提供一個(gè)生命科學(xué)技術(shù)的基礎(chǔ)版本,讓研究者可以在基礎(chǔ)版本上進(jìn)行創(chuàng)造,節(jié)約了一定的實(shí)驗(yàn)時(shí)間和實(shí)驗(yàn)費(fèi)用。
該公司正試圖將其融入整個(gè)醫(yī)藥研發(fā)鏈條上。劉維表示,公司曾幫助國(guó)內(nèi)研究者推進(jìn)人工設(shè)計(jì)蛋白進(jìn)化的速度,傳統(tǒng)蛋白質(zhì)研究中常用動(dòng)物篩選實(shí)驗(yàn)法,例如小鼠篩選實(shí)驗(yàn),一次實(shí)驗(yàn)時(shí)間可能需要很多天,而AI在虛擬空間生成一個(gè)方案只需要幾個(gè)小時(shí),一些常用動(dòng)物實(shí)驗(yàn)法的生命科學(xué)公司正成為公司的合作伙伴,AI大模型和AIGP平臺(tái)可以幫助他們解決一些動(dòng)物實(shí)驗(yàn)中的時(shí)間成本和不可控性。
建立一個(gè)AI大模型需要大量的數(shù)據(jù)和參數(shù),這些參數(shù)包括但不限于序列比對(duì)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、RNA折疊預(yù)測(cè)、化學(xué)計(jì)量學(xué)建模等方面。劉維表示,目前大模型參數(shù)已經(jīng)破千億級(jí),還需要使用深度學(xué)習(xí)算法和優(yōu)化技巧來(lái)處理這些海量數(shù)據(jù)(603138),以提高模型的性能和效率。
為了預(yù)訓(xùn)練大模型,該公司還構(gòu)建了一個(gè)大型生命科學(xué)知識(shí)圖譜,其中很多數(shù)據(jù)來(lái)自于公開數(shù)據(jù)和半公開數(shù)據(jù)的整理,相當(dāng)于一個(gè)數(shù)據(jù)集,然后向大模型輸入。大模型研發(fā)的過(guò)程,也得益于數(shù)據(jù)、算力、模型本身的充分發(fā)展。劉維表示,訓(xùn)練過(guò)程也是很艱難的,需要數(shù)百個(gè)GPU來(lái)支撐分析過(guò)程中所需的巨大算力。
目前,全球范圍內(nèi)的生命科學(xué)領(lǐng)域AI大模型還處于發(fā)展階段。在疾病預(yù)測(cè)、基因組學(xué)等方面,DeepMind、IBM Research都建立了自己的AI大模型,一些開源平臺(tái)和社區(qū)也在不斷推動(dòng)該領(lǐng)域的發(fā)展,如TensorFlow-Hub、PaddlePaddle、BioDynaStax等。
劉維表示,國(guó)內(nèi)外生物醫(yī)藥產(chǎn)業(yè)存在差距,但隨著技術(shù)的換代,其實(shí)有跨越式發(fā)展的機(jī)會(huì),國(guó)外的生命科學(xué)在過(guò)去幾十年圍繞實(shí)驗(yàn)篩選的方法積累了很多的方法,而百圖生科現(xiàn)在做的,其實(shí)利用了跨界能力,包括將AI、前沿生物傳感器、高速蛋白打印、合成生物學(xué)新技術(shù)等等新技術(shù)的結(jié)合。此外,研發(fā)大模型和推動(dòng)AIGP迭代所需資金量很大,公司2023年新一輪融資也在推進(jìn)之中。
標(biāo)簽:
熱門