日韩av无码中文字幕,国产午夜亚洲精品国产成人小说,成人影院午夜男女爽爽爽,欧美 亚洲 中文 国产 综合

清華AIR孵化,前阿里首席科學(xué)家“坐鎮(zhèn)”,「水木分子」開源百億參數(shù)生物醫(yī)藥大模型|早期項目

2023-08-30 16:11:32 來源 : 36氪

文|胡香赟

編輯|海若鏡


(資料圖)

“大模型最大的優(yōu)勢在于融會貫通。藥物開發(fā)立項需要的數(shù)據(jù)來自多個方面,依托大模型融會貫通的能力,快速調(diào)用各種優(yōu)化的小算法、工具,將很大程度上減少人力成本、提高效率?!痹谡勂鸾臻_源的生物醫(yī)藥大模型BioMedGPT-10B時,清華AIR首席研究員、水木分子首席科學(xué)家聶再清教授對36氪表示。

水木分子由清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)孵化,專注于開發(fā)生物醫(yī)藥行業(yè)基礎(chǔ)大模型及新一代對話式生物醫(yī)藥研發(fā)助手,已于近期完成千萬級種子輪融資。首席科學(xué)家聶再清同時擔(dān)任著清華大學(xué)國強教授、AIR首席研究員,在此之前,他更為人熟知的職業(yè)標(biāo)簽是阿里達摩院“大?!?、天貓精靈首席科學(xué)家。

探索大數(shù)據(jù)與AI在醫(yī)療健康領(lǐng)域的應(yīng)用,是這樣一位產(chǎn)業(yè)界“老兵”在2020年年底重返清華后的主要工作之一。他帶領(lǐng)團隊在生物醫(yī)藥大數(shù)據(jù)領(lǐng)域開展了系列探索,通過大模型將復(fù)雜多模態(tài)生物醫(yī)藥數(shù)據(jù)、知識進行統(tǒng)一表示學(xué)習(xí),提升藥物研發(fā)任務(wù)效率。

隨著ChatGPT的爆火,這項彼時尚有些“默默無聞”的工作也得到越來越多的關(guān)注。據(jù)36氪不完全統(tǒng)計,今年以來公開亮相的醫(yī)療大模型已接近20個。但不同于這些更偏向影像、文本處理等醫(yī)療場景的大模型,水木分子選擇從藥物研發(fā)角度入手。聶再清表示:“做藥物研發(fā)確實比醫(yī)療場景更復(fù)雜,要處理的模態(tài)更多。但從實用性角度而言,大模型直接拿給科學(xué)家做AI for Science的使用場景更明確;另一方面,藥物研發(fā)與專家交互驗證的環(huán)節(jié)更多,不像診療那樣直接面對患者,在安全性方面有更好的保證?!?/p>

BioMedGPT就是在這一思路下誕生的。在生命科學(xué)領(lǐng)域,分子序列其實也可以被視為一種精密的“編碼語言”。從這個角度來講,大模型具備處理生命科學(xué)微觀數(shù)據(jù)的可能性。水木分子的多模態(tài)語義理解框架BioMedGPT就是這樣一個具備多個輸入編碼的模型,通過處理論文文本等自然語言、蛋白質(zhì)生物編碼語言,以及化學(xué)分子語言等不同模態(tài)的輸入來學(xué)習(xí)各模態(tài)之間的關(guān)聯(lián)知識,由此構(gòu)成大模型“融會貫通”的前提,進而依據(jù)具體指令生成問題答案、乃至新的分子與蛋白。

圖源:水木分子

“相較于傳統(tǒng)的AI制藥模式,大模型多了一個將自然語言和生物編碼語言對齊的元素,”聶再清解釋稱:“每一個蛋白、小分子或疾病其實都是一個知識點,相互之間存在一定聯(lián)系,大模型強過人的特質(zhì)就在于尋找海量知識點之間的聯(lián)系,藥物研發(fā)專家的直覺和經(jīng)驗通過自然語言提問高效融合大模型融匯貫通的知識,可以大幅提升藥物研發(fā)從立項到上市各個環(huán)節(jié)的效率?!?/p>

今年4月,水木分子首先開源了輕量級科研版基礎(chǔ)模型BioMedGPT-1.6B,參數(shù)為16億,能夠?qū)崿F(xiàn)跨模態(tài)和知識融合。在此基礎(chǔ)上,本次發(fā)布的BioMedGPT-10B是一款參數(shù)達百億的可商用、多模態(tài)生物醫(yī)藥大模型,能夠支持跨模態(tài)自然語言和分子語言的交互式問答,可用于加速新藥立項評估、藥物設(shè)計及優(yōu)化、臨床試驗設(shè)計等藥物研發(fā)環(huán)節(jié),現(xiàn)已在多個生物醫(yī)藥問答基準(zhǔn)數(shù)據(jù)集上實現(xiàn)SOTA,在專業(yè)領(lǐng)域的問答能力比肩人類專家。

聶再清介紹,相較于4月開源的科研版本,BioMedGPT-10B除了在自然語言方面的能力有進一步提升之外,還實現(xiàn)了蛋白質(zhì)大分子和文本語言的對齊?!艾F(xiàn)在基于蛋白質(zhì)大分子也可以做很多對話,比如描述一個蛋白質(zhì)大分子的功能等等?!?/p>

談及當(dāng)前行業(yè)已有針對某一分子或蛋白的專用小模型,是否還有必要開發(fā)生物醫(yī)藥領(lǐng)域的通用大模型這一問題時,聶再清表示,小模型或針對單獨模態(tài)的模型“更多只是對一個生物編碼語言的理解”。但在實際的應(yīng)用中,由于人類現(xiàn)有知識中存在大量通過自然語言記錄的內(nèi)容,因此需要將這些分子的自身編碼模型與之對齊,從而更好應(yīng)用于藥物研究上。

對于外界較為關(guān)心的數(shù)據(jù)質(zhì)量問題,聶再清坦言基于當(dāng)前生物醫(yī)學(xué)領(lǐng)域已發(fā)表的論文、專利、數(shù)據(jù)集等公有數(shù)據(jù)素材,“可做的事情就已經(jīng)太多了”,研究團隊更需要做的其實是高質(zhì)量數(shù)據(jù)集的構(gòu)建。目前,水木分子團隊已招募相關(guān)專業(yè)背景人員,對數(shù)據(jù)集建構(gòu)進行精細(xì)打磨。

對外合作模式上,水木分子當(dāng)前主要采取私有化部署的方式,聶再清坦言,外界感知的今年醫(yī)療行業(yè)整體立項數(shù)目和訂單量減少對水木分子影響不大,“我們尚處在起步階段,公司現(xiàn)有客戶非常專業(yè),希望能先把這部分需求做好,為客戶帶來真正的價值?!?/p>

關(guān)鍵詞:
相關(guān)文章

最近更新
精彩推送