日韩av无码中文字幕,国产午夜亚洲精品国产成人小说,成人影院午夜男女爽爽爽,欧美 亚洲 中文 国产 综合

首頁 熱點(diǎn) 要聞 國內(nèi) 產(chǎn)業(yè) 財(cái)經(jīng) 滾動(dòng) 理財(cái) 股票

清華AIR孵化,前阿里首席科學(xué)家“坐鎮(zhèn)”,「水木分子」開源百億參數(shù)生物醫(yī)藥大模型|早期項(xiàng)目

2023-08-30 16:11:32 來源 : 36氪

文|胡香赟

編輯|海若鏡


(資料圖)

“大模型最大的優(yōu)勢(shì)在于融會(huì)貫通。藥物開發(fā)立項(xiàng)需要的數(shù)據(jù)來自多個(gè)方面,依托大模型融會(huì)貫通的能力,快速調(diào)用各種優(yōu)化的小算法、工具,將很大程度上減少人力成本、提高效率?!痹谡勂鸾臻_源的生物醫(yī)藥大模型BioMedGPT-10B時(shí),清華AIR首席研究員、水木分子首席科學(xué)家聶再清教授對(duì)36氪表示。

水木分子由清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)孵化,專注于開發(fā)生物醫(yī)藥行業(yè)基礎(chǔ)大模型及新一代對(duì)話式生物醫(yī)藥研發(fā)助手,已于近期完成千萬級(jí)種子輪融資。首席科學(xué)家聶再清同時(shí)擔(dān)任著清華大學(xué)國強(qiáng)教授、AIR首席研究員,在此之前,他更為人熟知的職業(yè)標(biāo)簽是阿里達(dá)摩院“大牛”、天貓精靈首席科學(xué)家。

探索大數(shù)據(jù)與AI在醫(yī)療健康領(lǐng)域的應(yīng)用,是這樣一位產(chǎn)業(yè)界“老兵”在2020年年底重返清華后的主要工作之一。他帶領(lǐng)團(tuán)隊(duì)在生物醫(yī)藥大數(shù)據(jù)領(lǐng)域開展了系列探索,通過大模型將復(fù)雜多模態(tài)生物醫(yī)藥數(shù)據(jù)、知識(shí)進(jìn)行統(tǒng)一表示學(xué)習(xí),提升藥物研發(fā)任務(wù)效率。

隨著ChatGPT的爆火,這項(xiàng)彼時(shí)尚有些“默默無聞”的工作也得到越來越多的關(guān)注。據(jù)36氪不完全統(tǒng)計(jì),今年以來公開亮相的醫(yī)療大模型已接近20個(gè)。但不同于這些更偏向影像、文本處理等醫(yī)療場(chǎng)景的大模型,水木分子選擇從藥物研發(fā)角度入手。聶再清表示:“做藥物研發(fā)確實(shí)比醫(yī)療場(chǎng)景更復(fù)雜,要處理的模態(tài)更多。但從實(shí)用性角度而言,大模型直接拿給科學(xué)家做AI for Science的使用場(chǎng)景更明確;另一方面,藥物研發(fā)與專家交互驗(yàn)證的環(huán)節(jié)更多,不像診療那樣直接面對(duì)患者,在安全性方面有更好的保證?!?/p>

BioMedGPT就是在這一思路下誕生的。在生命科學(xué)領(lǐng)域,分子序列其實(shí)也可以被視為一種精密的“編碼語言”。從這個(gè)角度來講,大模型具備處理生命科學(xué)微觀數(shù)據(jù)的可能性。水木分子的多模態(tài)語義理解框架BioMedGPT就是這樣一個(gè)具備多個(gè)輸入編碼的模型,通過處理論文文本等自然語言、蛋白質(zhì)生物編碼語言,以及化學(xué)分子語言等不同模態(tài)的輸入來學(xué)習(xí)各模態(tài)之間的關(guān)聯(lián)知識(shí),由此構(gòu)成大模型“融會(huì)貫通”的前提,進(jìn)而依據(jù)具體指令生成問題答案、乃至新的分子與蛋白。

圖源:水木分子

“相較于傳統(tǒng)的AI制藥模式,大模型多了一個(gè)將自然語言和生物編碼語言對(duì)齊的元素,”聶再清解釋稱:“每一個(gè)蛋白、小分子或疾病其實(shí)都是一個(gè)知識(shí)點(diǎn),相互之間存在一定聯(lián)系,大模型強(qiáng)過人的特質(zhì)就在于尋找海量知識(shí)點(diǎn)之間的聯(lián)系,藥物研發(fā)專家的直覺和經(jīng)驗(yàn)通過自然語言提問高效融合大模型融匯貫通的知識(shí),可以大幅提升藥物研發(fā)從立項(xiàng)到上市各個(gè)環(huán)節(jié)的效率?!?/p>

今年4月,水木分子首先開源了輕量級(jí)科研版基礎(chǔ)模型BioMedGPT-1.6B,參數(shù)為16億,能夠?qū)崿F(xiàn)跨模態(tài)和知識(shí)融合。在此基礎(chǔ)上,本次發(fā)布的BioMedGPT-10B是一款參數(shù)達(dá)百億的可商用、多模態(tài)生物醫(yī)藥大模型,能夠支持跨模態(tài)自然語言和分子語言的交互式問答,可用于加速新藥立項(xiàng)評(píng)估、藥物設(shè)計(jì)及優(yōu)化、臨床試驗(yàn)設(shè)計(jì)等藥物研發(fā)環(huán)節(jié),現(xiàn)已在多個(gè)生物醫(yī)藥問答基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)SOTA,在專業(yè)領(lǐng)域的問答能力比肩人類專家。

聶再清介紹,相較于4月開源的科研版本,BioMedGPT-10B除了在自然語言方面的能力有進(jìn)一步提升之外,還實(shí)現(xiàn)了蛋白質(zhì)大分子和文本語言的對(duì)齊?!艾F(xiàn)在基于蛋白質(zhì)大分子也可以做很多對(duì)話,比如描述一個(gè)蛋白質(zhì)大分子的功能等等?!?/p>

談及當(dāng)前行業(yè)已有針對(duì)某一分子或蛋白的專用小模型,是否還有必要開發(fā)生物醫(yī)藥領(lǐng)域的通用大模型這一問題時(shí),聶再清表示,小模型或針對(duì)單獨(dú)模態(tài)的模型“更多只是對(duì)一個(gè)生物編碼語言的理解”。但在實(shí)際的應(yīng)用中,由于人類現(xiàn)有知識(shí)中存在大量通過自然語言記錄的內(nèi)容,因此需要將這些分子的自身編碼模型與之對(duì)齊,從而更好應(yīng)用于藥物研究上。

對(duì)于外界較為關(guān)心的數(shù)據(jù)質(zhì)量問題,聶再清坦言基于當(dāng)前生物醫(yī)學(xué)領(lǐng)域已發(fā)表的論文、專利、數(shù)據(jù)集等公有數(shù)據(jù)素材,“可做的事情就已經(jīng)太多了”,研究團(tuán)隊(duì)更需要做的其實(shí)是高質(zhì)量數(shù)據(jù)集的構(gòu)建。目前,水木分子團(tuán)隊(duì)已招募相關(guān)專業(yè)背景人員,對(duì)數(shù)據(jù)集建構(gòu)進(jìn)行精細(xì)打磨。

對(duì)外合作模式上,水木分子當(dāng)前主要采取私有化部署的方式,聶再清坦言,外界感知的今年醫(yī)療行業(yè)整體立項(xiàng)數(shù)目和訂單量減少對(duì)水木分子影響不大,“我們尚處在起步階段,公司現(xiàn)有客戶非常專業(yè),希望能先把這部分需求做好,為客戶帶來真正的價(jià)值。”

關(guān)鍵詞:
相關(guān)文章

最近更新
精彩推送