4 月 14 日消息,隨著生物測序技術突破,全球天然基因庫已積累數十億量級序列,其中蘊藏海量高價值功能基因。然而,當前僅有少數明星基因被深度挖掘,絕大多數仍處于“沉睡”狀態。
4 月 9 日,中國科學院深圳先進技術研究院定量合成生物學全國重點實驗室、合成生物學研究所婁春波團隊與北京大學定量生物學中心錢瓏團隊合作在國際學術期刊 Science Advances 上發表研究論文,報道了全球首個面向合成生物學元件挖掘與生物制造應用的大語言模型 ——“SYMPLEX”,并將 SYMPLEX 模型應用于 mRNA 加帽酶基因的挖掘,展示了大語言模型賦能生物制造的巨大潛力。
該模型通過融合領域大語言模型訓練、合成生物專家知識對齊和大規模生物信息分析,實現了從海量文獻中自動化挖掘功能基因元件,并精準評估其工程化應用潛力。
研究團隊將 SYMPLEX 應用于 mRNA 疫苗生物制造關鍵酶 —— 加帽酶的挖掘,成功獲得多種高性能新型加帽酶。第三方公司實驗驗證顯示,這些酶在催化效率上超越國際頭部企業 New England Biolabs(NEB)商業化加帽酶 2 倍以上,顯著提升了 mRNA 疫苗生產率和成本效益。
研究團隊創造性地將大型語言模型(LLM)與結構化生物知識庫深度融合,開發出 SYMPLEX 智能基因挖掘平臺。
SYMPLEX 是強大的功能基因搜索引擎,通過自動化閱讀和理解千萬級體量的生物學文獻,在基因、功能和知識水平上提取分析文獻內容,并與專家數據庫進行概念對齊、交互和基于先進生物信息技術的統計模式生成,從而提供證據鏈完整的高質量候選基因集合。
SYMPLEX 不僅有效規避了大語言模型幻覺,還能自動生成基因功能相關的細粒度知識樹,引導科學家探索廣泛的生物機制和分子過程。
對比結果表明,SYMPLEX 大模型在挖掘基因的深度、數量和多樣性上均顯著優于傳統生物信息學方法,其挖掘的基因多樣性也超越了現有蛋白質功能預測模型的邊界。
目前,SYMPLEX 在線交互式平臺已上線供研究人員免費使用。平臺采用模塊化設計,提供三個核心功能:
(1)文獻智能提取引擎 PubEngine:支持高通量的文獻智能檢索分析與可視化交互。
(2)基因功能標注系統 GeneTagger:實現從分子機制到生物過程的細粒度自動化基因與功能提取。
(3)標準化知識中樞 GeneNorm:實現與專家知識庫的概念對齊與標準化,支持知識樹構建和功能模式識別。
附論文鏈接:
https://www.science.org/doi/full/10.1126/sciadv.adt0402
本文鏈接:http://www.tebozhan.com/showinfo-45-12278-0.html我國團隊研發,全球首個基因挖掘大模型 SYMPLEX 問世
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com