【新智元導讀】剛剛,分子生物學界引爆核彈級消息:人類的 DNA,已經能由 AI 重新改寫了!初創公司 Profluent 宣布開源了世界首個 AI 設計基因編輯器,成功編輯了人類細胞中的 DNA。這可太科幻了,如果有機會,你會選擇「改造」自己的 DNA 嗎?
AI,能夠重寫人類基因組了?
就在剛剛,初創公司 Profluent 宣布,完全由 AI 設計的基因編輯器,已經成功編輯了人類細胞中的 DNA。
也就是說,世界上首個使用 AI 從頭設計的分子級精確基因編輯器誕生了。
就像 ChatGPT 能生成詩歌一樣,Profluent 這個全新的 AI 系統,可以讓我們編輯自己 DNA 的微觀機制生成藍圖。
在迄今最廣泛的基于 CRISPR 的基因編輯系統數據集上,研究者訓練了 LLM。這些 LLM 產生的蛋白質,將幾乎所有天然存在的 CRISPR-Cas 家族的多樣性,擴大了 4.8 倍!
并且,基因編輯器在人類細胞中顯示出了與 SpCas9(一個示例基因編輯器)相當或更好的活性和特異性,同時距離超過 400 個突變。
這也就意味著,我們掌握了自己的基因組密碼。未來的科學家,會比今天更精確、更快速地對抗疾病。而且,公司還決定,會在 OpenCRISPR 協議下,自由釋放這些 DNA 分子。
Profluent 聯創 Ali Madani 表示,「嘗試用 AI 設計的生物系統,編輯人類 DNA 是一次科學登月之旅」。
「我們的成功表明,在未來,AI 可精準設計出一系列定制的疾病治療方案」。
有網友表示,「是時候重新編程人類了嗎?AI 驅動的 CRISPR 技術進步,正挑戰著基因倫理的邊界」。
如果你可以改變自己的 DNA,你會這么做嗎?
初創公司 Profluent 在剛剛發表的這篇論文中,詳細描述了這項技術。
論文地址:https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf
論文預計將于下月,在美國基因與細胞治療學會年會上發表。
這項技術和驅動 ChatGPT 的方法是一樣的,它在分析大量生物數據后,創造了新的基因編輯器,包括科學家已經用于編輯人類 DNA 的微觀機制。
這些基因編輯器基于的是諾獎的獲獎方法,涉及一種名叫 CRISPR 的生物機制。
基于 CRISPR 的技術誕生后,即在業界引起轟動。它改變了科學家研究疾病的方式。
在以前,如果我們不幸得了鐮狀細胞性貧血和失明這樣的遺傳性疾病,往往束手無策,而現在,CRISPR 技術可以直接讓我們修改導致這些疾病的基因了!
CRISPR 方法使用的是我們在自然界中發現的機制:從細菌中收集的生物材料,竟然神奇地賦予了這些微生物抵抗細菌的能力。
加州大學舊金山分校生物工程和治療科學系教授兼系主任 James Fraser 介紹說,這些生物材料從未在地球上存在過,而 Profluent 的 AI 系統,正是從大自然中學習如何創造這些全新的東西。
如果這些技術繼續發展,所產生的基因編輯器,或許會比我們人類經過數十億年進化磨練的基因編輯器更靈活、更強大。
現在,Profluent 表示正在開源 OpenCRISPR-1 編輯器,這也就意味著,個人、學術實驗室和公司都能免費使用這些技術。
AI 界常見的開源,可以加速新技術的產生。不過,對于生物實驗室和制藥公司來說,像 OpenCRISPR-1 這樣的開源并不常見。
當然,Profluent 也只是開源了其 AI 技術生成的基因編輯器,并沒有開源 AI 技術本身。
目前,蛋白質工程界想要復制功能性蛋白質,或者用「定向進化」來迭代修飾,通常還是需要從自然界中復制。
許多對人類有重大意義的蛋白質,都是我們偶然發現的,比如狗的胰島素、酸奶設施中的 Cas9 和經常造成食物中毒的肉毒桿菌毒素。
大型生成蛋白質語言模型的作用,就是可以捕獲使天然蛋白質發揮作用的基本藍圖。它們勾勒出一條捷徑,可以繞過進化的隨機過程,推動人類有意識地為特定目的設計蛋白質。
Cas9 蛋白,是 CRISPR-Cas9 基因編輯系統的核心組成部分,它是一種 RNA 引導的核酸酶,可以搜索人類基因組中的所有 30 億個核苷酸,并在一個特定位點進行切割。
這種核酸酶與單導 RNA(sgRNA)復合在一起,sgRNA 由一個在結構上與蛋白質相互作用的支架和一個間隔序列組成,后者可通過編程靶向基因組中的任何位點。
棘手的是,大多數 Cas9 蛋白的長度超過 1000 個氨基酸,整個設計空間包含 20^1000 種可能的序列,比起可觀測宇宙中的原子數量,它都要高出幾個數量級!
而且,由于這些蛋白質必須以精確的順序協調許多相互作用,才能實現精確切割,因此即使是單個錯位突變,也可能完全消除蛋白質的功能。
如果通過實驗窮盡所有可能的序列變異,許多科學家幾輩子時間都做不完。然而,AI 系統卻能很輕松地探索整個搜索空間,發現功能性的基因編輯器。而且,只需要花幾個小時!
全球首個開源基因編輯器,改寫人類 DNA基因編輯器 OpenCRISPR-1,由一個 Cas9 樣蛋白質,和引導 RNA(guide RNA)構成。
正如之前所述,它是完全由 Profluent 的 AI 大模型開發的。
在具體實現過程中,研究人員對 26TB 組裝的「基因組」和「元基因組」數據庫系統進行挖掘,整理出超 100 萬個 CRISPR 操縱子(operon)的數據集。
通過訓練 OpenCRISPR,AI 從大規模序列和生物背景中學習,生成了自然界不存在的數百萬種 CRISPR 樣蛋白。
研究人員稱,AI 生成了自然界中已發現的「CRISPR-Cas 家族」的 4.8 倍的蛋白質集群,完全實現了指數級擴展!
而且,語言模型還為類 Cas9 效應蛋白定制了單引導 RNA 序列。
與原型基因編輯效應器 SpCas9 相比,幾個生成的基因編輯器顯示出,可比或改進的活性和特異性,同時在序列上相差 400 個突變。
最后,研究人員還證明了 AI 生成的基因編輯 OpenCRISPR-1 與堿基編輯的兼容性。
這項研究中的關鍵結果,具體如下。
AI 生成 4.8 倍「CRISPR-Cas」蛋白質宇宙生成蛋白質語言模型通常是在,大型涵蓋多種系統發育和功能的天然蛋白序列的數據集上,進行預訓練 。
這些模型能夠生成,反映天然蛋白質分布和特性的真實蛋白質序列。
然而,對于特定的應用,例如新型基因編輯器的生成,有必要將生成過程導向特定的感興趣的蛋白家族子集。
對此,研究人員進行了詳盡的數據挖掘來構建數據庫。
他們搜索了 26.2TB 的組裝微生物基因組和宏基因組,發現了 1,246,163 個 CRISPR-Cas 操縱子。
與 CRISPRCasDB 和 CasPDB 等精選數據庫,以及世界上最大的蛋白質資源 UniProt 相比,最新創建的數據庫顯示出更大的多樣性。
通過總結共性,研究人員發現了所有 CRISPR-Cas 蛋白的單一模型,能夠生成跨家族的不同序列。
為了生成新型 CRISPR-Cas 蛋白,作者在 CRISPR-Cas Atlas 上微調了基于 ProGen2 的語言模型,由此平衡了蛋白家族的表示和序列簇大小。
從這個模型中,研究者生成了 400 萬個序列。其中一半是直接從模型生成的,另一半是由天然蛋白質 N 或 C 末端的最多 50 個殘基提示,以引導向特定蛋白的生成。
為了評估其新穎性和多樣性,作者使用 MMseqs2 對每個家族的生成序列和天然序列按 70% 的同一性進行了聚類。
結果發現,與 CRISPR-Cas 圖譜中的天然蛋白相比,生成序列實現了 4.8 倍的多樣性擴展。
對于天然蛋白質很少的家族,比如 Cas13 和 Cas12a,生成序列的多樣性分別增加了 8.4 倍和 6.2 倍。
另外,只需要極少的上下文,即提供 50 個或更少的殘基,就能針對某一特定科引導序列生成與感興趣的科保持一致。
雖然許多 CRISPR-Cas 蛋白已被用于基因組編輯 ,但 Cas9 仍是應用最廣泛的一種。
為了生成類 Cas9 的新序列,研究人員從 CRISPR-Cas 圖譜中采樣,Cas9 的 N 端或 C 端 50 個殘基,對 CRISPR-Cas 模型進行了提示。
這里,作者使用了 CRISPR-Cas Atlas 中 238917 條 Cas9 序列,對另一個語言模型進行了微調。
這一模型生成可行的類 Cas9 序列的速度是 CRISPR-Cas 模型的 2 倍(54.2%),而且需要任何提示。
為了探索 II 型效應器的潛在序列分布,研究人員使用 Cas9 模型生成了 100 萬個 Cas9 蛋白。
生成的可存活代(n=542,042)與同一性為 40% 的天然 Cas9 聚類在一起,并用作構建最大似然系統發育樹的輸入(圖 2a)。
引人注目的是,生成的蛋白質主導了系統發育的格局,占系統發育總多樣性的 94.1%。
與整個 CRISPR-Cas 圖譜相比,多樣性增加了 10.3 倍(圖 2b)。
新的系統發生群分布在整個樹中,這表明該模型捕捉到了 Cas9 的全部多樣性,并沒有過度擬合任何特定系。
生成的序列與 CRISPR-Cas 圖譜的差異很大,與任何自然序列的平均同一性只有 56.8%(圖 2c)。
總體而言,生成的序列與同一蛋白質簇中天然蛋白質的長度密切匹配,皮爾遜相關性為 0.97(圖 2d)。
此外,圖 2e 顯示了,天然 Cas9、祖先序列重建和 48 個生成蛋白的靶上和脫靶的編輯效率。圖 2f 展示了自然 Cas9、祖先序列重建,以及生成蛋白在靶向編輯效率和特異性方面的對比。
生成的基因編輯器,在人類細胞中發揮作用
然后,研究者進一步將關注范圍縮小到 CRISPR-Cas9 系統,并在 CRISPR-Cas 圖譜中的 238,917 個 Cas9 蛋白上,訓練了蛋白質語言模型。
使用這些模型,研究者生成了可與 SpCas9 互操作的 Cas9 樣蛋白。也就是說,它們與基因組的相同部分(PAM)結合,并與相同的 sgRNA 相容,因此,它們可用于相同的應用。
研究者選擇了其中 48 個生成的序列,用于在人類細胞中進行嚴格的功能表征。
最熱門的 OpenCRISPR-1,在靶向位點的活性與 SpCas9 相當(OpenCRISPR-1 的編輯率為 55.7%,SpCas9 的編輯率為 48.3%),但令人驚訝的是,在脫靶位點的編輯減少了 95%(OpenCRISPR-1 的編輯率為 0.32%,SpCas9 為 6.1%)。
此外,作為一種非常新的蛋白質,OpenCRISPR-1 與 SpCas9 相距 403 個突變,與 CRISPR-Cas 圖譜中的任何天然蛋白質相距 182 個突變。
研究者們還發現,當與脫氨酶配對時,OpenCRISPR-1 和 SpCas9 在精確編輯靶基因組中的單個堿基時,具有相似的活性和特異性。
他們還能保持堿基編輯活性,同時通過用由另一種 Profluent 訓練的蛋白質語言模型生成的脫氨酶,來提高特異性。
最后,為了進一步優化所生成的核酸酶的活性,研究者還訓練了一個模型來為任何給定的 Cas9 樣蛋白生成相容的 sgRNA。
與 SpCas9 的 sgRNA 相比,這些生成的 sgRNA 可以提高所測試的五種蛋白質中四種產生的核酸酶的活性。
現在,全世界都有很多項目,在用 AI 技術改善醫療保健。
比如,華盛頓大學的科學家們正在用 ChatGPT 和 Midjourney 背后的方法來,創造全新的蛋白質,并且正在努力加速新疫苗和藥物的開發。
如今大火的許多生成式 AI,背后都是由神經網絡驅動的。通過分析大量數據,神經網絡就習得了某些技能。
比如,Midjourney 以神經網絡為基礎,分析了數百萬張數字圖像,以及描述每張圖像的標題。這樣,系統就學會了識別圖像和文字之間的聯系,可以畫出「犀牛從金門大橋上跳下來」這樣的畫。
Profluent 的技術,也是由一個類似的 AI 模型驅動的。
這個模型從氨基酸和核酸序列中學習,正是這些化合物,定義了科學家用來編輯基因的微觀生物學機制。
本質而言,它就是分析了從自然界中提取的 CRISPR 基因編輯器的行為,學習了如何生成全新的基因編輯器。
Profluent 的 CEO Ali Madani 介紹道,這些 AI 模型都是從序列中學習的,無論是字符、單詞、計算機代碼,還是氨基酸的序列。
Madani 先生在加州伯克利 Profluent 實驗室內,此前他曾在軟件巨頭 Salesforce 的人工智能實驗室工作
人類編輯基因,還會有多遠目前,Profluent 尚未對這些合成基因編輯器進行臨床試驗,因此尚不清楚它們是否能與 CRISPR 的性能相媲美,甚至超過 CRISPR。
但他們的研究表明了,AI 模型可以產生能夠編輯人類基因組的東西。
盡管如此,這項成果還不太可能在短期內影響醫療保健。
UC 伯克利創新基因組學研究所的基因編輯先驅兼科學主任費 Fyodor Urnov 表示,科學家們并不缺乏天然存在的基因編輯器,用來對抗疾病。
真正的瓶頸在于,這項編輯器在用于臨床治療之前,還會因安全性、制造、監管審查產生極高的成本。
但是,隨著學習越來越多的數據,生成式 AI 系統的潛力不可小覷。
如果 Profluent 的技術繼續改進,終有一天,科學家們可以用更精確的方式編輯基因。到那時,我們可能身處這樣一個世界 —— 許多藥物和治療方法,都能快速為個人量身定制。這是今天的人們所不敢想的。
「我夢想著這樣一個世界,我們可以在幾周內按需提供 CRISPR,」 Urnov 博士說。
還有一個重大的問題就是,CRIPSR 有風險嗎?
長期以來,科學家們一直在警告:不要使用 CRISPR 進行人類增強!因為,這是一項相對較新的技術,很可能會產生不良的副作用,比如引發癌癥。而且還有些人會用于非道德的用途,比如轉基因人類胚胎。
合成基因編輯器,也面臨著這項問題。而如今,科學家們已經掌握了編輯胚胎所需的一切技術。
但 Fraser 博士表示,如果真的有人想用它們做壞事,也只會使用現有的東西,而非 AI 創建的編輯器。
參考資料:
https://www.profluent.bio/blog/editing-the-human-genome-with-ai
https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html
本文來自微信公眾號:新智元 (ID:AI_era)
本文鏈接:http://www.tebozhan.com/showinfo-45-4166-0.htmlAI 成功改寫人類 DNA:全球首個基因編輯器開源,近 5 倍蛋白質宇宙 LLM 全生成
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com