AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 知識百科

谷歌AI一次注釋了10%的已知蛋白質(zhì)序列,超過人類十年研究成果

來源: 責編: 時間:2023-08-07 16:29:55 251觀看
導讀 蛋白質(zhì)是組成人體一切細胞、組織的重要成分。機體所有重要的組成部分都需要有蛋白質(zhì)的參與。目前已知存在的蛋白質(zhì)種類有數(shù)十億,但其中大約有三分之一的功能是不可知的。我們

蛋白質(zhì)是組成人體一切細胞、組織的重要成分。機體所有重要的組成部分都需要有蛋白質(zhì)的參與。8Bv28資訊網(wǎng)——每日最新資訊28at.com

目前已知存在的蛋白質(zhì)種類有數(shù)十億,但其中大約有三分之一的功能是不可知的。我們迫切地需要探索這片未知區(qū)域,因為它們關(guān)系到抗菌素耐藥性,甚至氣候變化等重要議題。例如,青霉素是蛋白質(zhì)之間自然反應的產(chǎn)物,植物蛋白可用于減少大氣中的二氧化碳。8Bv28資訊網(wǎng)——每日最新資訊28at.com

近日,谷歌與歐洲生物信息學研究所合作開發(fā)了一種技術(shù) ProtCNN,其能夠使用神經(jīng)網(wǎng)絡(luò)可靠地預測蛋白質(zhì)功能,幫助我們縮小蛋白質(zhì)宇宙中最后不可見的區(qū)域。8Bv28資訊網(wǎng)——每日最新資訊28at.com

谷歌表示,這種新方法讓我們可以較為準確地預測蛋白質(zhì)功能、突變的功能效應,并進行蛋白質(zhì)設(shè)計,進而應用于藥物發(fā)現(xiàn)、酶設(shè)計,甚至是了解生命的起源。8Bv28資訊網(wǎng)——每日最新資訊28at.com

論文:Using deep learning to annotate the protein universe8Bv28資訊網(wǎng)——每日最新資訊28at.com

8Bv28資訊網(wǎng)——每日最新資訊28at.com

論文鏈接:https://www.nature.com/articles/s41587-021-01179-w8Bv28資訊網(wǎng)——每日最新資訊28at.com

谷歌提出的方法可靠地預測了更多蛋白質(zhì)的作用,而且它們快速、便宜且易于嘗試,其研究已讓主流數(shù)據(jù)庫 Pfam 中注釋的蛋白質(zhì)序列增加了近 10%,一舉超過了過去十年的增速,并預測了 360 種人類蛋白質(zhì)功能。8Bv28資訊網(wǎng)——每日最新資訊28at.com

8Bv28資訊網(wǎng)——每日最新資訊28at.com

Pfam 數(shù)據(jù)庫是一系列蛋白質(zhì)家族的集合,其中每一個蛋白家族都以多序列比對和隱馬爾科夫模型的形式來表示。8Bv28資訊網(wǎng)——每日最新資訊28at.com

這些結(jié)果表明,深度學習模型將成為未來蛋白質(zhì)注釋工具的核心組成部分。8Bv28資訊網(wǎng)——每日最新資訊28at.com

對于大多數(shù)人來說,我們更熟悉的是 DeepMind 此前預測蛋白質(zhì)結(jié)構(gòu)算法 AlphaFold 的工作。AlphaFold 向我們展示了這些神秘生物機器的形狀,新研究的重點則是這些機器的作用以及它們的用途。8Bv28資訊網(wǎng)——每日最新資訊28at.com

生物醫(yī)療是一個極其活躍的科學領(lǐng)域,每天都有超過十萬個蛋白質(zhì)序列被添加到全球序列數(shù)據(jù)庫中。但是,除非附有功能注釋,否則這些條目對從業(yè)者的用途非常有限。雖然人們會努力從文獻中提取注釋,每年評估超過六萬篇論文,但這項任務(wù)的耗時性質(zhì)意味著只有 0.03% 的公開可用蛋白質(zhì)序列是手動注釋的。8Bv28資訊網(wǎng)——每日最新資訊28at.com

8Bv28資訊網(wǎng)——每日最新資訊28at.com

直接從氨基酸序列推斷蛋白質(zhì)功能是科學社區(qū)長久以來一直在研究的方向。從 1980 年代開始,人們就提出了 BLAST 等方法,其依賴于成對的序列比較,假設(shè)查詢蛋白與已經(jīng)注釋的高度相似的序列具有相同的功能。后來,人們引入了基于 signature 的方法,PROSITE 數(shù)據(jù)庫對在具有特定功能的蛋白質(zhì)中發(fā)現(xiàn)的短氨基酸「基序」進行分類。基于 signature 方法的一個關(guān)鍵改進是開發(fā)了 profile 隱馬爾可夫模型(pHMM)。這些模型將相關(guān)蛋白質(zhì)序列的對齊折疊成一個模型,該模型為新序列提供似然分數(shù),描述它們與對齊的集合的匹配程度。8Bv28資訊網(wǎng)——每日最新資訊28at.com

在這里至關(guān)重要的是,profile HMM 允許更長的 signature 和更模糊的匹配,目前用于更新流行的數(shù)據(jù)庫,如 Interpro 和 Pfam。后期的改進使這些技術(shù)更加靈敏,計算效率更高,而它們作為網(wǎng)絡(luò)工具的高可用性讓從業(yè)者可以輕松將它們整合到工作流程中去。8Bv28資訊網(wǎng)——每日最新資訊28at.com

這些計算建模方法在學界產(chǎn)生了很大影響。然而,至今仍有三分之一的細菌蛋白質(zhì)沒有被注釋出功能。究其原因,當前方法對每個比較序列或模型進行完全獨立的比較,因此可能無法充分利用不同功能類共享的特征。8Bv28資訊網(wǎng)——每日最新資訊28at.com

擴展注釋的蛋白質(zhì)序列集需要遠程同源檢測,即對與訓練數(shù)據(jù)相似度低的序列進行準確分類。新研究得到的基準測試集包含 21,293 個序列。ProtENN 對所有類別分類的準確度顯著提高,包括那些具有遠距離測試序列的類,這是擴大蛋白質(zhì)領(lǐng)域覆蓋范圍的關(guān)鍵要求。為解決從幾個例子中推斷的挑戰(zhàn),作者使用深度模型學習的序列表示來提高性能。8Bv28資訊網(wǎng)——每日最新資訊28at.com

8Bv28資訊網(wǎng)——每日最新資訊28at.com

Pfam-seed 模型的性能。8Bv28資訊網(wǎng)——每日最新資訊28at.com

8Bv28資訊網(wǎng)——每日最新資訊28at.com

8Bv28資訊網(wǎng)——每日最新資訊28at.com

ProtCNN 的架構(gòu)。中心圖展示了輸入(紅色)、嵌入(黃色)和預測(綠色)網(wǎng)絡(luò)以及殘差網(wǎng)絡(luò) ResNet 架構(gòu)(左),而右圖展示了 ProtCNN 和 ProtREP 通過簡單的最近鄰方法利用。在這一表示中,每個序列對應一個點,來自同一家族的序列通常比來自其他家族的序列更接近。8Bv28資訊網(wǎng)——每日最新資訊28at.com

ProtCNN 學習每序列長度為 1100 的實值向量表示,無論其未對齊長度如何。為獲得高精度,來自每個族的表示必須緊密地聚集在一起,以便不同的族很好地相互分離。為了測試這種學習表示是否可用于準確分類最小家族的序列,作者構(gòu)建了一種稱為 ProtREP 的新方法。對于 ProtREP,研究者計算每個家族在其訓練序列中的平均學習表示,產(chǎn)生一個標記家族表示。然后通過在學習表示空間中找到其最近的標記來對每個保留的測試序列進行分類。對于相同的計算成本,ProtREP 在聚類分割上超過了 ProtCNN 的準確性。8Bv28資訊網(wǎng)——每日最新資訊28at.com

8Bv28資訊網(wǎng)——每日最新資訊28at.com

ProtENN 和 TPHMM 的組合提高了遠程同源任務(wù)的性能。TPHMM 和 ProtENN 模型的簡單組合將錯誤率降低了 38.6%,將 ProtENN 數(shù)據(jù)的準確度從 89.0% 提高到 93.3%。8Bv28資訊網(wǎng)——每日最新資訊28at.com

為探究深度模型對蛋白質(zhì)序列數(shù)據(jù)的了解,作者在來自 Pfam-full 的 80% 的未對齊序列上訓練 ProtCNN,并計算了學習氨基酸表示的相似性矩陣。8Bv28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果表明,ProtCNN 學習了一種有意義的蛋白質(zhì)序列表示方式,其可泛化到序列空間未知的部分,可用于預測和理解蛋白質(zhì)序列的特性。另一個挑戰(zhàn)是檢測蛋白質(zhì)結(jié)構(gòu)域及其在蛋白質(zhì)序列中的位置。此任務(wù)類似于圖像分割,這正是深度學習模型擅長的任務(wù)。雖然 ProtCNN 是使用域進行訓練的,但研究展示了 ProtCNN 使用簡單的滑動窗口方法將完整序列分割成域的能力。8Bv28資訊網(wǎng)——每日最新資訊28at.com

盡管不使用序列比對,但 ProtCNN 仍顯示出了卓越的準確性。8Bv28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-119-2169-0.html谷歌AI一次注釋了10%的已知蛋白質(zhì)序列,超過人類十年研究成果

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 數(shù)據(jù)分析八大模型:漏斗模型

下一篇: 云安全日報220222: 紅帽Ruby腳本語言發(fā)現(xiàn)任意代碼執(zhí)行漏洞,需要盡快升級

標簽:
  • 熱門焦點
  • vivo TWS Air開箱體驗:真輕 臻好聽

    在vivo S15系列新機的發(fā)布會上,vivo的最新款真無線藍牙耳機vivo TWS Air也一同發(fā)布,本次就這款耳機新品給大家?guī)硪粋€簡單的分享。外包裝盒上,vivo TWS Air保持了vivo自家產(chǎn)
  • 5月安卓手機好評榜:魅族20 Pro奪冠

    性能榜和性價比榜之后,我們來看最后的安卓手機好評榜,數(shù)據(jù)來源安兔兔評測,收集時間2023年5月1日至5月31日,僅限國內(nèi)市場。第一名:魅族20 Pro好評率:97.50%不得不感慨魅族老品牌還
  • 5月iOS設(shè)備好評榜:iPhone 14僅排第43?

    來到新的一月,安兔兔的各個榜單又重新匯總了數(shù)據(jù),像安卓陣營的榜單都有著比較大的變動,不過iOS由于設(shè)備的更新?lián)Q代并沒有那么快,所以相對來說變化并不大,特別是iOS好評榜,老款設(shè)
  • 服務(wù)存儲設(shè)計模式:Cache-Aside模式

    Cache-Aside模式一種常用的緩存方式,通常是把數(shù)據(jù)從主存儲加載到KV緩存中,加速后續(xù)的訪問。在存在重復度的場景,Cache-Aside可以提升服務(wù)性能,降低底層存儲的壓力,缺點是緩存和底
  • Golang 中的 io 包詳解:組合接口

    io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合,
  • 如何正確使用:Has和:Nth-Last-Child

    我們可以用CSS檢查,以了解一組元素的數(shù)量是否小于或等于一個數(shù)字。例如,一個擁有三個或更多子項的grid。你可能會想,為什么需要這樣做呢?在某些情況下,一個組件或一個布局可能會
  • 品牌洞察丨服務(wù)本地,美團直播成效幾何?

    來源:17PR7月11日,美團App首頁推薦位出現(xiàn)“美團直播”的固定入口。在直播聚合頁面,外賣“神槍手”直播間、美團旅行直播間、美團買菜直播間等均已上線,同時
  • 三星Galaxy Z Fold5今日亮相:厚度縮減但仍略顯厚重

    據(jù)官方此前宣布,三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動,屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
  • Windows 11發(fā)布,微軟一改往常對老機型開放的態(tài)度

    距離 Windows 11 發(fā)布已經(jīng)過去一周,在過去一周里,很多數(shù)碼愛好者圍繞其對 Android 應用的支持、對老機型的升級問題展開了激烈討論。與以往不同的是,在這次大
Top