7 月 28 日消息,中國科學(xué)院深圳先進(jìn)技術(shù)研究院數(shù)字所董超研究員團(tuán)隊(duì)今日發(fā)布了一項(xiàng)名為 HYPIR 的圖像復(fù)原大模型,不僅比現(xiàn)有的圖像復(fù)原技術(shù)快數(shù)十倍,更在高清分辨率、文字保真、理解能力、用戶控制靈活性等方面展現(xiàn)出了優(yōu)異性能。
傳統(tǒng)方法中,基于預(yù)訓(xùn)練擴(kuò)散模型的復(fù)原技術(shù)顯著提升了圖像復(fù)原效果,但存在計(jì)算復(fù)雜度高、推理速度慢、訓(xùn)練資源消耗大以及生成結(jié)果可控性不足等問題,成為了限制圖像復(fù)原技術(shù)發(fā)展的瓶頸問題。
去年,董超團(tuán)隊(duì)提出了智能畫質(zhì)增強(qiáng)大模型 SUPIR,將低質(zhì)量的圖像恢復(fù)到接近原始狀態(tài)的高清圖像,修復(fù)多種退化類型的圖像。而此次圖像大模型 HYPIR 作為升級版,舍棄了迭代式的擴(kuò)散模型訓(xùn)練,改用單步的對抗生成模型訓(xùn)練方式,將原有的算法速度提升了數(shù)倍,同時(shí)采用更新的文生圖基模型進(jìn)一步提升算法效果,實(shí)現(xiàn)了 8K 級別的細(xì)節(jié)生成,在生成圖像的穩(wěn)定性和可控性方面遠(yuǎn)超 SUPIR 大模型。
“以往圖像復(fù)原方法中往往包括擴(kuò)散模型蒸餾、ControlNet 適配器或者多步推理過程。而 HYPIR 則不需要依賴這些步驟,使用方法更加簡單。在訓(xùn)練和推理速度上較傳統(tǒng)方法提升了一個(gè)數(shù)量級以上,且性能更優(yōu)。”董超介紹,HYPIR 主要有兩個(gè)創(chuàng)新點(diǎn),一是使用預(yù)訓(xùn)練擴(kuò)散模型初始化復(fù)原網(wǎng)絡(luò);二是從理論角度出發(fā)解釋這一簡單方法背后蘊(yùn)含的深刻原理。
實(shí)驗(yàn)數(shù)據(jù)顯示,在單張顯卡(圖像處理器)上,HYPIR 僅需 1.7 秒即可完成一張 1024x1024 分辨率圖像的復(fù)原。相比現(xiàn)有的圖像復(fù)原方法,研究人員提出的 HYPIR 在復(fù)原圖像的質(zhì)量上性能更優(yōu),且能夠適用于各種尺寸的預(yù)訓(xùn)練擴(kuò)散模型,為不同應(yīng)用場景提供了靈活性。
在應(yīng)用層面,研究人員介紹,HYPIR 在圖像高清分辨率、文字保真、理解能力、用戶控制靈活性等方面均展現(xiàn)出了優(yōu)異的性能。
例如,在老照片修復(fù)方面,研究人員運(yùn)用 HYPIR 修復(fù)了國內(nèi)外經(jīng)典電影、電視劇老照片,讓模糊的影像重現(xiàn)清晰的細(xì)節(jié),為文化記憶傳承提供了技術(shù)支持。在高分辨率圖像修復(fù)領(lǐng)域,HYPIR 同樣表現(xiàn)出色,因其兼具速度與效果,HYPIR 成功攻克了傳統(tǒng)方法在生成 8K 分辨率圖像時(shí)往往面臨速度慢或效果不佳的難題。
在文字保真方面,傳統(tǒng)基于擴(kuò)散模型的方法常導(dǎo)致復(fù)原出的文字模糊或扭曲,缺乏精確性,而 HYPIR 則能夠使復(fù)原出的文字保持高保真度和清晰度,無論是簡單的標(biāo)識還是復(fù)雜的文檔,HYPIR 都能精準(zhǔn)地還原其原始形態(tài),使圖像中的文字清晰可讀。
值得一提的是,HYPIR 還具備了突出的自然語言理解能力,能夠精準(zhǔn)捕捉和理解用戶的輸入指令,在圖像復(fù)原過程中準(zhǔn)確地反映用戶的意圖。此外,用戶可以根據(jù)需求靈活調(diào)節(jié)生成與復(fù)原的平衡,或精細(xì)控制圖像細(xì)節(jié)程度,從而獲得符合自身偏好的結(jié)果。
HYPIR 不僅展示了圖像修復(fù)技術(shù)上的創(chuàng)新性,也體現(xiàn)了對實(shí)際應(yīng)用需求的理解。通過打破傳統(tǒng)思維定式,該技術(shù)在文化傳承與保護(hù)、影視修復(fù)、高分辨率圖像生成等領(lǐng)域提供了解決方案。
附 HYPIR 項(xiàng)目官網(wǎng)鏈接:
https://hypir.xpixel.group/
本文鏈接:http://www.tebozhan.com/showinfo-45-15103-0.html1.7 秒實(shí)現(xiàn)高清大片快速復(fù)原,我國團(tuán)隊(duì)發(fā)布 HYPIR 圖像復(fù)原大模型
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 全國首個(gè)機(jī)器人博士,上理研發(fā)機(jī)器人被上戲錄取
下一篇: 商湯發(fā)布“悟能”具身智能平臺