當(dāng)大家還在驚嘆和沉浸于AI文本轉(zhuǎn)圖像產(chǎn)出的精妙畫(huà)作的時(shí)候,一些悶聲做大事的團(tuán)隊(duì)已經(jīng)在人工智能研究上邁向了一個(gè)新的領(lǐng)域—文本轉(zhuǎn)視頻
9月29日,扎克伯格在facebook上發(fā)布了一條關(guān)于Make-A-Video人工智能系統(tǒng)的帖子,并附上了一段20s的視頻,視頻中匯總了Make-A-Video系統(tǒng)通過(guò)文本生成視頻的一些片段。給Make-A-Video一個(gè)文本描述,它就可以為您創(chuàng)建一段視頻。
自文本轉(zhuǎn)圖像AI技術(shù)發(fā)布以來(lái),也才過(guò)了幾個(gè)月,人工智能技術(shù)就發(fā)展成將靜態(tài)圖直接飛升成動(dòng)態(tài)視頻了,一句話就能生成視頻,不得不說(shuō)近兩年AI發(fā)展的速度有點(diǎn)近乎瘋狂。
不過(guò)在Meta發(fā)布之后僅一周,谷歌就緊隨其后發(fā)布了他們?cè)谌斯ぶ悄茴I(lǐng)域的最新成果Imagen Video和Phenaki兩種模型,前者可以生成1280*768分辨率,24幀/秒的高清視頻,后者可以將一系列的文本提示生成連貫的長(zhǎng)視頻。這么看Meta的Make-A-Video還是遜色一點(diǎn)。
其實(shí)文本生成視頻技術(shù)并不是什么新鮮事兒,早在今年的6月份,清華&智源研究院就自研了“一句話生成視頻”的模型CogVideo,并且將這一模型在gitub上開(kāi)源了(剛發(fā)布不久立馬就出圈了)
下面我們就一起來(lái)了解下這三個(gè)團(tuán)隊(duì)各自的模型到底如何吧。
CogVideo
CogVideo可以生成分辨率為480*480(畫(huà)質(zhì)有點(diǎn)渣),4秒(幀數(shù)32張)左右的視頻,而且在生成真實(shí)的對(duì)象,以及內(nèi)容一致性和運(yùn)動(dòng)真實(shí)性方面的表現(xiàn)相較于當(dāng)時(shí)的其他視頻生成AI模型來(lái)說(shuō)都要更好,從下圖的我們不難看出這一點(diǎn),生成的實(shí)際人物相關(guān)的視頻看上去都比較自然和流暢。
(團(tuán)隊(duì)用CogVideo生成的視頻片段)
但是有些地方還是值得再探究下,比如這個(gè)獅子正在喝水的視頻,CogVideo是直接給獅子加上了一雙手,這和我們的常規(guī)認(rèn)知是背道而馳的,仿佛只是把人的手拿水喝這個(gè)動(dòng)作和獅子做了一個(gè)拼接。不過(guò)在Meta的Make-A-Video生成的視頻中也存在類(lèi)似的情況。
那接下來(lái)我們就看看Make-A-Video的表現(xiàn)吧!
Make-A-Video
Make-A-Video目前已經(jīng)實(shí)現(xiàn)了下面三個(gè)功能
文字轉(zhuǎn)視頻
圖片轉(zhuǎn)視頻(將一張圖片變?yōu)閯?dòng)態(tài)視頻或者將兩張圖片合成為一個(gè)視頻)
通過(guò)原始視頻生成視頻的變體
Meta的官網(wǎng)上也給出了一些的案例。
(由于案例較多,其余案例信息請(qǐng)前往:https://makeavideo.studio/)
目前Make-A-Video生成的視頻畫(huà)質(zhì)看起來(lái)有點(diǎn)粗糙,且視頻呈現(xiàn)的動(dòng)作樣貌也還不夠自然協(xié)調(diào),不過(guò)相比CogVideo,Make-A-Video提供了更多樣的生成視頻的玩法,而且生成出的視頻想象力也更豐富。
Imagen Video & Phenaki
首先值得一提的是Imagen Video的清晰度,相比前兩個(gè)系統(tǒng)生成的視頻有了非常大的提升,目前支持生成1280*768分辨率,24幀/秒的視頻,下面是官網(wǎng)放出的視頻案例效果片段。
(更多案例請(qǐng)前往 https://imagen.research.google/video/ )
Imagen Video不僅能生成高清視頻,而且具有高度的可控性,能理解并生成不同藝術(shù)風(fēng)格的作品。
甚至還能理解3D結(jié)構(gòu)
最重要的是 Imagen Video 能夠生成各種不同風(fēng)格的文本動(dòng)畫(huà)
不過(guò)目前谷歌方面表示不會(huì)發(fā)布 Imagen Video 模型或其源代碼,以避免存在模型可能被濫用于制造虛假、仇恨、露骨或有害的內(nèi)容。
通過(guò)官網(wǎng)和論文公布的信息可以了解到Phenaki目前可以做到
1. 通過(guò)不同的描述切換生成的視頻風(fēng)格或切換場(chǎng)景,生成連貫多樣化的視頻
2. 給一個(gè)靜態(tài)的圖像作為第一幀+一段文本描述就可以生成一個(gè)視頻
3. 通過(guò)一連串的文字描述描述生成2分鐘以上的長(zhǎng)視頻(視頻案例請(qǐng)移步Phenaki官網(wǎng)查看:https://phenaki.github.io/#interactive)
而且生成的視頻還具備故事情節(jié)。這樣的話,那未來(lái)是不是人人都可以通過(guò)文本創(chuàng)建視頻,就不需要拍攝和剪輯了(驚訝!!!)如果真的能實(shí)現(xiàn),那可能會(huì)給視頻行業(yè)帶來(lái)翻天覆地的變化。目前Meta和Google團(tuán)隊(duì)都暫未提供線上試用入口,有感興趣的朋友可以去嘗試用下CogVideo在線網(wǎng)頁(yè)看看文字轉(zhuǎn)視頻的效果(可點(diǎn)擊原文鏈接跳轉(zhuǎn)):
網(wǎng)址:https://huggingface.co/spaces/THUDM/CogVideo
文字轉(zhuǎn)視頻的AI技術(shù)在短短的幾個(gè)月內(nèi)就已經(jīng)取得了巨大的進(jìn)展,似乎每天都有新的突破,難以想象再過(guò)幾個(gè)月這個(gè)技術(shù)是不是又會(huì)邁向了一個(gè)新的階層,一起拭目以待吧!
更多最新資訊和業(yè)內(nèi)領(lǐng)先方案分析關(guān)注九日論道喲。也歡迎大家加入我們的知識(shí)星球,星球也正在做第二年的續(xù)費(fèi)哈。
本文鏈接:http://www.tebozhan.com/showinfo-40-498-0.htmlAI繪畫(huà)的下一站:“AI拍電影” 問(wèn)世
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 中美科技巨頭死磕元宇宙