AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

一拖一拽小貓“活了”,Netflix 等噪聲扭曲算法讓運(yùn)動控制更簡單

來源: 責(zé)編: 時間:2025-02-05 15:43:25 76觀看
導(dǎo)讀 在視頻擴(kuò)散生成領(lǐng)域,如何精準(zhǔn)操控視頻中的運(yùn)動細(xì)節(jié)而又不犧牲畫面質(zhì)量,一直是研究者共同追逐的目標(biāo)。來自 Neflix、Stony Brook 大學(xué)等機(jī)構(gòu)的研究人員創(chuàng)新性地提出通過結(jié)構(gòu)化的潛在噪聲采樣控制運(yùn)動。實(shí)現(xiàn)方法

在視頻擴(kuò)散生成領(lǐng)域,如何精準(zhǔn)操控視頻中的運(yùn)動細(xì)節(jié)而又不犧牲畫面質(zhì)量,一直是研究者共同追逐的目標(biāo)。TJq28資訊網(wǎng)——每日最新資訊28at.com

來自 Neflix、Stony Brook 大學(xué)等機(jī)構(gòu)的研究人員創(chuàng)新性地提出通過結(jié)構(gòu)化的潛在噪聲采樣控制運(yùn)動。TJq28資訊網(wǎng)——每日最新資訊28at.com

實(shí)現(xiàn)方法很簡單,只要對訓(xùn)練視頻做預(yù)處理,生成結(jié)構(gòu)化噪聲。這一過程不涉及擴(kuò)散模型的設(shè)計,無需改變其架構(gòu)和訓(xùn)練流程。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

研究提出了一種全新的噪聲扭曲算法,速度超快,能實(shí)時運(yùn)行。它用光流場推導(dǎo)的扭曲噪聲,取代隨機(jī)的時序高斯噪聲,同時保持了空間高斯性。由于算法高效,能用扭曲噪聲以極小的成本微調(diào)視頻擴(kuò)散基礎(chǔ)模型。TJq28資訊網(wǎng)——每日最新資訊28at.com

這為用戶提供了全面的運(yùn)動控制方案,可用于局部物體運(yùn)動控制、全局?jǐn)z像機(jī)運(yùn)動控制以及運(yùn)動遷移等場景。TJq28資訊網(wǎng)——每日最新資訊28at.com

此外,算法兼顧了扭曲噪聲的時序一致性和空間高斯性,既能保證每幀畫面的像素質(zhì)量,又能有效控制運(yùn)動。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

論文鏈接:https://arxiv.org/pdf/2501.08331TJq28資訊網(wǎng)——每日最新資訊28at.com

本研究的貢獻(xiàn)如下:TJq28資訊網(wǎng)——每日最新資訊28at.com

創(chuàng)新的視頻擴(kuò)散模型解決方案:提出一種簡單新穎的方法,將運(yùn)動控制轉(zhuǎn)化為可用于噪聲變形的流場,在潛在空間采樣時能直接使用。它不僅能與任意視頻擴(kuò)散基礎(chǔ)模型搭配,還可和其他控制方式協(xié)同使用。TJq28資訊網(wǎng)——每日最新資訊28at.com

高效的噪聲變形算法:研發(fā)出高效的噪聲變形算法,它既能保持空間高斯性,又能追蹤跨幀的時間運(yùn)動流。這讓微調(diào)運(yùn)動可控的視頻擴(kuò)散模型時,花費(fèi)的成本最小,操作也更方便。TJq28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)和用戶研究充分驗(yàn)證了該方法在各類運(yùn)動控制應(yīng)用中的優(yōu)勢。這些應(yīng)用涵蓋局部物體運(yùn)動控制、運(yùn)動傳遞到新場景、基于參考的全局相機(jī)運(yùn)動控制等。在像素質(zhì)量、可控性、時間連貫性以及用戶主觀偏好等方面,表現(xiàn)十分優(yōu)異。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

Go-with-the-Flow

當(dāng)前的視頻擴(kuò)散模型存在局限性,研究者提出了一種創(chuàng)新且簡單的方法,旨在把運(yùn)動控制當(dāng)作結(jié)構(gòu)化組件,融入到視頻擴(kuò)散模型潛在空間的無序狀態(tài)中。TJq28資訊網(wǎng)——每日最新資訊28at.com

具體實(shí)現(xiàn)方式是關(guān)聯(lián)潛在噪聲的時間分布。TJq28資訊網(wǎng)——每日最新資訊28at.com

先從二維高斯噪聲片入手,把它和根據(jù)訓(xùn)練視頻樣本提取的光流場算出來的扭曲噪聲片,按照時間順序連接起來。下圖清晰展示了該方法的流程。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

本文提出創(chuàng)新的噪聲扭曲算法,運(yùn)行速度極快,能夠?qū)崟r運(yùn)行。TJq28資訊網(wǎng)——每日最新資訊28at.com

傳統(tǒng)方法需從初始幀起,對每一幀都進(jìn)行一系列復(fù)雜的扭曲操作,而本文的算法則通過在連續(xù)幀之間迭代扭曲噪聲來實(shí)現(xiàn)目標(biāo)。TJq28資訊網(wǎng)——每日最新資訊28at.com

具體來說,研究者在像素層面精準(zhǔn)地追蹤噪聲和光流密度,依據(jù)前向、后向光流,計算畫面的擴(kuò)展與收縮變化,以此來確定噪聲的扭曲方式。TJq28資訊網(wǎng)——每日最新資訊28at.com

同時,結(jié)合 HIWYN 提出的條件白噪聲采樣方法,保證算法在運(yùn)行過程中始終維持高斯性。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

在視頻擴(kuò)散推理階段,本文提出的方法優(yōu)勢明顯,能依據(jù)不同運(yùn)動類型,自動調(diào)整噪聲變形,為多種運(yùn)動控制應(yīng)用提供一站式解決方案。TJq28資訊網(wǎng)——每日最新資訊28at.com

局部物體運(yùn)動控制:當(dāng)用戶想要控制局部物體運(yùn)動時,只需給出拖動信號,就能在物體輪廓范圍內(nèi)靈活改變噪聲元素,讓局部物體按照需求運(yùn)動。TJq28資訊網(wǎng)——每日最新資訊28at.com

全局相機(jī)運(yùn)動控制:針對全局相機(jī)運(yùn)動的控制,復(fù)用參考視頻里的光流數(shù)據(jù),對輸入噪聲進(jìn)行扭曲處理,這樣就能在不同文本描述或初始幀條件下,重新生成視頻。TJq28資訊網(wǎng)——每日最新資訊28at.com

任意運(yùn)動傳遞:進(jìn)行任意運(yùn)動傳遞時,運(yùn)動表達(dá)方式不再局限于常見光流,還包括 3D 渲染引擎生成的光流、深度變形等形式。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

Go-with-the-Flow 主要由兩部分組成:噪聲扭曲算法和視頻擴(kuò)散微調(diào)。TJq28資訊網(wǎng)——每日最新資訊28at.com

噪聲扭曲算法運(yùn)行時,和擴(kuò)散模型的訓(xùn)練流程互不干擾。研究團(tuán)隊(duì)利用這個算法生成噪聲模式,再用這些模式去訓(xùn)練擴(kuò)散模型。TJq28資訊網(wǎng)——每日最新資訊28at.com

本研究中的運(yùn)動控制完全基于噪聲初始化,在視頻擴(kuò)散模型中沒有添加任何額外參數(shù),這樣既能簡化模型結(jié)構(gòu),又能提高運(yùn)行效率。TJq28資訊網(wǎng)——每日最新資訊28at.com

HIWYN 提出將噪聲扭曲應(yīng)用于圖像擴(kuò)散模型的設(shè)想。受此啟發(fā),研究團(tuán)隊(duì)發(fā)現(xiàn)了扭曲噪聲的新用法,就是把它作為視頻生成模型的運(yùn)動控制條件。TJq28資訊網(wǎng)——每日最新資訊28at.com

研究團(tuán)隊(duì)使用由大量視頻和扭曲噪聲對構(gòu)成的數(shù)據(jù)集,對視頻擴(kuò)散模型進(jìn)行微調(diào)。經(jīng)過這樣的處理,在推理階段就能很好地控制視頻里的運(yùn)動了。TJq28資訊網(wǎng)——每日最新資訊28at.com

噪聲扭曲算法

為了便于進(jìn)行大規(guī)模噪聲扭曲操作,研究團(tuán)隊(duì)研發(fā)出一種快速噪聲扭曲算法。TJq28資訊網(wǎng)——每日最新資訊28at.com

這個算法是逐幀處理噪聲的,只需要存儲前一幀噪聲(尺寸是 H×W×C)和每個像素的光流密度值矩陣(尺寸為 H×W),這里的密度值能體現(xiàn)特定區(qū)域中噪聲的壓縮程度。TJq28資訊網(wǎng)——每日最新資訊28at.com

HIWYN 算法在運(yùn)行時,需要進(jìn)行耗時的多邊形光柵化和每個像素的上采樣操作。TJq28資訊網(wǎng)——每日最新資訊28at.com

新算法直接根據(jù)光流追蹤幀與幀之間畫面的擴(kuò)展和收縮情況,全程只用到像素級別的操作,這些操作還很容易實(shí)現(xiàn)并行處理,大大提高了效率。TJq28資訊網(wǎng)——每日最新資訊28at.com

新算法和 HIWYN 算法一樣,都能保證噪聲的高斯性。TJq28資訊網(wǎng)——每日最新資訊28at.com

下一幀噪聲扭曲

噪聲扭曲算法通過迭代方式來計算噪聲,某一幀的噪聲計算僅取決于前一幀的狀態(tài)。TJq28資訊網(wǎng)——每日最新資訊28at.com

假設(shè)每幀視頻的尺寸是 H×W,用TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

代表一個高為 H、寬為 W 的二維矩陣。TJq28資訊網(wǎng)——每日最新資訊28at.com

已知前一幀的噪聲 q 和流密度TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

,同時知道正向流 f 和反向流 f′:TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

,基于這些條件,算法就能算出下一幀的噪聲 q′和流密度TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

,q′(或 p′)與前一幀的 q(或 p)通過流在時間上建立起關(guān)聯(lián)。TJq28資訊網(wǎng)——每日最新資訊28at.com

本文的算法結(jié)合了擴(kuò)展和收縮兩種動態(tài)機(jī)制。TJq28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)視頻里某個區(qū)域放大,或者有物體朝著相機(jī)移動時,就會觸發(fā)擴(kuò)展機(jī)制。在這種情況下,當(dāng)前幀的一個噪聲像素,會在下一幀中對應(yīng)一個或多個噪聲像素,這就是擴(kuò)展。TJq28資訊網(wǎng)——每日最新資訊28at.com

在收縮時,研究者借鑒了拉格朗日流體動力學(xué)的思路,把噪聲像素想象成沿著前向光流 f 移動的粒子。TJq28資訊網(wǎng)——每日最新資訊28at.com

這些粒子移動后,畫面中往往會留下空白區(qū)域。對于前向光流 f 沒有覆蓋到的區(qū)域,就利用反向光流 f' 拉回一個噪聲像素,再用擴(kuò)展過程中算好的噪聲去填充這些空白。TJq28資訊網(wǎng)——每日最新資訊28at.com

此外,為了長時間維持噪聲分布的正確性,研究團(tuán)隊(duì)借助密度值,來記錄特定區(qū)域內(nèi)噪聲像素的聚集數(shù)量。TJq28資訊網(wǎng)——每日最新資訊28at.com

在收縮情形下,當(dāng)這些噪聲像素與附近其他粒子混合時,密度較高的粒子會有更大的權(quán)重。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

為了同時處理好擴(kuò)展和收縮這兩種情況,研究者構(gòu)建了一個二分圖 G。圖里的邊表明了噪聲和密度從前一幀傳遞到下一幀的方式。TJq28資訊網(wǎng)——每日最新資訊28at.com

在綜合考慮圖中各邊的作用,生成下一幀噪聲 q' 時,依據(jù)光流密度對噪聲進(jìn)行縮放,以此確保原始幀的分布特性能夠得以保留。TJq28資訊網(wǎng)——每日最新資訊28at.com

同時計算擴(kuò)展和收縮的情況,避免它們相互干擾,就能確保最終輸出的結(jié)果符合完美的高斯分布。TJq28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證方案的有效性,研究團(tuán)隊(duì)開展了大量實(shí)驗(yàn)及用戶調(diào)研。結(jié)果表明,在保持運(yùn)動一致性和針對同一情境渲染不同的運(yùn)動效果方面,該方案表現(xiàn)十分出色。TJq28資訊網(wǎng)——每日最新資訊28at.com

從實(shí)驗(yàn)數(shù)據(jù)和用戶反饋可知,本方案在像素畫面質(zhì)量、運(yùn)動控制精準(zhǔn)度、與文本描述的契合度、視頻時間連貫性以及用戶喜好程度等方面,都具有顯著優(yōu)勢。TJq28資訊網(wǎng)——每日最新資訊28at.com

用 Moran's I 指標(biāo)衡量空間相關(guān)性,K-S 檢驗(yàn)評估正態(tài)性。選擇多種基準(zhǔn)進(jìn)行對比,包括固定獨(dú)立采樣噪聲、插值方法及其他噪聲扭曲算法。TJq28資訊網(wǎng)——每日最新資訊28at.com

可以看到,本文提出的方法在 Moran's I 指標(biāo)和 K-S 檢驗(yàn)中表現(xiàn)良好,表明無空間自相關(guān)性且符合正態(tài)分布;而雙線性、雙三次和最近鄰插值方法未能保持高斯性,存在空間自相關(guān)性且偏離正態(tài)分布。TJq28資訊網(wǎng)——每日最新資訊28at.com

本文的方法在保持空間高斯性上成效顯著,且在噪聲生成效率和實(shí)際應(yīng)用方面有很強(qiáng)的可行性。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果表明,本文的方法效率極高,比并行的 InfRes 運(yùn)行更快,相比 HIWYN,速度提升了 26 倍,這得益于算法的線性時間復(fù)雜度。TJq28資訊網(wǎng)——每日最新資訊28at.com

算法的效率比實(shí)時速度快了一個數(shù)量級,這說明在視頻擴(kuò)散模型微調(diào)時動態(tài)應(yīng)用噪聲扭曲是可行的。TJq28資訊網(wǎng)——每日最新資訊28at.com

為驗(yàn)證噪聲扭曲算法有效性,將經(jīng)不同方法扭曲的噪聲輸入到用于超分辨率和人像重光照的預(yù)訓(xùn)練圖像擴(kuò)散模型中,通過評估輸出視頻的質(zhì)量和時間一致性。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果顯示,本文的算法在時間一致性上比基線方法更出色,處理前景、背景和邊緣時穩(wěn)定性更好。TJq28資訊網(wǎng)——每日最新資訊28at.com

在 DifFRelight 視頻重光照任務(wù)中評估噪聲扭曲方法。推理時,研究者從特定區(qū)域裁剪出畫面,并按照指定光照條件進(jìn)行處理。本文的方法在圖像和時間指標(biāo)上表現(xiàn)更好,能有效改進(jìn)圖像擴(kuò)散模型。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

接下來聚焦視頻擴(kuò)散中的局部對象運(yùn)動控制。為評估模型控制能力,將其與 SG-I2V、MotionClone 和 DragAnything 三種基線方法對比。TJq28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)有方法在處理復(fù)雜局部運(yùn)動時存在局限,SG-I2V 會誤判運(yùn)動導(dǎo)致場景平移,DragAnything 缺乏一致性易失真,MotionClone 難以捕捉細(xì)微動態(tài)。TJq28資訊網(wǎng)——每日最新資訊28at.com

本文的模型在處理復(fù)雜運(yùn)動時表現(xiàn)優(yōu)異,能保持對象保真度和三維一致性。大量研究和評估證實(shí)了本文的方法在運(yùn)動一致性、視覺保真度和整體真實(shí)感方面優(yōu)勢顯著。TJq28資訊網(wǎng)——每日最新資訊28at.com

本文的方法同樣支持運(yùn)動遷移和相機(jī)運(yùn)動控制。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

在 DAVIS 數(shù)據(jù)集的對象運(yùn)動遷移中,運(yùn)動保真度和視頻質(zhì)量更好,生成視頻與真實(shí)視頻還原度高。TJq28資訊網(wǎng)——每日最新資訊28at.com

在相機(jī)運(yùn)動控制上,在 DL3DV 和 WonderJourney 數(shù)據(jù)集以及深度扭曲實(shí)驗(yàn)中表現(xiàn)出色。TJq28資訊網(wǎng)——每日最新資訊28at.com

在視頻首幀編輯能力上,能無縫融入新增對象并保留原始運(yùn)動,明顯優(yōu)于基線方法。TJq28資訊網(wǎng)——每日最新資訊28at.com

本研究提出了一種新穎的、速度快于實(shí)時的噪聲扭曲算法,它能將運(yùn)動控制自然地融入視頻擴(kuò)散噪聲采樣過程。TJq28資訊網(wǎng)——每日最新資訊28at.com

研究者用這種噪聲扭曲技術(shù)對視頻數(shù)據(jù)進(jìn)行預(yù)處理,以開展視頻擴(kuò)散微調(diào),從而提供了一種通用且用戶友好的范式,可應(yīng)用于各類運(yùn)動可控的視頻生成場景。TJq28資訊網(wǎng)——每日最新資訊28at.com

TJq28資訊網(wǎng)——每日最新資訊28at.com

參考資料:TJq28資訊網(wǎng)——每日最新資訊28at.com

https://x.com/EHuanglu/status/1882014762281865379TJq28資訊網(wǎng)——每日最新資訊28at.com

https://x.com/natanielruizg/status/1882121096859890140TJq28資訊網(wǎng)——每日最新資訊28at.com

https://eyeline-research.github.io/Go-with-the-Flow/TJq28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era),原標(biāo)題《一拖一拽,小貓活了!Netflix 等新作爆火,噪聲扭曲算法讓運(yùn)動控制更簡單》TJq28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10446-0.html一拖一拽小貓“活了”,Netflix 等噪聲扭曲算法讓運(yùn)動控制更簡單

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AI 助力,披頭士《Now and Then》斬獲格萊美最佳搖滾表演獎

下一篇: 郭明錤稱 DeepSeek 爆紅加速 AI 模型“設(shè)備端化”趨勢

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 元宇宙的文旅賽道,還能如何發(fā)力?

    來源:X增強(qiáng)現(xiàn)實(shí)蘋果推出Vision Pro,為XR行業(yè)注入一劑強(qiáng)心針。而在蘋果開發(fā)者大會上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋果達(dá)成合作,其Disney+流媒體服務(wù)將于Vision Pro
  • 從科幻走進(jìn)現(xiàn)實(shí),元宇宙概念逐漸清晰

    2021年,元宇宙概念如同一顆炸彈投進(jìn)互聯(lián)網(wǎng)行業(yè),掀起了一場數(shù)字海嘯,眾多企業(yè)紛紛入局,在此新領(lǐng)域展開新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻紅,元宇宙走進(jìn)資本圈2021年3
  • 中國虛擬數(shù)字人如何橫向拓展市場需求,探索發(fā)展場景?

    通過5G、AI等新技術(shù)更新?lián)Q代,虛擬數(shù)字人為諸多下游行業(yè)帶來新的發(fā)展機(jī)會。虛擬數(shù)字人技術(shù)以其簡化性和精品性持續(xù)拓展泛娛樂、金融、教育、政務(wù)、醫(yī)療、零售等
  • 韓國國民銀行將推出韓國首個加密貨幣 ETF

    韓國國民銀行(Kookmin Bank)計劃發(fā)行該國首個以散戶投資者為主要關(guān)注點(diǎn)的加密貨幣投資基金。根據(jù)公告,該銀行正在等待政府批準(zhǔn),并已建立一個準(zhǔn)備就緒的數(shù)字資產(chǎn)
  • 本周NFT領(lǐng)域重要資訊回顧

    NFT在蘇富比拍賣是一波三折的嗎?其實(shí)不完全如此,但本周在蘇富比拍賣行發(fā)生了一系列有趣的事。與此同時,美聯(lián)社因其最新的NFT銷售被推到了風(fēng)口浪尖,而Opensea正面臨
  • 在元宇宙開會是什么樣一種體驗(yàn)

    空間就是一切還記得面對面的會議嗎?就在不久前,與會者需要飛到遙遠(yuǎn)的目的地,并進(jìn)行鼓舞人心的對話、網(wǎng)絡(luò)、免費(fèi)食物,甚至可能會有一兩個很好的小組討論。隨之而來
  • Steam 禁止NFT和加密貨幣原因曝光

    近日,Valve(V社)總裁Gabe Newell接受PC Gamer采訪時解釋了該平臺禁止NFT和加密貨幣的原因。早在2021年10月18日,PC Gamer就報道Steam推出的新規(guī):使用區(qū)塊鏈或允許交
  • 售出6930萬美元的NFT已經(jīng)過去一年,NFT如今是否已成為主流?

    Everydays: the First 5000 Days/Beeple去年三月,一件藝術(shù)品被著名拍賣行佳士得以6930萬美元的高價售出。而讓人們感到震驚的是,這個拍賣作品不是出自哪位藝術(shù)大
  • 在互聯(lián)網(wǎng)考古后,我被豆瓣上這座元宇宙古城征服了

    最近一段時間,豆瓣可謂命途多舛:APP屢次下架,平臺也被相關(guān)部門約談、處罰,國家網(wǎng)信辦甚至派人入駐豆瓣以督促整改。有爆料稱豆瓣將陸續(xù)關(guān)閉“小組”功能:這個曾經(jīng)小
Top