6 月 4 日消息,科技媒體 The Decoder 昨日(6 月 3 日)發(fā)布博文,報(bào)道稱(chēng)谷歌 DeepMind 團(tuán)隊(duì)攜手布朗大學(xué),為視頻生成模型開(kāi)發(fā)“力提示”(force prompting)技術(shù),可以在無(wú)需 3D 模型或物理引擎的情況下,生成逼真的運(yùn)動(dòng)效果。
用戶(hù)只需指定力的方向和強(qiáng)度,就能操控 AI 生成的視頻內(nèi)容,該技術(shù)支持全局力(如風(fēng)吹過(guò)整個(gè)畫(huà)面)和局部力(如特定點(diǎn)的敲擊)兩種力量。這些力以矢量場(chǎng)形式輸入系統(tǒng),隨后被轉(zhuǎn)化為自然流暢的運(yùn)動(dòng)。
研究團(tuán)隊(duì)基于 CogVideoX-5B-I2V 視頻模型,加入 ControlNet 模塊處理物理控制數(shù)據(jù),信號(hào)通過(guò) Transformer 架構(gòu)生成視頻,每段視頻包含 49 幀,僅用 4 臺(tái) Nvidia A100 GPU 訓(xùn)練一天完成。
訓(xùn)練數(shù)據(jù)完全為合成:全局力數(shù)據(jù)包括 1.5 萬(wàn)段不同風(fēng)力下旗幟飄動(dòng)的視頻;局部力數(shù)據(jù)則有 1.2 萬(wàn)段滾動(dòng)球體和 1.1 萬(wàn)段花朵受沖擊反應(yīng)的視頻。
在生成過(guò)程中,文本描述中在加入“風(fēng)”或“氣泡”等物理術(shù)語(yǔ)后,模型會(huì)自動(dòng)建立正確的力與運(yùn)動(dòng)關(guān)系。訓(xùn)練樣本結(jié)合文本提示、起始圖像和物理力(全局力為完整矢量場(chǎng),局部力為方向、位置和強(qiáng)度的動(dòng)態(tài)信號(hào)),并通過(guò)隨機(jī)化背景、光線(xiàn)和視角增加多樣性。
盡管訓(xùn)練數(shù)據(jù)有限,模型展現(xiàn)出強(qiáng)大的泛化能力,能適應(yīng)新物體、材質(zhì)和場(chǎng)景,甚至掌握簡(jiǎn)單物理規(guī)則,如相同力下,輕物移動(dòng)距離比重物遠(yuǎn)。
用戶(hù)測(cè)試中,“力提示”技術(shù)在運(yùn)動(dòng)匹配度和真實(shí)感上優(yōu)于純文本或運(yùn)動(dòng)路徑控制的基準(zhǔn)模型,甚至超越依賴(lài)真實(shí)物理模擬的 PhysDreamer(僅在圖像質(zhì)量上稍遜)。然而,復(fù)雜場(chǎng)景中仍存缺陷,例如煙霧有時(shí)無(wú)視風(fēng)力,人體手臂偶爾像布料般移動(dòng)。
DeepMind 首席執(zhí)行官 Demis Hassabis 近期表示,新一代 AI 視頻模型(如 Veo 3)正逐步理解物理規(guī)則,不再局限于文本或圖像處理,而是開(kāi)始表征世界的物理結(jié)構(gòu)。他認(rèn)為這是通向更通用 AI 的關(guān)鍵一步,未來(lái) AI 可能不再僅僅依賴(lài)數(shù)據(jù),而是能在模擬環(huán)境中通過(guò)經(jīng)驗(yàn)學(xué)習(xí)。
附上參考地址
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals論文
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control SignalsGitHub頁(yè)面
本文鏈接:http://www.tebozhan.com/showinfo-45-13425-0.html無(wú)需 3D 模型 物理引擎:谷歌 DeepMind 聯(lián)合開(kāi)發(fā)力提示技術(shù),AI 生成視頻可模擬真實(shí)運(yùn)動(dòng)
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 英偉達(dá)市值飆升,再度問(wèn)鼎全球上市公司市值榜首!
下一篇: 消息稱(chēng)階躍星辰 C 端產(chǎn)品“冒泡鴨”停運(yùn),業(yè)務(wù)重心轉(zhuǎn)向終端 Agent