4 月 17 日消息,阿里通義萬相「首尾幀生視頻模型」今日宣布開源,該模型參數量為 14B,號稱是業界首個百億參數規模的開源首尾幀視頻模型。
它可根據用戶指定的開始和結束圖片,生成一段能銜接首尾畫面的 720p 高清視頻,此次升級將能滿足用戶更可控、更定制化的視頻生成需求。
用戶可在通義萬相官網直接免費體驗該模型,或在 Github、Hugging Face、魔搭社區下載模型本地部署后進行二次開發。
首尾幀生視頻比文生視頻、單圖生視頻的可控性更高,但這類模型的訓練難度較大,首尾幀視頻生成需同時滿足以下幾點:
1. 生成的視頻內容要保證和用戶輸入的兩張圖像一致
2. 能夠遵循用戶的提示詞指令
3. 能從給定的首幀自然、流暢過渡到尾幀
4. 視頻本身動作協調、自然
訓練及推理優化基于現有的 Wan2.1 文生視頻基礎模型架構,通義萬相首尾幀生視頻模型進一步引入了額外的條件控制機制,通過該機制可實現流暢且精準的首尾幀變換。
在訓練階段,團隊還構建了專門用于首尾幀模式的訓練數據,同時針對文本與視頻編碼模塊、擴散變換模型模塊采用了并行策略,這些策略提升了模型訓練和生成效率,也保障了模型具備高分辨率視頻生成的效果。
在推理階段,為了在有限內存資源的條件下支持高清視頻推理,萬相首尾幀模型分別采用了模型切分策略以及序列并行策略,在確保推理效果無損的前提下,顯著縮短了推理時間。
基于該模型,用戶可完成更復雜、更個性化的視頻生成任務,可以實現同一主體的特效變化、不同場景的運鏡控制等視頻生成。
例如,上傳相同位置不同時間段的兩張外景圖片,輸入一段提示詞,通義萬相首尾幀生成模型即可生成一段四季交替變化或者晝夜變化的延時攝影效果視頻;上傳兩張不同畫面的場景,還可通過旋轉、搖鏡、推進等運鏡控制銜接畫面,在保證視頻和預設圖片一致性前提下,同時讓視頻擁有更豐富的鏡頭。
附開源地址:
Github:https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
魔搭社區:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P
直接體驗入口:https://tongyi.aliyun.com/wanxiang/videoCreation
本文鏈接:http://www.tebozhan.com/showinfo-45-12386-0.html業界首個,阿里通義萬相“首尾幀生視頻模型”開源
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com