2 月 25 日消息,阿里云今日宣布旗下視覺生成基座模型萬相 2.1(Wan)開源。
此次開源采用最寬松的 Apache2.0 協(xié)議,14B 和 1.3B 兩個參數(shù)規(guī)格的全部推理代碼和權(quán)重全部開源,同時支持文生視頻和圖生視頻任務,全球開發(fā)者可在 Github、HuggingFace 和魔搭社區(qū)下載體驗。
據(jù)介紹,14B 萬相模型在指令遵循、復雜運動生成、物理建模、文字視頻生成等方面表現(xiàn)突出,在評測集 VBench 中,萬相 2.1 以總分 86.22% 的成績超越 Sora、Luma、Pika 等國內(nèi)外模型,位列榜首。1.3B 版本測試結(jié)果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯卡運行,號稱“僅需 8.2GB 顯存就可以生成 480P 視頻”,適用于二次模型開發(fā)和學術(shù)研究。
在算法設計上,萬相基于主流 DiT 架構(gòu)和線性噪聲軌跡 Flow Matching 范式,研發(fā)了高效的因果 3D VAE、可擴展的預訓練策略等。以 3D VAE 為例,為了高效支持任意長度視頻的編碼和解碼,萬相在 3D VAE 的因果卷積模塊中實現(xiàn)了特征緩存機制,從而代替直接對長視頻端到端的編解碼過程,實現(xiàn)了無限長 1080P 視頻的高效編解碼。此外,通過將空間降采樣壓縮提前,在不損失性能的情況下進一步減少了 29% 的推理時內(nèi)存占用。
萬相團隊的實驗結(jié)果顯示,在運動質(zhì)量、視覺質(zhì)量、風格和多目標等 14 個主要維度和 26 個子維度測試中,萬相均達到了業(yè)界領(lǐng)先表現(xiàn),并且斬獲 5 項第一。
附開源地址:
Github:https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
魔搭社區(qū):https://modelscope.cn/organization/Wan-AI
本文鏈接:http://www.tebozhan.com/showinfo-45-11157-0.html阿里萬相視頻生成大模型宣布開源:8.2GB 顯存就能跑,測試超越 Sora
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com