近日,阿里巴巴宣布其先進的生成基座模型——萬相2.1(Wan)正式向公眾開放源代碼。在多個評測數據集中,該模型力壓群雄,包括Sora和Luma等知名模型,榮登榜首。
此次開源的萬相2.1模型,擁有兩個不同規(guī)模的參數版本。其中,140億參數的版本專為追求極致生成效果的專業(yè)用戶設計,而13億參數的版本則以其高效快速的生成能力和對各類消費級GPU的廣泛兼容性脫穎而出。這兩個版本的全部推理代碼和權重均已實現開源。
在視頻生成領域,萬相2.1憑借其自研的高效VAE和DiT架構,顯著增強了時空上下文建模能力。該模型不僅支持無限長1080P視頻的高效編解碼,還首次實現了中文文字視頻的自動生成。它還涵蓋了文生視頻、圖生視頻、視頻編輯、文生圖和視頻生音頻等多重功能。
據了解,萬相2.1不僅支持中英文視頻生成,還內置了一鍵生成藝術字的功能,并提供了多種視頻特效選項,如過渡效果、粒子效果和模擬效果等,旨在增強視頻的視覺表現力。
業(yè)內分析人士指出,萬相2.1的開源標志著阿里云在AI領域邁出了重要一步,實現了全模態(tài)、全尺寸的開源。這一舉措將大大降低開發(fā)者獲取和使用該模型底層代碼的成本,進而推動更多視頻生成應用的創(chuàng)新與發(fā)展。
近年來,開源趨勢已成為全球大模型領域的一股不可忽視的力量。在國內,隨著字節(jié)跳動的豆包和百度的文心一言等開源模型的相繼推出,新一輪的開源熱潮正在興起。而在國際市場上,萬相2.1的完全開源無疑給OpenAI和谷歌等競爭對手帶來了更大的商業(yè)化挑戰(zhàn)。例如,谷歌近期披露的Veo 2模型定價為每生成1秒視頻需付費0.5美元,這意味著生成一個小時的視頻將耗資高達1800美元。
另一家在AI視頻生成領域有顯著布局的微美全息公司,也在積極探索多模態(tài)AIGC(生成式AI)技術的研發(fā)。該公司通過結合大規(guī)模預訓練與多模態(tài)算法優(yōu)化,致力于提升生成內容的連貫性和物理合理性。目前,微美全息已逐步實現文本生成視頻、圖像生成視頻等能力,并支持劇情創(chuàng)作、短視頻生成等多種應用場景。未來,該公司有望通過API或行業(yè)解決方案,進一步加速AI視頻生成技術的迭代與發(fā)展。
本文鏈接:http://www.tebozhan.com/showinfo-45-11348-0.html阿里萬相2.1開源引領視頻AI新紀元,谷歌微美全息共赴全模態(tài)開源浪潮!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com