阿里云在視覺生成領域邁出了重要一步,近日宣布其視覺生成基座模型萬相2.1(Wan)正式開源。這一消息在科技圈內引起了廣泛關注,標志著阿里云在開源大模型戰略上的又一重大進展。
萬相2.1模型提供了兩種參數規模供用戶選擇。140億參數的專業版模型,專為追求極致生成效果的專業人士設計;而13億參數的輕量級模型,則在保證生成速度的同時,能夠兼容所有消費級GPU,極大地降低了使用門檻。目前,這兩個模型的全部推理代碼和權重均已實現開源。
萬相2.1在性能上表現出色,多個基準測試中的成績均優于現有的開源模型和商業解決方案。特別是在權威評測集VBench中,140億參數的專業版模型以總分86.22%的成績,大幅超越了Sora、Luma、Pika等國內外知名模型,穩居榜首。這一成績充分證明了萬相2.1在視覺生成領域的領先地位。
除了卓越的性能,萬相2.1還具備多項實用功能。它支持文生視頻、圖生視頻、視頻編輯、文生圖和視頻生音頻等多種任務,滿足了用戶在不同場景下的需求。萬相2.1還是首個能夠生成中英文文本的視頻模型,無需外部插件即可實現文字生成,進一步提升了其實用性。
萬相2.1還配備了強大的視頻VAE——Wan-VAE。該VAE提供了卓越的效率和性能,能夠對任意長度的1080P視頻進行編碼和解碼,同時保留時間信息。這一功能使得萬相2.1在處理復雜視頻任務時更加得心應手。
在生成能力方面,萬相2.1同樣表現出色。它能夠還原復雜運動表現、遵循物理規律,并生成影院級別的畫質。同時,萬相2.1還支持中英文藝術字生成,使得生成的視頻更加豐富多彩。阿里云還公開了多個萬相2.1生成的視頻Demo,展示了其在不同場景下的應用效果。
萬相2.1的開源,標志著阿里云在開源大模型戰略上取得了又一重大突破。從最早開源的Qwen模型到如今的全模態、全尺寸開源,阿里云不斷推動開源生態的發展,為科技行業注入了新的活力。未來,隨著更多開源模型的涌現,科技行業將迎來更加繁榮的發展局面。
本文鏈接:http://www.tebozhan.com/showinfo-45-11153-0.html阿里云開源萬相2.1視頻大模型,性能領先,8G顯卡輕松運行
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com