8 月 12 日消息,昆侖萬維 SkyWork AI 技術(shù)發(fā)布周于 8 月 11 日啟動,連續(xù)五天每天發(fā)布一款模型,覆蓋多模態(tài) AI 核心場景。
今日,昆侖萬維帶來了自研世界模型 Matrix 系列中 Matrix-Game 交互世界模型的升級版本 ——「Matrix-Game 2.0」,號稱是實現(xiàn)了通用場景下的交互式實時長序列生成的世界模型。
并且為促進交互式世界模型領(lǐng)域的發(fā)展,「Matrix-Game 2.0」全面開源,號稱是業(yè)內(nèi)首個在通用場景上實現(xiàn)實時長序列交互式生成的世界模型開源方案。
「Matrix-Game 2.0」號稱在實時生成和長序列能力上實現(xiàn)了“質(zhì)的飛躍”。相較于上一版本,2.0 版本更加側(cè)重低延遲、高幀率的長序列交互性能,能夠以 25 FPS 的速度,在多種復(fù)雜場景中穩(wěn)定生成連續(xù)視頻內(nèi)容,且生成時長可擴展至分鐘級,大幅提升了連貫性與實用性。
在推理速度顯著提升的同時,模型依然保持了對物理規(guī)律與場景語義的“精準理解”,支持用戶通過簡單指令,自由探索、操控并實時構(gòu)建結(jié)構(gòu)清晰、細節(jié)豐富、規(guī)則合理的虛擬環(huán)境。
昆侖萬維還開源了 Matrix-3D 大模型,從單圖像出發(fā),生成高質(zhì)量、軌跡一致的全景視頻,并直接還原可漫游的三維空間,對標李飛飛 WorldLabs 的生成效果,可實現(xiàn)更大范圍的探索空間。
Matrix-3D 由以下核心部分組成:
軌跡引導(dǎo)的全景視頻生成模塊:利用場景 Mesh 渲染圖作為條件輸入,訓(xùn)練視頻擴散模型生成符合給定相機軌跡的全景視頻。提升生成視頻在空間結(jié)構(gòu)上的一致性,緩解遮擋錯誤與圖像偽影問題。
雙路徑可選擇的全景 3D 重建模塊:優(yōu)化路徑,對生成的視頻進行超分與 3DGS 優(yōu)化,獲取高質(zhì)量 3D 結(jié)構(gòu)。前饋網(wǎng)絡(luò)路徑:基于 Transformer 直接回歸,從生成視頻 Latent 特征快速預(yù)測 3D 幾何屬性,實現(xiàn)高效重建。
Matrix-Pano 數(shù)據(jù)集:大規(guī)模高質(zhì)量合成數(shù)據(jù)集,包含 116K 條帶有相機軌跡、深度圖和文本注釋的靜態(tài)全景視頻序列。
附兩個模型的開源地址如下:
https://github.com/SkyworkAI/Matrix-Game
https://github.com/SkyworkAI/Matrix-3D
本文鏈接:http://www.tebozhan.com/showinfo-45-26089-0.htmlAI 生成游戲,昆侖萬維發(fā)布并開源 Matrix-Game 2.0、Matrix-3D 模型
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com