【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3,該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨特之處在于,僅需基于下一個token預(yù)測,無需依賴擴(kuò)散模型或組合方法,便能實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。
在圖像生成任務(wù)中,Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型,獲得了人類偏好評測的高度認(rèn)可。同時,在視覺語言理解任務(wù)中,Emu3也展現(xiàn)出了強大的實力,其對于12項基準(zhǔn)測試的平均得分超越了LlaVA-1.6。在視頻生成任務(wù)中,Emu3同樣表現(xiàn)出色,VBench基準(zhǔn)測試得分高于OpenSora 1.2。
Emu3配備了一個強大的視覺tokenizer,能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token,這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務(wù)提供了更加統(tǒng)一的研究范式。
Emu3的研究結(jié)果充分證明了下一個token預(yù)測作為多模態(tài)模型范式的強大潛力,它不僅能實現(xiàn)超越語言本身的大規(guī)模多模態(tài)學(xué)習(xí),還能在多模態(tài)任務(wù)中取得先進(jìn)性能。目前,Emu3已開源關(guān)鍵技術(shù)和模型,為相關(guān)研究提供了有力支持。
本文鏈接:http://www.tebozhan.com/showinfo-16-126514-0.html智源發(fā)布Emu3:原生多模態(tài)世界模型,能否一統(tǒng)圖像文本視頻?
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com