當(dāng)前位置：首頁 > 科技 > 資訊

智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？

來源：責(zé)編：時間：2024-10-22 08:07:51 27觀看

導(dǎo)讀【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3，該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨特之處在于，僅需基于下一個token預(yù)測，無需依賴擴(kuò)散模型或組合方法，便能實現(xiàn)

【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3，該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨特之處在于，僅需基于下一個token預(yù)測，無需依賴擴(kuò)散模型或組合方法，便能實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。

在圖像生成任務(wù)中，Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型，獲得了人類偏好評測的高度認(rèn)可。同時，在視覺語言理解任務(wù)中，Emu3也展現(xiàn)出了強大的實力，其對于12項基準(zhǔn)測試的平均得分超越了LlaVA-1.6。在視頻生成任務(wù)中，Emu3同樣表現(xiàn)出色，VBench基準(zhǔn)測試得分高于OpenSora 1.2。

Emu3配備了一個強大的視覺tokenizer，能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token，這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務(wù)提供了更加統(tǒng)一的研究范式。

Emu3的研究結(jié)果充分證明了下一個token預(yù)測作為多模態(tài)模型范式的強大潛力，它不僅能實現(xiàn)超越語言本身的大規(guī)模多模態(tài)學(xué)習(xí)，還能在多模態(tài)任務(wù)中取得先進(jìn)性能。目前，Emu3已開源關(guān)鍵技術(shù)和模型，為相關(guān)研究提供了有力支持。

本文鏈接：http://www.tebozhan.com/showinfo-16-126514-0.html智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：中國PCT國際專利申請量：連續(xù)五年穩(wěn)坐全球榜首！

下一篇：索泰辟謠：印尼工廠未量產(chǎn)RTX 5090，視頻實為4070 Ti Super

標(biāo)簽：

熱門焦點

5月iOS設(shè)備好評榜：iPhone 14僅排第43？

來到新的一月，安兔兔的各個榜單又重新匯總了數(shù)據(jù)，像安卓陣營的榜單都有著比較大的變動，不過iOS由于設(shè)備的更新?lián)Q代并沒有那么快，所以相對來說變化并不大，特別是iOS好評榜，老款設(shè)
Golang 中的 io 包詳解：組合接口

io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合，
企業(yè)采用CRM系統(tǒng)的11個好處

客戶關(guān)系管理（CRM）軟件可以為企業(yè)提供很多的好處，從客戶保留到提高生產(chǎn)力。　　CRM軟件用于企業(yè)收集客戶互動，以改善客戶體驗和滿意度。　　CRM軟件市場規(guī)模如今超過580
中國家電海外掘金正當(dāng)時｜出海專題

作者｜吳南南編輯｜胡展嘉運營｜陳佳慧出品｜零態(tài)LT（ID：LingTai_LT）2023年，出海市場戰(zhàn)況空前，中國創(chuàng)業(yè)者在海外紛紛摩拳擦掌，以期能夠把中國的商業(yè)模式、創(chuàng)業(yè)理念、戰(zhàn)略打法輸出海外，他們依
iQOO 11S評測：行業(yè)唯一的200W標(biāo)準(zhǔn)版旗艦

【Techweb評測】去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強機，該機不僅全球首發(fā)2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競
回歸OPPO兩年，一加贏了銷量，輸了品牌

成為OPPO旗下主打性能的先鋒品牌后，一加屢創(chuàng)佳績。今年618期間，一加手機全渠道銷量同比增長362%，憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品，一加
OPPO K11采用全方位護(hù)眼屏：三大護(hù)眼能力減輕視覺疲勞

日前OPPO官方宣布，全新的OPPO K11將于7月25日正式發(fā)布，將主打旗艦影像，和同檔位競品相比，其最大的賣點就是將配備索尼IMX890主攝，堪稱是2000檔位影像表
英特爾Xe HPG游戲顯卡：擁有512EU，單風(fēng)扇版本

據(jù)10 月 30 日外媒 TheVerge 消息報道，英特爾 Xe HPG Arc Alchemist 的正面實被曝光，不僅擁有 512 EU 版顯卡，還擁有 128EU 的單風(fēng)扇版本。另外，這款顯卡 PCB
2021中國國際消費電子博覽會與青島國際軟件融合創(chuàng)新博覽會新聞發(fā)布會隆重舉行

9月18日，2021中國國際消費電子博覽會與青島國際軟件融合創(chuàng)新博覽會新聞發(fā)布會在青島國際新聞中心隆重舉行。發(fā)布會上青島市政府領(lǐng)導(dǎo)聯(lián)袂出席，對本次雙展會情

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？

5月iOS設(shè)備好評榜：iPhone 14僅排第43？

Golang 中的 io 包詳解：組合接口

企業(yè)采用CRM系統(tǒng)的11個好處

中國家電海外掘金正當(dāng)時｜出海專題

iQOO 11S評測：行業(yè)唯一的200W標(biāo)準(zhǔn)版旗艦

回歸OPPO兩年，一加贏了銷量，輸了品牌

OPPO K11采用全方位護(hù)眼屏：三大護(hù)眼能力減輕視覺疲勞

英特爾Xe HPG游戲顯卡：擁有512EU，單風(fēng)扇版本

2021中國國際消費電子博覽會與青島國際軟件融合創(chuàng)新博覽會新聞發(fā)布會隆重舉行

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊