當(dāng)前位置：首頁(yè) > 元宇宙 > AI

字節(jié) Seed 開(kāi)源統(tǒng)一多模態(tài)理解和生成模型 BAGEL

來(lái)源：責(zé)編：時(shí)間：2025-06-04 16:57:15 41觀看

導(dǎo)讀 6 月 3 日消息，字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)上周宣布開(kāi)源統(tǒng)一多模態(tài)理解和生成模型 BAGEL，該模型支持文本、圖像和視頻的統(tǒng)一理解和生成。BAGEL 具有 70 億個(gè)激活參數(shù)（總共 140 億個(gè)），并在大規(guī)模交錯(cuò)多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練。

6 月 3 日消息，字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)上周宣布開(kāi)源統(tǒng)一多模態(tài)理解和生成模型 BAGEL，該模型支持文本、圖像和視頻的統(tǒng)一理解和生成。

BAGEL 具有 70 億個(gè)激活參數(shù)（總共 140 億個(gè)），并在大規(guī)模交錯(cuò)多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練。BAGEL 在標(biāo)準(zhǔn)多模態(tài)理解排行榜上超越了當(dāng)前頂級(jí)的開(kāi)源 VLMs，如 Qwen2.5-VL 和 InternVL-2.5，并且提供了與專業(yè)生成器如 SD3 競(jìng)爭(zhēng)的文本到圖像質(zhì)量。

此外，BAGEL 在經(jīng)典的圖像編輯場(chǎng)景中展示了比領(lǐng)先的開(kāi)源模型更好的定性結(jié)果。更重要的是，它擴(kuò)展到了自由形式的視覺(jué)操作、多視圖合成和世界導(dǎo)航，這些能力構(gòu)成了超出以往圖像編輯模型范圍的“世界建模”任務(wù)。

具體來(lái)看，BAGEL 基于大語(yǔ)言模型進(jìn)行訓(xùn)練，具備基礎(chǔ)的推理和對(duì)話能力，能夠處理圖像和文本的混合輸入，并以混合格式輸出。

▲混合輸入-混合輸出

BAGEL 可生成較高質(zhì)量、逼真的圖像、視頻或圖文交錯(cuò)的內(nèi)容。此外，還引入了長(zhǎng)思維鏈 COT（Chain-of-Thought）模式，模型在生成之前可先“思考”。

▲B(niǎo)AGEL 通過(guò)“思考”生成了一個(gè)穿著毛衣的鱷魚(yú)玩偶

基于交錯(cuò)的多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練，BAGEL 自然地學(xué)會(huì)了保留視覺(jué)特征和細(xì)微細(xì)節(jié)，并且能從視頻中捕捉復(fù)雜的視覺(jué)運(yùn)動(dòng)，這些能力使得 BAGEL 在圖像編輯上更為高效。

▲基于同一人物形象進(jìn)行圖像編輯

基于對(duì)視覺(jué)內(nèi)容和風(fēng)格的理解，BAGEL 僅使用較少的對(duì)齊數(shù)據(jù)，即可實(shí)現(xiàn)圖片的風(fēng)格切換，甚至還可轉(zhuǎn)換至不同場(chǎng)景中。

▲B(niǎo)AGEL 實(shí)現(xiàn)多種風(fēng)格遷移

此外，BAGEL 還具備世界模型的基礎(chǔ)能力，可實(shí)現(xiàn)世界導(dǎo)航、未來(lái)幀預(yù)測(cè)、3D 世界生成等更具挑戰(zhàn)性的任務(wù)，并進(jìn)行不同角度的旋轉(zhuǎn)或視角切換。同時(shí)，BAGEL 還具備較強(qiáng)的泛化能力，不僅在各類真實(shí)場(chǎng)景中，還能在游戲、藝術(shù)作品、卡通動(dòng)畫(huà)等場(chǎng)景中實(shí)現(xiàn)導(dǎo)航。

基于以上能力，BAGEL 還可通過(guò)一個(gè)統(tǒng)一的多模態(tài)接口，實(shí)現(xiàn)各項(xiàng)能力的復(fù)雜組合，進(jìn)行多輪對(duì)話。

▲圖片剪切-智能編輯-場(chǎng)景轉(zhuǎn)換-風(fēng)格轉(zhuǎn)換組合功能

附 BAGEL 開(kāi)源地址：

官網(wǎng)及體驗(yàn)入口：

https://seed.bytedance.com/bagel

GitHub 代碼：

https://github.com/bytedance-seed/BAGEL

模型權(quán)重：

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

研究論文：

https://arxiv.org/pdf/2505.14683

本文鏈接：http://www.tebozhan.com/showinfo-45-13401-0.html字節(jié) Seed 開(kāi)源統(tǒng)一多模態(tài)理解和生成模型 BAGEL

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：任天堂《塞爾達(dá)傳說(shuō)》手機(jī)伴侶應(yīng)用被指使用生成式 AI 配音

下一篇： OpenAI 更新編程工具 Codex：新增語(yǔ)音輸入 + 聯(lián)網(wǎng)，向 ChatGPT Plus 用戶開(kāi)放

標(biāo)簽：

熱門焦點(diǎn)

“虛擬人”角斗場(chǎng)，基于“硬實(shí)力”下的人性平衡法則？

在打工人“反內(nèi)卷”的當(dāng)下，一眾虛擬人卻“內(nèi)卷”了起來(lái)。從北京春晚虛擬人蘇小妹與劉宇演繹歌舞《星河入夢(mèng)》，央美畢業(yè)的虛擬人夏語(yǔ)冰登上央視節(jié)目《對(duì)話》，湖南
“元宇宙第一股”Roblox緣何被資本市場(chǎng)看“低”？

近期，冬奧會(huì)的召開(kāi)受到廣泛關(guān)注，而吉祥物冰墩墩也成為新晉“頂流”，“一墩難求”成為普遍心聲，為了滿足大眾需求，nWayPlay平臺(tái)曾在2月12日發(fā)售了一款由國(guó)際奧委會(huì)官
國(guó)內(nèi)涌現(xiàn)70余家數(shù)字藏品平臺(tái)：合規(guī)、流量與利潤(rùn)在博弈

作者：楊鄭君2月16日，迅雷鏈企業(yè)數(shù)字藏品服務(wù)平臺(tái)正式上線，繼阿里、騰訊、京東、百度、網(wǎng)易等之后，又一家互聯(lián)網(wǎng)企業(yè)正式加入到火熱的數(shù)字藏品平臺(tái)的競(jìng)爭(zhēng)中。除互聯(lián)
2021年中國(guó)元宇宙行業(yè)用戶行為分析熱點(diǎn)報(bào)告

元宇宙網(wǎng)絡(luò)熱度高漲，中國(guó)網(wǎng)民對(duì)虛擬生態(tài)興趣濃厚。艾媒咨詢數(shù)據(jù)顯示，超六成的網(wǎng)民對(duì)“元宇宙”了解程度較高，在元宇宙較基礎(chǔ)的游戲領(lǐng)域，超九成的人對(duì)VR游戲更感興
DAO登上了歷史舞臺(tái)，但是主流準(zhǔn)備好采用DAO了嗎？

Block-807DAO要么是定義虛擬未來(lái)、無(wú)領(lǐng)導(dǎo)組織的革命性概念，要么是充滿存在主義和自我毀滅挑戰(zhàn)的反烏托邦結(jié)構(gòu)，取決于你在與誰(shuí)交談。近幾個(gè)月來(lái)， DAO已經(jīng)從Crypto
NFT盜竊案：為什么NFT市場(chǎng)被盜竊和黑客所困擾？

Block-806NFT的增長(zhǎng)值得關(guān)注。許多人愿意為數(shù)字藝術(shù)支付數(shù)百萬(wàn)美元，世界正在走向數(shù)字化。報(bào)告顯示，NFT市場(chǎng)和NFT收藏從2020年的1.06億美元增加到了2021年的442億
小眾有趣NFT藝術(shù)作品欣賞（1）

隨著NFT發(fā)展火熱，越來(lái)越多領(lǐng)域與NFT融合，NFT藝術(shù)在加密領(lǐng)域中占據(jù)了很大一部分。NFT藝術(shù)與傳統(tǒng)藝術(shù)有相似之處，也有完全不同的地方。NFT藝術(shù)與傳統(tǒng)藝術(shù)一樣，表現(xiàn)了
Snoop Dogg 計(jì)劃推出致力于數(shù)字媒體NFT的專業(yè)公司

雅痞哥不知道這人是誰(shuí)還上新聞，問(wèn)了助理，解釋，相當(dāng)于美版劉歡的地位吧。Snoop Dogg 在 NFT 領(lǐng)域已經(jīng)有一段時(shí)間了，尤其是在最近有消息稱人們?cè)谠钪嬷匈?gòu)買房地產(chǎn)
超級(jí)賬本Julian Gordon：聯(lián)盟鏈與公鏈的競(jìng)爭(zhēng)不是非此即彼

在2021年《福布斯》區(qū)塊鏈50強(qiáng)榜單中，29家企業(yè)使用Hyperledger超級(jí)賬本技術(shù)，占比近60%。同年，研究機(jī)構(gòu)Blockdata發(fā)布了的調(diào)查報(bào)告顯示，訪問(wèn)Top100上市公司中，有 81

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

字節(jié) Seed 開(kāi)源統(tǒng)一多模態(tài)理解和生成模型 BAGEL

“虛擬人”角斗場(chǎng)，基于“硬實(shí)力”下的人性平衡法則？

“元宇宙第一股”Roblox緣何被資本市場(chǎng)看“低”？

國(guó)內(nèi)涌現(xiàn)70余家數(shù)字藏品平臺(tái)：合規(guī)、流量與利潤(rùn)在博弈

2021年中國(guó)元宇宙行業(yè)用戶行為分析熱點(diǎn)報(bào)告

DAO登上了歷史舞臺(tái)，但是主流準(zhǔn)備好采用DAO了嗎？

NFT盜竊案：為什么NFT市場(chǎng)被盜竊和黑客所困擾？

小眾有趣NFT藝術(shù)作品欣賞（1）

Snoop Dogg 計(jì)劃推出致力于數(shù)字媒體NFT的專業(yè)公司

超級(jí)賬本Julian Gordon：聯(lián)盟鏈與公鏈的競(jìng)爭(zhēng)不是非此即彼

最新推薦

FMIFAwards獎(jiǎng)項(xiàng)即將揭曉！

“虛擬人”角斗場(chǎng)，基于“硬實(shí)力”下的人性平衡法則？

摩根大通：元宇宙市場(chǎng)預(yù)計(jì)每年收入超1萬(wàn)億美元

2022年元宇宙系列報(bào)告：UGC當(dāng)?shù)溃琗R帶來(lái)新交互體驗(yàn)

NFT領(lǐng)域，我們是否應(yīng)該遵守版權(quán)法

又一家數(shù)字營(yíng)銷公司入局元宇宙，國(guó)內(nèi)首個(gè)藝術(shù)元宇宙社區(qū)“Meta彼岸”上線

猜你喜歡

熱門推薦

相關(guān)資訊