6 月 3 日消息,字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)上周宣布開(kāi)源統(tǒng)一多模態(tài)理解和生成模型 BAGEL,該模型支持文本、圖像和視頻的統(tǒng)一理解和生成。
BAGEL 具有 70 億個(gè)激活參數(shù)(總共 140 億個(gè)),并在大規(guī)模交錯(cuò)多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練。BAGEL 在標(biāo)準(zhǔn)多模態(tài)理解排行榜上超越了當(dāng)前頂級(jí)的開(kāi)源 VLMs,如 Qwen2.5-VL 和 InternVL-2.5,并且提供了與專業(yè)生成器如 SD3 競(jìng)爭(zhēng)的文本到圖像質(zhì)量。
此外,BAGEL 在經(jīng)典的圖像編輯場(chǎng)景中展示了比領(lǐng)先的開(kāi)源模型更好的定性結(jié)果。更重要的是,它擴(kuò)展到了自由形式的視覺(jué)操作、多視圖合成和世界導(dǎo)航,這些能力構(gòu)成了超出以往圖像編輯模型范圍的“世界建模”任務(wù)。
具體來(lái)看,BAGEL 基于大語(yǔ)言模型進(jìn)行訓(xùn)練,具備基礎(chǔ)的推理和對(duì)話能力,能夠處理圖像和文本的混合輸入,并以混合格式輸出。
BAGEL 可生成較高質(zhì)量、逼真的圖像、視頻或圖文交錯(cuò)的內(nèi)容。此外,還引入了長(zhǎng)思維鏈 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。
基于交錯(cuò)的多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練,BAGEL 自然地學(xué)會(huì)了保留視覺(jué)特征和細(xì)微細(xì)節(jié),并且能從視頻中捕捉復(fù)雜的視覺(jué)運(yùn)動(dòng),這些能力使得 BAGEL 在圖像編輯上更為高效。
基于對(duì)視覺(jué)內(nèi)容和風(fēng)格的理解,BAGEL 僅使用較少的對(duì)齊數(shù)據(jù),即可實(shí)現(xiàn)圖片的風(fēng)格切換,甚至還可轉(zhuǎn)換至不同場(chǎng)景中。
此外,BAGEL 還具備世界模型的基礎(chǔ)能力,可實(shí)現(xiàn)世界導(dǎo)航、未來(lái)幀預(yù)測(cè)、3D 世界生成等更具挑戰(zhàn)性的任務(wù),并進(jìn)行不同角度的旋轉(zhuǎn)或視角切換。同時(shí),BAGEL 還具備較強(qiáng)的泛化能力,不僅在各類真實(shí)場(chǎng)景中,還能在游戲、藝術(shù)作品、卡通動(dòng)畫(huà)等場(chǎng)景中實(shí)現(xiàn)導(dǎo)航。
基于以上能力,BAGEL 還可通過(guò)一個(gè)統(tǒng)一的多模態(tài)接口,實(shí)現(xiàn)各項(xiàng)能力的復(fù)雜組合,進(jìn)行多輪對(duì)話。
附 BAGEL 開(kāi)源地址:
官網(wǎng)及體驗(yàn)入口:
https://seed.bytedance.com/bagel
GitHub 代碼:
https://github.com/bytedance-seed/BAGEL
模型權(quán)重:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
研究論文:
https://arxiv.org/pdf/2505.14683
本文鏈接:http://www.tebozhan.com/showinfo-45-13401-0.html字節(jié) Seed 開(kāi)源統(tǒng)一多模態(tài)理解和生成模型 BAGEL
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 任天堂《塞爾達(dá)傳說(shuō)》手機(jī)伴侶應(yīng)用被指使用生成式 AI 配音
下一篇: OpenAI 更新編程工具 Codex:新增語(yǔ)音輸入 + 聯(lián)網(wǎng),向 ChatGPT Plus 用戶開(kāi)放