AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

港大字節(jié)提出多模態(tài)大模型新范式,模擬人類先感知后認(rèn)知,精確定位圖中物體

來源: 責(zé)編: 時間:2024-05-30 17:13:15 163觀看
導(dǎo)讀 當(dāng)前,多模態(tài)大模型(MLLM)在多項(xiàng)視覺任務(wù)上展現(xiàn)出了強(qiáng)大的認(rèn)知理解能力。然而大部分多模態(tài)大模型局限于單向的圖像理解,難以將理解的內(nèi)容映射回圖像上。比如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中準(zhǔn)確標(biāo)

當(dāng)前,多模態(tài)大模型(MLLM)在多項(xiàng)視覺任務(wù)上展現(xiàn)出了強(qiáng)大的認(rèn)知理解能力。然而大部分多模態(tài)大模型局限于單向的圖像理解,難以將理解的內(nèi)容映射回圖像上。yOT28資訊網(wǎng)——每日最新資訊28at.com

比如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中準(zhǔn)確標(biāo)識出來。yOT28資訊網(wǎng)——每日最新資訊28at.com

定位能力的缺失直接限制了多模態(tài)大模型在圖像編輯,自動駕駛,機(jī)器人控制等下游領(lǐng)域的應(yīng)用。yOT28資訊網(wǎng)——每日最新資訊28at.com

針對這一問題,港大和字節(jié)跳動商業(yè)化團(tuán)隊(duì)的研究人員提出了一種新范式 Groma——yOT28資訊網(wǎng)——每日最新資訊28at.com

通過區(qū)域性圖像編碼來提升多模態(tài)大模型的感知定位能力。yOT28資訊網(wǎng)——每日最新資訊28at.com

在融入定位后,Groma 可以將文本內(nèi)容和圖像區(qū)域直接關(guān)聯(lián)起來,從而顯著提升對話的交互性和指向性。yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

核心思路

如何賦予多模態(tài)大模型定位物體的能力,乃至于將文字內(nèi)容和圖像區(qū)域關(guān)聯(lián)起來,做到“言之有物”,是當(dāng)前一大研究熱點(diǎn)。yOT28資訊網(wǎng)——每日最新資訊28at.com

常見的做法是微調(diào)大語言模型使其直接輸出物體坐標(biāo)。然而這種方法卻有著諸多限制:yOT28資訊網(wǎng)——每日最新資訊28at.com

1、在文本上預(yù)訓(xùn)練的大語言模型本身不具備空間理解能力,僅依靠少量數(shù)據(jù)微調(diào)很難精準(zhǔn)定位物體。yOT28資訊網(wǎng)——每日最新資訊28at.com

2、定位任務(wù)對輸入圖像的分辨率有較高要求,但提高分辨率會顯著增加多模態(tài)大模型的計算量。yOT28資訊網(wǎng)——每日最新資訊28at.com

3、大語言模型的輸出形式不適合處理精細(xì)的定位任務(wù),比如分割。yOT28資訊網(wǎng)——每日最新資訊28at.com

基于這些考慮,Groma 提出將定位轉(zhuǎn)移到多模態(tài)大模型的 vision tokenizer 中,由 vision tokenizer 發(fā)現(xiàn)并定位潛在的物體,再交給大語言模型識別。yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

同時,這樣的設(shè)計也充分利用了 vision tokenizer 本身的空間理解能力,而無需外接專家模型(比如 SAM)來輔助定位,從而避免了外接模型的冗余。yOT28資訊網(wǎng)——每日最新資訊28at.com

具體而言,Groma 在全局圖像編碼的基礎(chǔ)上,引入了區(qū)域編碼來實(shí)現(xiàn)定位功能 —— 如下圖所示,Groma 先利用 Region Proposer 定位潛在的物體,再通過 Region Encoder 將定位到的區(qū)域逐一編碼成 region token。yOT28資訊網(wǎng)——每日最新資訊28at.com

而大語言模型則可以根據(jù) region token 的語意判斷其對應(yīng)的區(qū)域,并通過在輸出中插入 region token 來達(dá)成類似超鏈接的效果,實(shí)現(xiàn) visually grounded conversation。yOT28資訊網(wǎng)——每日最新資訊28at.com

同樣地,用戶指定的區(qū)域也可以通過 Region Encoder 編碼成相應(yīng)的 region token,并插入到用戶指令中,從而讓多模態(tài)模型能關(guān)注到指定的區(qū)域并產(chǎn)生指向性的回答。yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

為了提升定位的魯棒性和準(zhǔn)確性,Groma 采用了超過 8M 的數(shù)據(jù)(包括 SA1B)來預(yù)訓(xùn)練 Region Proposer。因此其產(chǎn)生的 proposal 不僅包括常見的物體,也涵蓋了物體的組成部分以及更廣闊的背景等要素。yOT28資訊網(wǎng)——每日最新資訊28at.com

此外,得益于分離式的設(shè)計,Groma 可以采用高分辨率特征圖用于 Region Proposer / Encoder 的輸入,并采用低分辨率的特征圖用于大模型輸入,從而在降低計算量的同時又不損失定位性能。yOT28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果

Groma 在傳統(tǒng)的 Grounding Benchmarks 上表現(xiàn)出了超越 MiniGPT-v2 和 Qwen-VL 的性能。yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

同時,Groma 在多模態(tài)大模型通用的 VQA Benchmark (LLaVA-COCO) 驗(yàn)證了其對話和推理能力。yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

在可視化的對比中,Groma 也表現(xiàn)出了更高的 recall 和更少的幻覺。yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

此外,Groma 還支持融合對話能力和定位能力的 referential dialogue 以及 grounded chat。yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

yOT28資訊網(wǎng)——每日最新資訊28at.com

得益于大語言模型強(qiáng)大的認(rèn)知推理能力,多模態(tài)大模型在視覺理解任務(wù)上表現(xiàn)突出。yOT28資訊網(wǎng)——每日最新資訊28at.com

然而一些傳統(tǒng)的視覺任務(wù),如檢測分割、深度估計等,更多依賴視覺感知能力,這恰恰是大語言模型所缺乏的。yOT28資訊網(wǎng)——每日最新資訊28at.com

Groma 在這個問題上提供了一種新的解決思路,即把感知和認(rèn)知解耦開來,由 vision tokenizer 負(fù)責(zé)感知,大語言模型負(fù)責(zé)認(rèn)知。yOT28資訊網(wǎng)——每日最新資訊28at.com

這種先感知后認(rèn)知的形式除了更符合人類的視覺過程,也避免了重新訓(xùn)練大語言模型的計算開銷。yOT28資訊網(wǎng)——每日最新資訊28at.com

5 月 15 日,字節(jié)跳動剛剛公布了自研的豆包大模型,提供多模態(tài)能力,下游支持豆包 App、扣子、即夢等 50 + 業(yè)務(wù),并通過火山引擎開放給企業(yè)客戶,助力企業(yè)提升效率、加速智能化創(chuàng)新。目前,豆包 App 已成為中國市場用戶量最大的 AIGC 應(yīng)用。字節(jié)跳動正持續(xù)加大對頂尖人才和前沿技術(shù)的投入力度,參與行業(yè)頂尖的技術(shù)挑戰(zhàn)和攻堅。yOT28資訊網(wǎng)——每日最新資訊28at.com

項(xiàng)目網(wǎng)站:yOT28資訊網(wǎng)——每日最新資訊28at.com

https://groma-mllm.github.ioyOT28資訊網(wǎng)——每日最新資訊28at.com

論文鏈接:yOT28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2404.13013yOT28資訊網(wǎng)——每日最新資訊28at.com

開源代碼:yOT28資訊網(wǎng)——每日最新資訊28at.com

https://github.com/FoundationVision/GromayOT28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:允中yOT28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-4477-0.html港大字節(jié)提出多模態(tài)大模型新范式,模擬人類先感知后認(rèn)知,精確定位圖中物體

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 軟銀計劃向 AI 項(xiàng)目投資近 90 億美元,進(jìn)一步加速“迄今最徹底”轉(zhuǎn)型

下一篇: 研究:GPT-4 在預(yù)測公司盈利方面超越人類分析師

標(biāo)簽:
  • 熱門焦點(diǎn)
Top