當前位置：首頁 > 科技 > 軟件

昆侖萬維 2050 全球研究院聯(lián)合 NUS、NTU 發(fā)布 Vitron

來源：責編：時間：2024-04-26 08:46:02 187觀看

導讀近日，由顏水成教授帶隊，昆侖萬維 2050 全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯(lián)合發(fā)布并開源了 Vitron 通用像素級視覺多模態(tài)大語言模型。這是一款重磅的通用視覺多模態(tài)大模型，支持從視覺理解到視

近日，由顏水成教授帶隊，昆侖萬維 2050 全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯(lián)合發(fā)布并開源了 Vitron 通用像素級視覺多模態(tài)大語言模型。

這是一款重磅的通用視覺多模態(tài)大模型，支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務，解決了困擾大語言模型產(chǎn)業(yè)已久的圖像 / 視頻模型割裂問題，提供了一個全面統(tǒng)一靜態(tài)圖像與動態(tài)視頻內(nèi)容的理解、生成、分割、編輯等任務的像素級通用視覺多模態(tài)大模型，為下一代通用視覺大模型的終極形態(tài)奠定了基礎(chǔ)，也標志著大模型邁向通用人工智能（AGI）的又一大步。

Vitron 作為一個統(tǒng)一的像素級視覺多模態(tài)大語言模型，實現(xiàn)了從低層次到高層次的視覺任務的全面支持，能夠處理復雜的視覺任務，并理解和生成圖像和視頻內(nèi)容，提供了強大的視覺理解和任務執(zhí)行能力。同時，Vitron 支持與用戶的連續(xù)操作，實現(xiàn)了靈活的人機互動，展示了通向更統(tǒng)一的視覺多模態(tài)通用模型的巨大潛力。

Vitron 相關(guān)的論文、代碼和 Demo 已全部公開，其在綜合性、技術(shù)創(chuàng)新、人機交互和應用潛力等方面展現(xiàn)出的獨特優(yōu)勢和潛力，不僅推動了多模態(tài)大模型的發(fā)展，還為未來的視覺大模型研究提供了一個新的方向。

一直以來，昆侖萬維 2050 全球研究院都致力于打造一家面向未來世界的卓越科學研究機構(gòu)，與科學社區(qū)共同跨越“奇點”，探索未知世界，創(chuàng)造美好未來。此前，昆侖萬維 2050 全球研究院已經(jīng)發(fā)布并開源了數(shù)字智能體研發(fā)工具包 AgentStudio，未來，研究院還將不斷推動人工智能技術(shù)突破，為中國人工智能生態(tài)建設(shè)貢獻力量。

當前視覺大語言模型（LLMs）的發(fā)展取得了喜人進展。社區(qū)越來越相信，構(gòu)建更通用、更強大的多模態(tài)大模型（MLLMs）將會是通向通用人工智能（AGI）的必經(jīng)之路。但在向多模態(tài)通用大模型（Generalist）的邁進過程中，目前仍存在一些關(guān)鍵挑戰(zhàn)。比如很大一部分工作都沒有實現(xiàn)細粒度像素級別的視覺理解，或者缺乏對圖像和視頻的統(tǒng)一支持。抑或?qū)τ诟鞣N視覺任務的支持不充分，離通用大模型相差甚遠。

為了填補這個空白，近日，昆侖萬維 2050 全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯(lián)合發(fā)布開源了 Vitron 通用像素級視覺多模態(tài)大語言模型。Vitron 支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務，包括靜態(tài)圖像和動態(tài)視頻內(nèi)容進行全面的理解、生成、分割和編輯等任務。

上圖綜合描繪了 Vitron 在四大視覺相關(guān)任務的功能支持，以及其關(guān)鍵優(yōu)勢。Vitron 還支持與用戶的連續(xù)操作，實現(xiàn)靈活的人機互動。該項目展示了面向更統(tǒng)一的視覺多模態(tài)通用模型的巨大潛力，為下一代通用視覺大模型的終極形態(tài)奠定了基礎(chǔ)。

Vitron 相關(guān)論文、代碼、Demo 目前已全部公開。

論文標題：Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

項目主頁 & Demo：https://vitron-llm.github.io/

論文鏈接：https://is.gd/aGu0VV

開源代碼：https://github.com/SkyworkAI/Vitron

01.大一統(tǒng)的終極多模態(tài)大語言模型

近年來，大語言模型（LLMs）展現(xiàn)出了前所未有的強大能力，其被逐漸驗證為乃是通向 AGI 的技術(shù)路線。而多模態(tài)大語言模型（MLLMs）在多個社區(qū)火爆發(fā)展且迅速出圈，通過引入能進行視覺感知的模塊，擴展純語言基礎(chǔ) LLMs 至 MLLMs，眾多在圖像理解方面強大卓越的 MLLMs 被研發(fā)問世，例如 BLIP-2、LLaVA、MiniGPT-4 等等。與此同時，專注于視頻理解的 MLLMs 也陸續(xù)面世，如 VideoChat、Video-LLaMA 和 Video-LLaVA 等等。

隨后，研究人員主要從兩個維度試圖進一步擴展 MLLMs 的能力。一方面，研究人員嘗試深化 MLLMs 對視覺的理解，從粗略的實例級理解過渡到對圖像的像素級細粒度理解，從而實現(xiàn)視覺區(qū)域定位（Regional Grounding）能力，如 GLaMM、PixelLM、NExT-Chat 和 MiniGPT-v2 等。另一方面，研究人員嘗試擴展 MLLMs 可以支持的視覺功能。部分研究已經(jīng)開始研究讓 MLLMs 不僅理解輸入視覺信號，還能支持生成輸出視覺內(nèi)容。比如，GILL、Emu 等 MLLMs 能夠靈活生成圖像內(nèi)容，以及 GPT4Video 和 NExT-GPT 實現(xiàn)視頻生成。

目前人工智能社區(qū)已逐漸達成一致，認為視覺 MLLMs 的未來趨勢必然會朝著高度統(tǒng)一、能力更強的方向發(fā)展。然而，盡管社區(qū)開發(fā)了眾多的 MLLMs，但仍然存在明顯的鴻溝。

首先，幾乎所有現(xiàn)有的視覺 LLMs 將圖像和視頻視為不同的實體，要么僅支持圖像，要么僅支持視頻。研究人員主張，視覺應該同時包含了靜態(tài)圖像和動態(tài)視頻兩個方面的內(nèi)涵 —— 這兩者都是視覺世界的核心組成，在大多數(shù)場景中甚至可以互換。所以，需要構(gòu)建一個統(tǒng)一的 MLLM 框架能夠同時支持圖像和視頻模態(tài)。

其次，目前 MLLMs 對視覺功能的支持還有所不足。大多數(shù)模型僅能進行理解，或者最多生成圖像或視頻。研究人員認為，未來的 MLLMs 應該是一個通用大語言模型，能覆蓋更廣泛的視覺任務和操作范圍，實現(xiàn)對所有視覺相關(guān)任務的統(tǒng)一支持，達到“one for all”的能力。這點對實際應用尤其是在經(jīng)常涉及一系列迭代和交互操作的視覺創(chuàng)作中至關(guān)重要。例如，用戶通常首先從文本開始，通過文生圖，將一個想法轉(zhuǎn)化為視覺內(nèi)容；然后通過進一步的細粒度圖像編輯來完善初始想法，添加更多細節(jié)；接著，通過圖像生成視頻來創(chuàng)建動態(tài)內(nèi)容；最后，進行幾輪迭代交互，如視頻編輯，完善創(chuàng)作。

上表簡單地歸納了現(xiàn)有的視覺 MLLM 的能力（只代表性地囊括了部分模型，覆蓋不完整）。為了彌補這些差距，該團隊提出一種通用的像素級視覺 MLLM——Vitron。

02. Vitron 系統(tǒng)架構(gòu)：三大關(guān)鍵模塊

Vitron 整體框架如下圖所示。Vitron 采用了與現(xiàn)有相關(guān) MLLMs 相似的架構(gòu)，包括三個關(guān)鍵部分：1) 前端視覺 & 語言編碼模塊，2) 中心 LLM 理解和文本生成模塊，以及 3) 后端用戶響應和模塊調(diào)用以進行視覺操控模塊。

前端模塊：視覺-語言編碼。為了感知圖像和視頻模態(tài)信號，并支持細粒度用戶視覺輸入，Vitron 集成了圖像編碼器、視頻編碼器、區(qū)域框 / 草圖編碼器。

中心模塊：核心 LLM。Vitron 使用的是 Vicuna（7B，1.5），來實現(xiàn)理解、推理、決策制定和多輪用戶交互。

后端模塊：用戶響應與模塊調(diào)用。Vitron 采用以文本為中心的調(diào)用策略，整合現(xiàn)成的幾個強大先進（SoTA）的圖像和視頻處理模塊，用于解碼和執(zhí)行從低層到高層的一系列視覺終端任務。通過采用以文本為中心的模塊集成調(diào)用方法，Vitron 不僅實現(xiàn)了系統(tǒng)統(tǒng)一，還確保了對齊效率和系統(tǒng)可擴展性。

03. Vitron 模型訓練三大階段

基于上述架構(gòu)，再對 Vitron 進行訓練微調(diào)，以賦予其強大的視覺理解和任務執(zhí)行能力。模型訓練主要囊括三個不同的階段。

步驟一：視覺-語言整體對齊學習。將輸入的視覺語言特征映射到一個統(tǒng)一的特征空間中，從而使其能夠有效理解輸入的多模態(tài)信號。這是一種粗粒度的視覺-語言對齊學習，可以讓系統(tǒng)具備整體上有效處理傳入的視覺信號。研究人員采用了現(xiàn)存的圖像-標題對（CC3M）、視頻-標題對（Webvid）和區(qū)域-標題對（RefCOCO）的數(shù)據(jù)集進行訓練。

步驟二：細粒度的時空視覺定位指令微調(diào)。系統(tǒng)采用了調(diào)用外部模塊方式來執(zhí)行各種像素級視覺任務，但 LLM 本身并未經(jīng)過任何細粒度的視覺訓練，這將會阻礙了系統(tǒng)實現(xiàn)真正的像素級視覺理解。為此，研究人員提出了一種細粒度的時空視覺定位指令微調(diào)訓練，核心思想是使 LLM 能夠定位圖像的細粒度空間性和視頻的具體時序特性。

步驟三：輸出端面向命令調(diào)用的指令微調(diào)。上述第二階段的訓練賦予了 LLM 和前端編碼器在像素級別理解視覺的能力。這最后一步，面向命令調(diào)用的指令微調(diào)，旨在讓系統(tǒng)具備精確執(zhí)行命令的能力，允許 LLM 生成適當且正確的調(diào)用文本。由于不同的終端視覺任務可能需要不同的調(diào)用命令，為了統(tǒng)一這一點，研究人員提出將 LLM 的響應輸出標準化為結(jié)構(gòu)化文本格式，其中包括：

1）用戶響應輸出，直接回復用戶的輸入。

2）模塊名稱，指示將要執(zhí)行的功能或任務。

3）調(diào)用命令，觸發(fā)任務模塊的元指令。

4）區(qū)域（可選輸出），指定某些任務所需的細粒度視覺特征，例如在視頻跟蹤或視覺編輯中，后端模塊需要這些信息。對于區(qū)域，基于 LLM 的像素級理解，將輸出由坐標描述的邊界框。

04.評估實驗

研究人員基于 Vitron 在 22 個常見的基準數(shù)據(jù)集、12 個圖像 / 視頻視覺任務上進行了廣泛的實驗評估。Vitron 展現(xiàn)出在四大主要視覺任務群組（分割、理解、內(nèi)容生成和編輯）中的強大能力，與此同時其具備靈活的人機交互能力。以下代表性地展示了一些定性比較結(jié)果：

Vision Segmentation

Results of image referring image segmentation

Fine-grained Vision Understanding

Results of image referring expression comprehension.

Results on video QA.

Vision Generation

Text-to-Image GenerationText-to-Video generationImage-to-Video generation

Vision Editing

Image editing results

具體更多詳細實驗內(nèi)容和細節(jié)請移步論文。

05.未來方向展望

總體上，這項工作展示了研發(fā)大一統(tǒng)的視覺多模態(tài)通用大模型的巨大潛力，為下一代視覺大模型的研究奠定了一個新的形態(tài)，邁出了這個方向的第一步。盡管團隊所提出的 Vitron 系統(tǒng)表現(xiàn)出強大的通用能力，但依然存在自身的局限性。以下研究人員列出一些未來可進一步探索的方向。

系統(tǒng)架構(gòu)

Vitron 系統(tǒng)仍采用半聯(lián)合、半代理的方式來調(diào)用外部工具。雖然這種基于調(diào)用的方法便于擴展和替換潛在模塊，但這也意味著這種流水線結(jié)構(gòu)的后端模塊不參與到前端與 LLM 核心模塊的聯(lián)合學習。這一限制不利于系統(tǒng)的整體學習，這意味著不同視覺任務的性能上限將受到后端模塊的限制。未來的工作應將各種視覺任務模塊整合成一個統(tǒng)一的單元。實現(xiàn)對圖像和視頻的統(tǒng)一理解和輸出，同時通過單一生成范式支持生成和編輯能力，仍然是一個挑戰(zhàn)。目前一種有希望的方式是結(jié)合 modality-persistent 的 tokenization, 提升系統(tǒng)在不同輸入和輸出以及各種任務上的統(tǒng)一化。

用戶交互性

與之前專注于單一視覺任務的模型（例如，Stable Diffusion 和 SEEM）不同，Vitron 旨在促進 LLM 和用戶之間的深度交互，類似于行業(yè)內(nèi)的 OpenAI 的 DALL-E 系列，Midjourney 等。實現(xiàn)最佳的用戶交互性是本項工作的核心目標之一。Vitron 利用現(xiàn)有的基于語言的 LLM，結(jié)合適當?shù)闹噶钫{(diào)整，以實現(xiàn)一定程度的交互。例如，系統(tǒng)可以靈活地響應用戶輸入的任何預期消息，產(chǎn)生相應的視覺操作結(jié)果，而不要求用戶輸入精確匹配后端模塊條件。然而，該工作在增強交互性方面仍有很大的提升空間。例如，從閉源的 Midjourney 系統(tǒng)汲取靈感，不論 LLM 在每一步做出何種決定，系統(tǒng)都應積極向用戶提供反饋，以確保其行動和決策與用戶意圖一致。

模態(tài)能力

當前，Vitron 集成了一個 7B 的 Vicuna 模型，其可能對其理解語言、圖像和視頻的能力會產(chǎn)生某些限制。未來的探索方向可以發(fā)展一個全面的端到端系統(tǒng)，比如擴大模型的規(guī)模，以實現(xiàn)對視覺的更徹底和全面的理解。此外，應該努力使 LLM 能夠完全統(tǒng)一圖像和視頻模態(tài)的理解。

本文鏈接：http://www.tebozhan.com/showinfo-26-85572-0.html昆侖萬維 2050 全球研究院聯(lián)合 NUS、NTU 發(fā)布 Vitron

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：榮耀華為并列 Q1 中國智能機市場第一

下一篇：國產(chǎn) PC 新勢力，攀升電腦多款主機等你來選購

標簽：

熱門焦點

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

疫情帶來了網(wǎng)課，網(wǎng)課盤活了安卓平板，安卓平板市場雖然中途停滯了幾年，但好的一點就是停滯的這幾年行業(yè)又有了新的發(fā)展方向，例如超窄邊框、高刷新率、多攝鏡頭組合等，這就讓安卓
跑分安卓第一！Redmi K60至尊版8月發(fā)布！盧偉冰：目標年度性能之王

8月5日消息，Redmi K60至尊版將于8月發(fā)布，在此前舉行的戰(zhàn)略發(fā)布會上，官方該機將搭載搭載天璣9200+處理器，安兔兔V10跑分超177萬分，是目前安卓陣營最高的分數(shù)
K8S | Service服務發(fā)現(xiàn)

一、背景在微服務架構(gòu)中，這里以開發(fā)環(huán)境「Dev」為基礎(chǔ)來描述，在K8S集群中通常會開放：路由網(wǎng)關(guān)、注冊中心、配置中心等相關(guān)服務，可以被集群外部訪問；圖片對于測試「Tes」環(huán)境或者
小紅書1周漲粉49W+，我總結(jié)了小白可以用的N條漲粉筆記

作者：黃河懂運營一條性教育視頻，被54萬人“珍藏”是什么體驗？最近，情感博主@公主是用鮮花做的，火了！僅僅憑借一條視頻，光小紅書就有超過128萬人，為她瘋狂點贊！更瘋狂的是，這
2023年，我眼中的字節(jié)跳動

此時此刻（2023年7月），字節(jié)跳動從未上市，也從未公布過任何官方的上市計劃；但是這并不妨礙它成為中國最受關(guān)注的互聯(lián)網(wǎng)公司之一。從2016-17年的抖音強勢崛起，到2018年的“頭騰
本地生活這塊肥肉，拼多多也想吃一口

出品/壹覽商業(yè) 作者/李彥編輯/木魚拼多多也看上本地生活這塊蛋糕了。近期，拼多多在App首頁“充值中心”入口上線了本機生活界面。壹覽商業(yè)發(fā)現(xiàn)，該界面目前主要
大廠卷向扁平化

來源：新熵作者丨南枝編輯丨月見大廠職級不香了。俗話說，兵無常勢，水無常形，互聯(lián)網(wǎng)企業(yè)調(diào)整職級體系并不稀奇。7月13日，淘寶天貓集團啟動了近年來最大的人力制度改革，目前已形成一
電博會與軟博會實現(xiàn)"線下+云端"的雙線融合

在本次“電博會”與“軟博會”雙展會利好條件的加持下，既可以發(fā)揮展會拉動人流、信息流、資金流實現(xiàn)快速交互流動的作用，繼而推動區(qū)域經(jīng)濟良性發(fā)展；又可以聚
Meta盲目擴張致超萬人被裁，重金押注元宇宙而前景未明

圖片來源：圖蟲創(chuàng)意日前，Meta創(chuàng)始人兼CEO 馬克·扎克伯發(fā)布公開信，宣布Meta計劃裁員超11000人，占其員工總數(shù)13%。他公開承認了自己的預判失誤：“不僅

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

昆侖萬維 2050 全球研究院聯(lián)合 NUS、NTU 發(fā)布 Vitron

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

跑分安卓第一！Redmi K60至尊版8月發(fā)布！盧偉冰：目標年度性能之王

K8S | Service服務發(fā)現(xiàn)

小紅書1周漲粉49W+，我總結(jié)了小白可以用的N條漲粉筆記

2023年，我眼中的字節(jié)跳動

本地生活這塊肥肉，拼多多也想吃一口

大廠卷向扁平化

電博會與軟博會實現(xiàn)"線下+云端"的雙線融合

Meta盲目擴張致超萬人被裁，重金押注元宇宙而前景未明

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊