當(dāng)前位置：首頁 > 元宇宙 > AI

融合 ChatGPT+DALL?E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決

來源：責(zé)編：時間：2024-04-23 17:57:14 139觀看

導(dǎo)讀在開源社區(qū)中把 GPT-4+Dall?E 3 能?整合起來的模型該有多強？香港中文大學(xué)終身教授賈佳亞團隊提出多模態(tài)模型 Mini-Gemini：更高清圖像的精確理解、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更強的圖像解析推理能力，還能結(jié)合圖像推

在開源社區(qū)中把 GPT-4+Dall?E 3 能?整合起來的模型該有多強？

香港中文大學(xué)終身教授賈佳亞團隊提出多模態(tài)模型 Mini-Gemini：

更高清圖像的精確理解、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更強的圖像解析推理能力，還能結(jié)合圖像推理和生成，堪稱王炸。

Mini-Gemini 還提供了 2B 小杯到 34B 的超大杯，最強模型在多個指標上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多讓。

目前，Mini-Gemini 從代碼、模型到數(shù)據(jù)已全部開源，登上了 PaperWithCode 熱榜。

Mini-Gemini 線上 Demo 也已發(fā)布，超會玩梗，一起來體驗下！

接近商業(yè)閉源模型水平

Mini-Gemini Demo 放出后受到廣大網(wǎng)友關(guān)注，一番“品嘗”后，他們認為 Mini-Gemini 跟商業(yè)模型差不了多少。

目前，絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出，而在實際場景中，許多任務(wù)都需要對高清圖像進行解析，并用圖像的形式進行展現(xiàn)。

如下圖所示，Mini-Gemini 不僅能夠根據(jù)圖片對做面包的過程進行手把手教學(xué)，也能夠準確將不同電腦品種根據(jù)圖片中的各種參數(shù)進行對比。

有網(wǎng)友開玩笑說，這下媽媽不用擔(dān)心我獨自生活了。

更重要的是，Mini-Gemini 在保留超強的圖像理解和推理能力的同時，還解鎖了圖像的生成能力，就如同 ChatGPT 和生成模型的結(jié)合。

下面，讓我們通過幾個例子來更直觀地感受這種能力：

還記得 Google Gemini 的官方演示視頻么？當(dāng)用戶給出兩個毛線團并問出能用它們做什么時，Gemini 可以識別出圖片內(nèi)容并給出相應(yīng)的建議。

當(dāng)我們把相似的輸入給到 Mini-Gemini，它會怎么回答呢？

可以發(fā)現(xiàn)，Mini-Gemini 也可以識別出圖片中的元素，并且合理地建議，同時生成了一只對應(yīng)的毛線小熊。

通過一些抽象的多模態(tài)指令來讓模型給出推理，并生成合適的圖片，這個操作就很像是 ChatGPT 和 DALL?E 3 的聯(lián)動了。

接下來讓 Mini-Gemini 做自己最擅長的推理和圖片理解，看看它表現(xiàn)：

比如理解圖片中的矛盾點并舉一反三 —— 輸入冰川中的仙人掌，它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片：

圖片呈現(xiàn)了仙人掌的典型棲息地與冰的存在之間的視覺矛盾，因為在沙漠環(huán)境中自然不會出現(xiàn)冰。這種矛盾的類似例子可能是一只北極熊出現(xiàn)在熱帶雨林中，因為北極熊適應(yīng)于寒冷、覆蓋著冰的環(huán)境，在炎熱潮濕的氣候中無法生存。這種并置創(chuàng)造了一個引人注目且超現(xiàn)實的視覺效果，挑戰(zhàn)觀眾的期待，并可能引發(fā)人們對氣候變化、環(huán)境適應(yīng)或不同生態(tài)系統(tǒng)融合的思考。

同時，正如 ChatGPT+DALL?E 3 的夢幻結(jié)合一樣，Mini-Gemini 的“推理生成”功能還可以在多輪對話中通過簡單指令生成連環(huán)小故事。

比方說，讓它根據(jù)用戶輸入講一個貴族小老鼠的故事，Mini-Gemini 會根據(jù)前文的文字生成結(jié)果和用戶輸入進行推理，在保持一致性的情況下對圖片進行修改，使其更符合用戶的要求。

當(dāng)然，Mini-Gemini 對于多模態(tài)模型的傳統(tǒng)技能圖表理解也不在話下。比方讓模型理解輸入曲線圖的數(shù)學(xué)意義（高斯分布），并讓它使用代碼復(fù)現(xiàn)這張圖，通過運行生成的代碼，模型可以高質(zhì)量地還原曲線圖，節(jié)省了復(fù)現(xiàn)的時間。

又或者讓 Mini-Gemini 理解梗圖，通過其強大的 OCR 和推理能力，也可以準確指出笑點。

在另一個案例中，Mini-Gemini 除了理解梗圖本身，甚至推測了制作者的深層意圖。

高清復(fù)雜的多圖表理解和歸納也是小菜一碟，Mini-Gemini 直接秒變打工人效率提升的超級外掛。

技術(shù)細節(jié)：

那么問題來了，Mini-Gemini 是怎樣做到這種驚艷的效果呢？

核心在于三點：

(1) 用于高清圖像的雙編碼器機制

(2) 更高質(zhì)量的數(shù)據(jù)

(3) 訓(xùn)練階段結(jié)合生成模型數(shù)據(jù)拓展

大道至簡，Mini-Gemini 的整體思路并不復(fù)雜。其中的 Gemini（雙子座) 表達的是使用視覺雙分支的信息挖掘（Mining-Info in Gemini）解決高清圖像理解問題。

詳細來說，Mini-Gemini 將傳統(tǒng)所使用的 ViT 當(dāng)做低分辨率的 Query，而使用卷積網(wǎng)絡(luò)（ConvNet）將高分辨率的圖像編碼成 Key 和 Value。

使用 Transformer 中常用的 Attention 機制，來挖掘每個低分辨率 Query 所對應(yīng)的高分辨率區(qū)域。從而在保持最終視覺 Token 數(shù)目不變的情況下去提升對高清圖像的響應(yīng)，保證了在大語言模型（LLM）中對于高清圖像的高效編碼。

值得一提的是，由于高分辨率分支卷積網(wǎng)絡(luò)的使用，可以根據(jù)需要對圖像所需的分辨率自適應(yīng)調(diào)整。對于圖像的生成部分，Mini-Gemini 借助了 SDXL，使用 LLM 推理后所生成的文本鏈接兩個模型，類似于 DALL?E 3 的流程。

對于數(shù)據(jù)，Mini-Gemini 進一步收集并優(yōu)化了訓(xùn)練數(shù)據(jù)的質(zhì)量，并加入了跟生成模型結(jié)合的文本數(shù)據(jù)進行訓(xùn)練。在僅使用 2-3M 數(shù)據(jù)的情況下，實現(xiàn)了對圖像理解、推理和生成的統(tǒng)一流程。

Mini-Gemini 在各種 Zero-shot 的榜單上毫不遜色于各種大廠用大量數(shù)據(jù)訓(xùn)練出來的模型。

量化指標：

可以看出，Mini-Gemini 提供了多種普通和高清版本的模型，并且覆蓋了 2B 的小杯到 34B 的超大杯，各個版本都取得了相似參數(shù)量下領(lǐng)先的效果，在許多指標上甚至超越 Gemini Pro 和 GPT-4V。

在線可玩：

值得一提的是，Mini-Gemini 的圖像理解和生成能力已經(jīng)出了 Demo，可以在線跟自定義圖像對話的那種。

操作也極其簡單，直接跟輸入圖像或文字進行對話即可，歡迎來撩！

參考

Github 地址：https://github.com/dvlab-research/MiniGemini

Demo 地址：http://103.170.5.190:7860/

論文地址：https://arxiv.org/pdf/2403.18814.pdf

模型地址：https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

數(shù)據(jù)地址：https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

本文來自微信公眾號：量子位（ID：QbitAI），作者：允中

本文鏈接：http://www.tebozhan.com/showinfo-45-4061-0.html融合 ChatGPT+DALL?E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英國著手起草 AI 法規(guī)，確保其發(fā)展處于可控狀態(tài)

下一篇：大模型首次接入天文望遠鏡：“星語 3.0”發(fā)布，基于阿里通義千問

標簽：

熱門焦點

AIGC產(chǎn)品測評TOP25丨誰能搶到下個十年的“船票”？

Tech星球（微信ID：tech618）文 | 何煦陽策劃 | 楊曉鶴封面來源 | 圖蟲創(chuàng)意 2016年，李彥宏站在百度聯(lián)盟峰會的講臺上，向所有人宣布：互聯(lián)網(wǎng)的下一幕是人工智能。同年，Google 旗下 Dee
花房集團上市，走向元宇宙新征程

文 | 港股研究社作者 | 熊生12月12日，花房集團在港交所成功上市，首日便受到追捧，當(dāng)日最高漲幅達28.75%。繼360、360數(shù)科、魯大師后，這是“紅衣教主”周
一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

當(dāng)數(shù)字人成為一種生意，我們更關(guān)心的是，他們?nèi)绾钨嵉藉X，以及這意味著什么？01#“柳夜熙”爆火之后不知道大家還記不記得，去年10月31日萬圣節(jié)，有一位虛擬美妝
網(wǎng)易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發(fā)商米哈游宣布創(chuàng)立元宇宙品牌】《原神》開發(fā)商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務(wù)為全球玩家創(chuàng)造并提供沉浸式虛擬世界體
從虛擬餐廳到虛擬時裝秀，行業(yè)巨頭掀起元宇宙商標注冊潮

自從 Facebook 更名為 Meta 后，關(guān)于元宇宙的討論愈發(fā)激烈，這一詞匯也越來越多的出現(xiàn)在我們的視野里。這是一個非常有趣的話題。伴隨著爭論，有些人認為是馬克·扎
Shiba Inu布局元宇宙走出Meme局限

以「狗狗幣殺手」成名的Shiba Inu（SHIB）在人們的印象中始終有著濃厚的Meme（模因惡搞）烙印，但它似乎一直在嘗試突破這種局限。建立起一個龐大的粉絲社區(qū)后，Shiba Inu
NFT教育要從娃娃抓起！這些青少年藝術(shù)家已經(jīng)賺取了幾千萬美金

一些藝術(shù)家通過將他們的創(chuàng)作作為NFT出售而獲得了巨大收益。令人驚訝的是，許多賺取了數(shù)百萬美元的藝術(shù)家們?nèi)栽谧x高中。這可能有點讓人難以置信。然而，請記住，在短
知識產(chǎn)權(quán)可能在元宇宙中“消失”？

開篇老雅痞先來劃重點：一些公司開始采取積極的方式來保護他們在元宇宙的知識產(chǎn)權(quán)。耐克、愛馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識產(chǎn)權(quán)。Inside
藝術(shù)創(chuàng)作者能否永久收取版稅？

NFTs正在改變我們理解互聯(lián)網(wǎng)所有權(quán)的方式，社區(qū)管理的所有權(quán)有很多好處，但如果創(chuàng)作者想為他/她的創(chuàng)作獲得永久的收益（版稅），會發(fā)生什么？這不是一個容易解決的問題，版稅

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

融合 ChatGPT+DALL?E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決

AIGC產(chǎn)品測評TOP25丨誰能搶到下個十年的“船票”？

花房集團上市，走向元宇宙新征程

一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

網(wǎng)易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

從虛擬餐廳到虛擬時裝秀，行業(yè)巨頭掀起元宇宙商標注冊潮

Shiba Inu布局元宇宙走出Meme局限

NFT教育要從娃娃抓起！這些青少年藝術(shù)家已經(jīng)賺取了幾千萬美金

知識產(chǎn)權(quán)可能在元宇宙中“消失”？

藝術(shù)創(chuàng)作者能否永久收取版稅？

最新推薦

元宇宙將會如何塑造未來的工作方式？

米哈游推出元宇宙品牌；VR/AR老牌企業(yè)當(dāng)紅齊天完成B輪+融資

從虛擬餐廳到虛擬時裝秀，行業(yè)巨頭掀起元宇宙商標注冊潮

權(quán)限風(fēng)波過后 X2Y2如何挑戰(zhàn)OpenSea？

音樂NFT平臺里的下一匹黑馬是誰？

76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

猜你喜歡

熱門推薦

相關(guān)資訊