當(dāng)前位置：首頁 > 元宇宙 > AI

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個面向真實場景的多模態(tài)創(chuàng)造力評測基準(zhǔn)

來源：責(zé)編：時間：2025-04-06 08:33:54 27觀看

導(dǎo)讀近來風(fēng)頭正盛的 GPT-4.5，不僅在日常問答中展現(xiàn)出驚人的上下文連貫性，在設(shè)計、咨詢等需要高度創(chuàng)造力的任務(wù)中也大放異彩。當(dāng) GPT-4.5 在創(chuàng)意寫作、教育咨詢、設(shè)計提案等任務(wù)中展現(xiàn)出驚人的連貫性與創(chuàng)造力時，一個

近來風(fēng)頭正盛的 GPT-4.5，不僅在日常問答中展現(xiàn)出驚人的上下文連貫性，在設(shè)計、咨詢等需要高度創(chuàng)造力的任務(wù)中也大放異彩。

當(dāng) GPT-4.5 在創(chuàng)意寫作、教育咨詢、設(shè)計提案等任務(wù)中展現(xiàn)出驚人的連貫性與創(chuàng)造力時，一個關(guān)鍵問題浮出水面：

多模態(tài)大模型（MLLMs）的“創(chuàng)造力天花板”究竟在哪里？

寫一篇基于圖片的短篇小說、分析一張復(fù)雜的教學(xué)課件、甚至設(shè)計一份用戶界面……

這些對于人類駕輕就熟的任務(wù)，對于現(xiàn)有的部分多模態(tài)大模型卻往往是“高難動作”。

但現(xiàn)有的評測基準(zhǔn)首先難以衡量多模態(tài)大模型的輸出是否具有創(chuàng)造性的見解，同時部分情境過于簡單，難以真實反映模型在復(fù)雜場景下的創(chuàng)造性思維。

如何科學(xué)量化“多模態(tài)創(chuàng)造力”？

為此，浙江大學(xué)聯(lián)合上海人工智能實驗室等團隊重磅發(fā)布 Creation-MMBench——

全球首個面向真實場景的多模態(tài)創(chuàng)造力評測基準(zhǔn)，覆蓋四大任務(wù)類別、51 項細粒度任務(wù)，用 765 個高難度測試案例，為 MLLMs 的“視覺創(chuàng)意智能”提供全方位體檢。

為何我們要關(guān)注“視覺創(chuàng)造智能”？

在人工智能的“智力三元論”中，創(chuàng)造性智能（Creative Intelligence）始終是最難評估和攻克的一環(huán)，主要涉及的是在不同背景下生成新穎和適當(dāng)解決方案的能力。

現(xiàn)有的 MLLM 評測基準(zhǔn)，如 MMBench、MMMU 等，往往更偏重分析性或?qū)嵱眯匀蝿?wù)，卻忽略了多模態(tài) AI 在真實生活中常見的“創(chuàng)意類任務(wù)”。

雖然存在部分多模態(tài)基準(zhǔn)納入了對模型創(chuàng)意力的考察，但他們規(guī)模較小，多為單圖，且情境簡單，普通的模型即可輕松回答出對應(yīng)問題。

相較而言，Creation-MMBench 設(shè)置的情境復(fù)雜，內(nèi)容多樣，且單圖 / 多圖問題交錯，能更好的對多模態(tài)大模型創(chuàng)意力進行考察。

舉個例子

讓模型扮演一位博物館講解員，基于展品圖像生成一段引人入勝的講解詞。

讓模型化身散文作家，圍繞人物照片撰寫一篇情感性和故事性兼?zhèn)涞纳⑽摹?span style="display:none">k0p28資訊網(wǎng)——每日最新資訊28at.com

讓模型親自上任作為米其林大廚，給萌新小白解讀菜肴照片并用一份細致入微的菜品引領(lǐng)菜鳥入門。

在這些任務(wù)中，模型需要同時具備“視覺內(nèi)容理解 + 情境適應(yīng) + 創(chuàng)意性文本生成”的能力，這正是現(xiàn)有基準(zhǔn)難以評估的核心能力。

Creation-MMBench 有多硬核？1. 真實場景 × 多模態(tài)融合：從“紙上談兵”到“實戰(zhàn)演練”

四大任務(wù)類型：Creation-MMBench 共有 51 個任務(wù)，主要可分為四個類別，分別是

文學(xué)創(chuàng)作：專注于文學(xué)領(lǐng)域的創(chuàng)作活動，包括詩歌、對話、故事等形式的寫作。這一類別旨在評估模型在藝術(shù)性和創(chuàng)造性表達方面的能力，例如生成富有情感的文字、構(gòu)建引人入勝的敘事或塑造生動的角色形象。典型人物包括故事續(xù)寫、詩歌撰寫等。

日常功能性寫作：聚焦于日常生活中常見的功能性寫作任務(wù)，例如社交媒體內(nèi)容撰寫、公益事業(yè)倡議等。這類任務(wù)強調(diào)實用性，考察模型在處理真實場景中常見寫作需求時的表現(xiàn)，例如撰寫電子郵件、回答生活中的實際問題等。

專業(yè)功能性寫作：關(guān)注專業(yè)領(lǐng)域內(nèi)的功能性寫作和創(chuàng)造性問題解決能力。具體任務(wù)包括室內(nèi)設(shè)計、教案撰寫、風(fēng)景導(dǎo)游詞創(chuàng)作等。這一類別要求模型具備較強的專業(yè)知識背景和邏輯推理能力，能夠應(yīng)對較為復(fù)雜且高度專業(yè)化的工作場景。

多模態(tài)理解與創(chuàng)作：注重視覺理解與創(chuàng)造力的結(jié)合，涉及文檔解析、攝影作品欣賞等任務(wù)。此類別評估模型在處理多模態(tài)信息（如文本與圖像結(jié)合）時的表現(xiàn)，考察其是否能夠從視覺內(nèi)容中提取關(guān)鍵信息，并將其轉(zhuǎn)化為有意義的創(chuàng)意輸出。

千張跨域圖像：在圖像上，Creation-MMBench 橫跨藝術(shù)作品、設(shè)計圖紙、生活場景等近 30 個類別，涉及千張不同圖片。單任務(wù)最多支持 9 圖輸入，逼真還原真實創(chuàng)作環(huán)境。

復(fù)雜現(xiàn)實情境：對于每一個實例，都基于真實圖像進行標(biāo)注，配套明確角色、特定背景、任務(wù)指令與額外要求四部分共同組成問題。同時，相較于其他廣泛使用的多模態(tài)評測基準(zhǔn)，Creation-MMBench 具有更全面和復(fù)雜的問題設(shè)計，大多數(shù)問題的長度超過 500 個詞元，這有助于模型捕捉更豐富的創(chuàng)意上下文。

2. 雙重評估體系：拒絕“主觀臆斷”，量化創(chuàng)意質(zhì)量

在評估策略上，團隊選擇了使用多模態(tài)大模型作為評判模型，同時使用兩個不同指標(biāo)進行雙重評估。

視覺事實性評分（VFS）：確保模型不是“瞎編”—— 必須讀懂圖像細節(jié)。

對于部分實例，需要首先對模型對圖像的基礎(chǔ)理解能力進行評估，以避免胡亂創(chuàng)作騙得高分。團隊對這類實例逐個制定了視覺事實性標(biāo)準(zhǔn)，對圖片關(guān)鍵細節(jié)進行嚴(yán)卡，按點打分。

創(chuàng)意獎勵分（Reward）：不僅看懂圖，更得寫得好、寫得巧！

除了基礎(chǔ)理解能力外，Creation-MMBench 更注重考察的是模型結(jié)合視覺內(nèi)容的創(chuàng)造性能力與表述能力。因為每個實例的角色、背景、任務(wù)指令與額外要求均存在不同，因此團隊成員對每個實例制定了貼合的評判標(biāo)準(zhǔn)，從表達流暢性、邏輯連貫性到創(chuàng)意新穎性等多方面進行評價。

此外，為了確保評判的公正性和一致性，GPT-4o 作為評判模型，會充分結(jié)合評判標(biāo)準(zhǔn)、畫面內(nèi)容、模型回復(fù)等內(nèi)容，在雙向評判（即評估過程中對兩個模型位置進行互換，避免評估偏差）下給出模型回復(fù)與參考答案（非標(biāo)準(zhǔn)答案）的相對偏好。

為了驗證評判模型和采用的評判策略的可靠性，團隊招募了志愿者對 13% 的樣本進行人工評估，結(jié)果如上圖所示。相較于其他評判模型，GPT-4o 展現(xiàn)出了更強的人類偏好一致性，同時也證明了雙向評判的必要性。

實驗結(jié)果：開源 vs 閉源，誰才是創(chuàng)意王者？！

團隊基于 VLMEvalKit 工具鏈，對 20 多個主流 MLLMs 進行了全面評估，包括 GPT-4o、Gemini 系列、Claude 3.5，以及 Qwen2.5-VL、InternVL 等開源模型。

整體而言，與 GPT-4o 相比，Gemini-2.0-Pro 展現(xiàn)出了更為出眾的多模態(tài)創(chuàng)意性寫作能力，在部分任務(wù)如日常功能性寫作上能有效的整合圖像生成貼合日常生活的內(nèi)容。

它強大的先驗知識也在專業(yè)功能性寫作上極大的幫助了它，但對于部分細粒度視覺內(nèi)容理解上，仍與 GPT-4o 存在不小的差距。

令人驚訝的是，主打創(chuàng)意寫作的 GPT-4.5 的整體表現(xiàn)卻弱于 Gemini-pro 和 GPT-4o，但在多模態(tài)內(nèi)容理解及創(chuàng)作任務(wù)上展現(xiàn)出了較為出眾的能力。

開源模型如 Qwen2.5-VL-72B，InternVL2.5-78B-MPO 等也展現(xiàn)出了與閉源模型可以匹敵的創(chuàng)作能力，但整體而言仍與閉源模型存在一定差距。

從類別上表現(xiàn)來看，專業(yè)功能性寫作由于對專業(yè)性知識的需求高、對視覺內(nèi)容的理解要求深因而對模型的問題難度較大，而日常功能性寫作由于貼近日常社交生活，情境和視覺內(nèi)容相對簡單，因而整體表現(xiàn)相對較弱的模型也能有良好的表現(xiàn)。盡管大多數(shù)模型在多模態(tài)理解與創(chuàng)作這一任務(wù)類型上視覺事實性評分較高，但它們基于視覺內(nèi)容的再創(chuàng)作仍然存在一定瓶頸。

為了更好地比較模型的客觀性能與其視覺創(chuàng)造力，團隊使用 OpenCompass 多模態(tài)評測榜單的平均分來表示整體客觀性能。

如上圖所示，部分模型盡管在客觀性能上表現(xiàn)強勁，但在開放式視覺創(chuàng)造力任務(wù)中卻表現(xiàn)不佳。這些模型往往在有明確答案的任務(wù)中表現(xiàn)出色，但在生成具有創(chuàng)造性和情境相關(guān)的內(nèi)容方面卻顯得不足。這種差異說明傳統(tǒng)的客觀指標(biāo)可能無法完全捕捉模型在復(fù)雜現(xiàn)實場景中的創(chuàng)造能力，因而證明了 Creation-MMBench 填補這一領(lǐng)域的重要性。

進一步探索：視覺微調(diào)是把雙刃劍

當(dāng)前大語言模型的創(chuàng)作能力評判基準(zhǔn)多集中于特定主題（如生成科研 idea），相對較為單一且未能揭示 LLM 在多種不同日常場景中的創(chuàng)作能力。

因此團隊使用 GPT-4o 對圖像內(nèi)容進行細致描述，構(gòu)建了純文本的 Creation-MMBench-TO。

從純語言模型的評測結(jié)果來看，閉源 LLM 的創(chuàng)作能力略優(yōu)于開源的 LLMs，令人驚訝的是，GPT-4o 在 Creation-MMBench-TO 上的創(chuàng)意獎勵分更高。這可能是因為該模型能夠在描述的幫助下更專注于發(fā)散思維和自由創(chuàng)作，從而減少基本視覺內(nèi)容理解對創(chuàng)造力的負面影響。

同時為了進一步調(diào)查視覺指令微調(diào)對 LLM 的影響，團隊進行了對比實驗，結(jié)果表明，經(jīng)過視覺指令微調(diào)的開源多模態(tài)大模型在 Creation-MMBench-TO 上的表現(xiàn)始終低于相應(yīng)的語言基座模型。

這可能是由于微調(diào)過程中使用的問答對長度相對有限，限制了模型理解較長文本中詳細內(nèi)容的能力，進而無法代入情境進行長文本創(chuàng)作，從而導(dǎo)致視覺事實性評分和創(chuàng)意獎勵分均相對較低。

團隊同樣還對部分模型進行了定性研究，如上圖所示。任務(wù)類型為軟件工程圖像解釋，從屬于專業(yè)功能性寫作。

結(jié)果顯示，Qwen2.5-VL 由于對特定領(lǐng)域知識理解不足，將泳道圖誤判為數(shù)據(jù)流圖，從而導(dǎo)致后續(xù)的圖表分析錯誤。

相比之下，GPT-4o 有效避免了這個錯誤，其整體語言更加專業(yè)和結(jié)構(gòu)化，展示了對圖表更準(zhǔn)確和詳細的解釋，從而獲得了評審模型的青睞。

這個例子也反映了特定學(xué)科知識和對圖像內(nèi)容的詳細理解在這一類任務(wù)中的重要作用，表現(xiàn)出了開源模型和閉源模型間仍存在一定差距。

總結(jié)：

Creation-MMBench 是一個新穎的基準(zhǔn)，旨在評估多模態(tài)大模型在現(xiàn)實場景中的創(chuàng)作能力。該基準(zhǔn)包含 765 個實例，涵蓋 51 個詳細任務(wù)。

對于每個實例，他們撰寫了對應(yīng)的評判標(biāo)準(zhǔn)，以評估模型回復(fù)的質(zhì)量和視覺事實性。

此外，團隊通過用相應(yīng)的文本描述替換圖像輸入，創(chuàng)建了一個僅文本版本 Creation-MMBench-TO。對這兩個基準(zhǔn)的實驗全面的評估了主流多模態(tài)大模型的創(chuàng)作能力，并探查出了視覺指令微調(diào)對模型的潛在負面影響。

Creation-MMBench 現(xiàn)已集成至 VLMEvalKit，支持一鍵評測，完整評估你的模型在創(chuàng)意任務(wù)中的表現(xiàn)。想知道你的模型能不能講好一個圖像里的故事？

來試試 Creation-MMBench 一鍵跑分，用數(shù)據(jù)說話。

Paper：https://arxiv.org/abs/2503.14478

Github：https://github.com/open-compass/Creation-MMBench

HomePage：https://open-compass.github.io/Creation-MMBench/

本文來自微信公眾號：量子位（ID：QbitAI），作者：上海 AI Lab 團隊，原標(biāo)題《GPT-4.5 創(chuàng)造力比 GPT-4o 弱！浙大上海 AI Lab 發(fā)布新基準(zhǔn)，尋找多模態(tài)創(chuàng)造力天花板》

本文鏈接：http://www.tebozhan.com/showinfo-45-11958-0.htmlGPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個面向真實場景的多模態(tài)創(chuàng)造力評測基準(zhǔn)

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：非洲人工智能峰會啟幕：千余代表共議人口紅利，AI超級計算中心計劃亮相

下一篇：谷歌拉響通用人工智能警報，首次公開 AI 安全防御藍圖

標(biāo)簽：

熱門焦點

元宇宙終究沒火過兩年

來源：傳播體操在ChatGPT快速破圈的同時，元宇宙的熱度卻一瀉千里。雖然互聯(lián)網(wǎng)大廠們都沒有否認元宇宙的長期想象力，但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
不同于傳統(tǒng)數(shù)字經(jīng)濟，元宇宙賦予商業(yè)生態(tài)更多數(shù)字資產(chǎn)價值！

作者：中科基大數(shù)據(jù)元宇宙是一個去中心化的開放平臺，而為了維護這樣的平臺，需要建立一個公平的游戲規(guī)則，確保每個元宇宙的參與者通過這個規(guī)則都可以掙到錢，他們的利益都可以得到保
AI特效、虛擬人、數(shù)字盲盒，來看看元宇宙如何融合冬奧會！

今天是冬奧會比賽的第12天，截至目前所累計的成績，中國代表團已經(jīng)取得了冬奧歷史最佳戰(zhàn)績。全世界的人都在關(guān)注著這場盛事，為奧運健兒吶喊助威。谷愛凌、徐夢桃、
上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

區(qū)塊鏈日報17日訊今日《元宇宙新鮮事》有：上海虹口將成立總額約10億元的元宇宙產(chǎn)業(yè)基金；香港市場首只元宇宙主題ETF擬于2月21日上市；元宇宙平臺Roblox出現(xiàn)違禁游
2030年的元宇宙產(chǎn)業(yè)將會如何發(fā)展？

對互聯(lián)網(wǎng)巨頭傳統(tǒng)業(yè)務(wù)的反壟斷政策倒逼互聯(lián)網(wǎng)企業(yè)顛覆創(chuàng)新，尋找新的增長點，移動互聯(lián)網(wǎng)流量空間見頂之際，元宇宙時代紅利已然開啟。序章：元宇宙應(yīng)用場景大猜想元宇
Terra鏈上TVL躍升至第二

據(jù)DefiLlama數(shù)據(jù)顯示，當(dāng)前,Terra鏈上應(yīng)用鎖倉的加密資產(chǎn)價值（TVL）為172.1億美元，在公鏈板塊中已躍升至第二，超越了幣安智能鏈TVL的118億美元，TVL排名居首的仍為以太
NFT：新騙局的狩獵場

騙局的自動化需要更好的防御，從數(shù)字身份開始。前幾天我在OpenSea上購買了一個NFT，是才華橫溢的藝術(shù)家海倫·福爾摩斯 (Helen Holmes) 的漫畫，來自她的 "原作 "收
頭像類NFTs的統(tǒng)治能持續(xù)多久？

在過去的一兩年里，NFTs在互聯(lián)網(wǎng)世界中掀起了一場風(fēng)暴。今天，當(dāng)我們想到NFTs時，我們主要想到的是那些充斥著我們的社交媒體屏幕的數(shù)字卡通--無聊猿、punks 和介于
虛擬偶像行業(yè)的商用價值逐漸凸顯，IP生態(tài)圈也逐漸成型

六月的第一個周六，一場虛擬偶像七海Nana7mi的個人3D演唱會在萬代南夢宮上海文化中心舉行，相較于洛天依、百大UP主泠鳶yousa等，這位虛擬Up主在B站上的粉絲數(shù)43.6萬

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個面向真實場景的多模態(tài)創(chuàng)造力評測基準(zhǔn)

元宇宙終究沒火過兩年

不同于傳統(tǒng)數(shù)字經(jīng)濟，元宇宙賦予商業(yè)生態(tài)更多數(shù)字資產(chǎn)價值！

AI特效、虛擬人、數(shù)字盲盒，來看看元宇宙如何融合冬奧會！

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

2030年的元宇宙產(chǎn)業(yè)將會如何發(fā)展？

Terra鏈上TVL躍升至第二

NFT：新騙局的狩獵場

頭像類NFTs的統(tǒng)治能持續(xù)多久？

虛擬偶像行業(yè)的商用價值逐漸凸顯，IP生態(tài)圈也逐漸成型

最新推薦

上、中、下游加深融合，搭建元宇宙產(chǎn)業(yè)全景

虛擬數(shù)字人：元宇宙的主角破圈而來

NFT 技術(shù)將傳世之作帶入博物館

知識產(chǎn)權(quán)可能在元宇宙中“消失”？

知名藝術(shù)家打造去中心化“好萊塢”：一部電影一個DAO

Staking 收益翻倍？

猜你喜歡

熱門推薦

相關(guān)資訊