當前位置：首頁 > 元宇宙 > AI

GPT-4o 差點沒及格！首個多任務長視頻評測基準，它有億點難

來源：責編：時間：2024-06-25 17:11:53 142觀看

導讀難度大升級的多任務長視頻理解評測基準 MLVU 來了！由智源聯合北郵、北大和浙大等多所高校推出。究竟有多難呢？最終排名第一的 GPT-4o 單選正確率還不足 65%。而且研究發現，大部分模型的性能都會隨著視頻時長增加

難度大升級的多任務長視頻理解評測基準 MLVU 來了！由智源聯合北郵、北大和浙大等多所高校推出。究竟有多難呢？最終排名第一的 GPT-4o 單選正確率還不足 65%。

而且研究發現，大部分模型的性能都會隨著視頻時長增加顯著下降。

研究進一步證明，提升上下文窗口，提升圖像理解能力，以及使用更強大的 LLM Backbone 對長視頻理解的性能具有顯著的提升作用。

目前相關論文及數據集已公開，具體細節下面一起看看吧~

MLVU 的構建過程

當前流行的 Video Benchmark 主要針對短視頻設計，大部分視頻的長度都在 1 分鐘以內。

且現有評測基準往往專注在特定領域的視頻（例如電影、第一視角）和特定的視頻評測任務（例如 Captioning，Temporal Perception，Action Understanding）。

此外，現有部分長視頻理解評測任務往往只和局部幀有關，或者針對經典電影進行問答，這導致 MLLMs 可以直接憑借 text prompt 正確回答而無需對視頻進行分析。

針對以上不足，新基準 MLVU 從以下 3 個層面進行構建：

時長和來源更豐富

MLVU 的視頻時長覆蓋了 3 分鐘到超過 2 小時，平均視頻時長 12 分鐘，極大擴展了當前流行的 Video Benchmark 的時長范圍。

另外，MLVU 的大部分任務標注過程中進行了片段-問題對應標注。

例如，Video Summarization 任務分段標注了視頻的前 3 分鐘，前 6 分鐘……

這意味著，MLLMs 可以靈活地在 MLVU 上選擇測試不同時長情況下的長視頻理解能力。

同時，MLVU 收集了包括電影、電視劇、紀錄片、卡通動畫片、監控視頻、第一視角視頻和游戲視頻等多個類型的長視頻，覆蓋了長視頻理解的多個領域范圍。

任務類別更全面

團隊針對長視頻理解設計了 9 類不同的任務，并進一步將任務分為三類：全面理解、單細節理解、多細節理解。

全面理解任務：要求 MLLMs 理解和利用視頻的全局信息來解決問題

單細節理解任務：要求 MLLMs 根據問題定位長視頻中的某一細節，并利用該細節來解決問題

多細節理解任務：要去 MLLMs 定位和理解長視頻中的多個相關片段來完成和解決問題

此外，還包括了單項選擇題和開放生成式問題，全面考察 MLLMs 在不同場景下的長視頻理解能力。

以下為 9 大任務的示例：

問題設置與答案標注更合理

為了突出新舊基準變化，直接以情節問答（Plot Question Answering）任務為例。

假如以電影、電視的角色作為問題線索來對 MLLMs 進行提問，舊基準的常見問題有兩種。

一是挑“經典”下手，這導致 MLLMs 在沒有對視頻進行分析的情況下，直接使用了自有知識回答問題。

另一部分試圖避免這個問題，但由于長視頻的復雜性，僅僅利用代詞和描述性語句來指代情節細節非常困難。

他們的問題非常寬泛或者需要在問題中額外指定具體的時間片段而不是讓 MLLMs 自己根據題目尋找對應細節。

MLVU 通過精細的人工標注克服了這些問題。

在所有的情節問答任務中，MLVU 均使用“具有詳細細節的代詞”來指代情節中的人物、事件或背景，避免了問題泄露帶來的潛在影響，MLLMs 需要根據問題提供的線索識別和定位相關片段才能進一步解決問題。

此外，MLVU 的 Plot QA 問題具備豐富的多樣性，增強了評測的合理性和可靠性。

模型在 MLVU 上的表現

團隊在 MLVU 上對 20 個流行的 MLLM 進行了評測，包括開源模型和閉源模型。

實驗結果表明，盡管 GPT-4o 在所有任務中均取得了第 1 名，但它的單選平均準確率只有 64.6%。

且所有模型都在需要細粒度理解能力的任務上（單細節、多細節理解任務）表現糟糕。

此外，大部分模型的性能都會隨著視頻時長增加顯著下降。

另一明顯結論是，開源模型和閉源模型之間存在較大的差距。

開源模型中單項選擇題性能最強的 InternVL-1.5 單選平均準確度僅有 50.4%；開放生成式題目最強的 LLaMA-Vid 得分僅有 4.22，均遠遠落后于 GPT-4o 的 64.6% 和 5.80。

不過研究發現，提升上下文窗口，提升 MLLM 的圖像理解能力，以及使用更強大的 LLM Backbone 對長視頻理解的性能具有顯著的提升作用。

這揭示了未來 MLLMs 在提升長視頻理解能力的重要改進方向。

論文：

https://arxiv.org/abs/2406.04264

項目鏈接：

https://github.com/JUNJIE99/MLVU

本文來自微信公眾號：量子位（ID：QbitAI），作者：關注前沿科技

本文鏈接：http://www.tebozhan.com/showinfo-45-4772-0.htmlGPT-4o 差點沒及格！首個多任務長視頻評測基準，它有億點難

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：沒有授權也沒關系？多家 AI 公司被曝繞過網絡標準抓取新聞出版商網站內容

下一篇：斯坦福大模型評測榜 Claude 3 排名第一，阿里 Qwen2、零一萬物 Yi Large 國產模型進入前十

標簽：

熱門焦點

雷克薩斯高管，“受賄”5000萬？

來源：毒舌科技作者：潘磊雷克薩斯的高管，好像出事了。五六家日本小媒體，突然曝出了一個與中國市場有關的大新聞——雷克薩斯中國區一個高管受賄10億日元（約合人民幣5000
不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

作者：中科基大數據元宇宙是一個去中心化的開放平臺，而為了維護這樣的平臺，需要建立一個公平的游戲規則，確保每個元宇宙的參與者通過這個規則都可以掙到錢，他們的利益都可以得到保
游戲玩家才是最“元宇宙”的

01元宇宙的概念，最早由科幻作家尼爾·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一個脫胎于現實世界，又與現實世界平行、相互影響，并且始終在線的虛擬世
2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

在剛剛結束不久的2021年江蘇衛視跨年演唱會上，虛擬鄧麗君與歌手周深同臺聯唱，實現了跨時代合作，而這還不只是“鄧麗君”，嗶哩嗶哩、東方衛視等多家跨年晚會都出現
元宇宙風口下，視覺中國如何重估？

要說橫跨2021年和2022年，到目前仍然很火的概念，元宇宙肯定要算一個。不僅互聯網巨頭們紛紛布局，上市公司們趨之若鶩，還被不少地方政府寫入了產業規劃，大有在2022年
字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞，“得不到的永遠在騷動”，這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起，使得頭部游戲大廠感受
本周NFT領域重要資訊回顧

NFT在蘇富比拍賣是一波三折的嗎？其實不完全如此，但本周在蘇富比拍賣行發生了一系列有趣的事。與此同時，美聯社因其最新的NFT銷售被推到了風口浪尖，而Opensea正面臨
對諷刺無動于衷，Nori將碳市場放在區塊鏈上

當我們聊氣候問題的解決方案時，以太坊區塊鏈應該不是最首想到的，但這正是Nori所選擇的方案，它建立了一個引擎，鼓勵農民使用負碳耕作方法，將空氣中的碳抽出并放回地
TX加入的NFT數字收藏品，元宇宙的破圈之路?

3月7日，澳大利亞 NFT 初創公司 Immutable 在新加坡淡馬錫牽頭的R資中以估值 25 億美元完成2億美元R資，騰訊參投。想必國人最熟知的應該就是TX，作為國內四大互聯網

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

GPT-4o 差點沒及格！首個多任務長視頻評測基準，它有億點難

雷克薩斯高管，“受賄”5000萬？

不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

游戲玩家才是最“元宇宙”的

2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

元宇宙風口下，視覺中國如何重估？

字節覓《原神》，騰訊元宇宙，游戲新王戰舊神？

本周NFT領域重要資訊回顧

對諷刺無動于衷，Nori將碳市場放在區塊鏈上

TX加入的NFT數字收藏品，元宇宙的破圈之路?

最新推薦

游戲玩家才是最“元宇宙”的

數字經濟、數據要素與數字治理

過去女性在互聯網領域是半邊天，在Web3，將會是整片天！

對諷刺無動于衷，Nori將碳市場放在區塊鏈上

元宇宙不完全是想出來的，而是實打實做出來的

76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

猜你喜歡

熱門推薦

相關資訊