當前位置：首頁 > 元宇宙 > AI

清華大學研發 LLM4VG 基準：用于評估 LLM 視頻時序定位性能

來源：責編：時間：2024-01-03 09:09:34 331觀看

導讀 12 月 29 日消息，大語言模型（LLM）的觸角已經從單純的自然語言處理，擴展到文本、音頻、視頻等多模態領域，而其中一項關鍵就是視頻時序定位（Video Grounding，VG）。VG 任務的目的基于給定查詢（一句描述），然后在目標視頻段中

12 月 29 日消息，大語言模型（LLM）的觸角已經從單純的自然語言處理，擴展到文本、音頻、視頻等多模態領域，而其中一項關鍵就是視頻時序定位（Video Grounding，VG）。

VG 任務的目的基于給定查詢（一句描述），然后在目標視頻段中定位起始和結束時間，核心挑戰在于時間邊界定位的精度。

清華大學研究團隊近日推出了“LLM4VG”基準，這是一個專門設計用于評估 LLM 在 VG 任務中的性能。

此基準考慮了兩種主要策略：第一種涉及直接在文本視頻數據集（VidLLM）上訓練的視頻 LLM，第二種是結合傳統的 LLM 與預訓練的視覺模型。

在第一種策略中，VidLLM 直接處理視頻內容和 VG 任務指令，根據其對文本-視頻的訓練輸出預測。

第二種策略更為復雜，涉及 LLM 和視覺描述模型。這些模型生成與 VG 任務指令集成的視頻內容的文本描述，通過精心設計的提示。

這些提示經過專門設計，可以有效地將 VG 的指令與給定的視覺描述結合起來，從而讓 LLM 能夠處理和理解有關任務的視頻內容。

據觀察，VidLLM 盡管直接在視頻內容上進行訓練，但在實現令人滿意的 VG 性能方面仍然存在很大差距。這一發現強調了在訓練中納入更多與時間相關的視頻任務以提高性能的必要性。

而第二種策略優于 VidLLM，為未來的研究指明了一個有希望的方向。該策略主要限制于視覺模型的局限性和提示詞的設計，因此能夠生成詳細且準確的視頻描述后，更精細的圖形模型可以大幅提高 LLM 的 VG 性能。

總之，該研究對 LLM 在 VG 任務中的應用進行了開創性的評估，強調了在模型訓練和提示設計中需要更復雜的方法。

附上論文參考地址：https://arxiv.org/pdf/2312.14206.pdf

本文鏈接：http://www.tebozhan.com/showinfo-45-3110-0.html清華大學研發 LLM4VG 基準：用于評估 LLM 視頻時序定位性能

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：廣汽埃安2023年銷量大放異彩，累計突破48萬輛大關

下一篇：教 AI 入侵 AI，科學家研發 Masterkey 新方式

標簽：

熱門焦點

中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

通過5G、AI等新技術更新換代，虛擬數字人為諸多下游行業帶來新的發展機會。虛擬數字人技術以其簡化性和精品性持續拓展泛娛樂、金融、教育、政務、醫療、零售等
頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

一場被國際奧委會主席評價堪稱獨具匠心、非凡卓越的2022年北京冬季奧運會，在這個“雙奧之城”經歷了16個令人難忘的精彩日夜，最終圓滿閉幕。讓我們印象深刻的不
元宇宙是數字共識生態的集成邏輯表達

作者: 李鳴元宇宙是數字共識生態的集成邏輯表達，是以區塊鏈技術為核心的可信數字化價值交互網絡，是基于Web3.0技術體系和運作機制支撐下的數字新生態。本體論是
“我沒搞懂元宇宙，但一天能賺9w塊”

作者：鄭宇軒最近幾個月，“元宇宙”爆火，除了 Facebook 改名為 Meta 高調進軍元宇宙外， BAT 為代表的大廠紛紛著手“元宇宙”新業務。剎那之間，元宇宙成為新風口，除了
元宇宙需要的5個重要安全功能

元宇宙的可能用途使其成為一個令人難以置信的概念，但是，就像科技界的任何事物一樣，需要做一些事情來控制其使用。元宇宙的安全功能需要仔細考慮和開發，以保護用戶
美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

今天，Billboard宣布與流行的NFT頭像集World of Women（WoW）建立新的伙伴關系，向NFT生態系統又邁進了一步。在這次合作中，WoW的創建者Yam Karkai將幫助這個音樂行業巨
冬奧會數字收藏品升溫，市場再現“一墩難求”

根據公開信息顯示，國際奧委會官方授權的冰墩墩數字盲盒于北京時間2月12日凌晨在nWayPlay平臺發售，總數為500個，每個99美元，每人限購5個。此外，不同的奧運徽章數字藏
76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

“元宇宙的開拓者”是我們針對元宇宙的發展而設立的專欄，主要面向那些深挖元宇宙產業或者在元宇宙進行“淘金”的從業者，分享這些企業或者創業者們的故事，以獨特
超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

在2021年《福布斯》區塊鏈50強榜單中，29家企業使用Hyperledger超級賬本技術，占比近60%。同年，研究機構Blockdata發布了的調查報告顯示，訪問Top100上市公司中，有 81

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

清華大學研發 LLM4VG 基準：用于評估 LLM 視頻時序定位性能

中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

元宇宙是數字共識生態的集成邏輯表達

“我沒搞懂元宇宙，但一天能賺9w塊”

元宇宙需要的5個重要安全功能

美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

冬奧會數字收藏品升溫，市場再現“一墩難求”

76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

最新推薦

B端難做：留給魔琺科技的時間不多了

25萬虛擬er在“元宇宙”追星

現在的元宇宙：一款低配版的科幻游戲

元宇宙風口下，視覺中國如何重估？

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

大廠打造元宇宙平臺的業務重心是什么？

猜你喜歡

熱門推薦

相關資訊