AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

清華大學研發 LLM4VG 基準:用于評估 LLM 視頻時序定位性能

來源: 責編: 時間:2024-01-03 09:09:34 331觀看
導讀 12 月 29 日消息,大語言模型(LLM)的觸角已經從單純的自然語言處理,擴展到文本、音頻、視頻等多模態領域,而其中一項關鍵就是視頻時序定位(Video Grounding,VG)。VG 任務的目的基于給定查詢(一句描述),然后在目標視頻段中

12 月 29 日消息,大語言模型(LLM)的觸角已經從單純的自然語言處理,擴展到文本、音頻、視頻等多模態領域,而其中一項關鍵就是視頻時序定位(Video Grounding,VG)。Wpz28資訊網——每日最新資訊28at.com

Wpz28資訊網——每日最新資訊28at.com

VG 任務的目的基于給定查詢(一句描述),然后在目標視頻段中定位起始和結束時間,核心挑戰在于時間邊界定位的精度。Wpz28資訊網——每日最新資訊28at.com

清華大學研究團隊近日推出了“LLM4VG”基準,這是一個專門設計用于評估 LLM 在 VG 任務中的性能。Wpz28資訊網——每日最新資訊28at.com

此基準考慮了兩種主要策略:第一種涉及直接在文本視頻數據集(VidLLM)上訓練的視頻 LLM,第二種是結合傳統的 LLM 與預訓練的視覺模型。Wpz28資訊網——每日最新資訊28at.com

Wpz28資訊網——每日最新資訊28at.com

在第一種策略中,VidLLM 直接處理視頻內容和 VG 任務指令,根據其對文本-視頻的訓練輸出預測。Wpz28資訊網——每日最新資訊28at.com

第二種策略更為復雜,涉及 LLM 和視覺描述模型。這些模型生成與 VG 任務指令集成的視頻內容的文本描述,通過精心設計的提示。Wpz28資訊網——每日最新資訊28at.com

這些提示經過專門設計,可以有效地將 VG 的指令與給定的視覺描述結合起來,從而讓 LLM 能夠處理和理解有關任務的視頻內容。Wpz28資訊網——每日最新資訊28at.com

據觀察,VidLLM 盡管直接在視頻內容上進行訓練,但在實現令人滿意的 VG 性能方面仍然存在很大差距。這一發現強調了在訓練中納入更多與時間相關的視頻任務以提高性能的必要性。Wpz28資訊網——每日最新資訊28at.com

Wpz28資訊網——每日最新資訊28at.com

而第二種策略優于 VidLLM,為未來的研究指明了一個有希望的方向。該策略主要限制于視覺模型的局限性和提示詞的設計,因此能夠生成詳細且準確的視頻描述后,更精細的圖形模型可以大幅提高 LLM 的 VG 性能。Wpz28資訊網——每日最新資訊28at.com

Wpz28資訊網——每日最新資訊28at.com

總之,該研究對 LLM 在 VG 任務中的應用進行了開創性的評估,強調了在模型訓練和提示設計中需要更復雜的方法。Wpz28資訊網——每日最新資訊28at.com

附上論文參考地址:https://arxiv.org/pdf/2312.14206.pdfWpz28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-3110-0.html清華大學研發 LLM4VG 基準:用于評估 LLM 視頻時序定位性能

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 廣汽埃安2023年銷量大放異彩,累計突破48萬輛大關

下一篇: 教 AI 入侵 AI,科學家研發 Masterkey 新方式

標簽:
  • 熱門焦點
Top