AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 資訊

字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容

來源: 責編: 時間:2024-01-10 17:23:42 220觀看
導讀Vista-LLaMA 在處理長視頻內容方面的顯著優勢,為視頻分析領域帶來了新的解決框架。近年來,大型語言模型如 GPT、GLM 和 LLaMA等在自然語言處理領域取得了顯著進展,基于深度學習技術能夠理解和生成復雜的文本內容。然而,將

Vista-LLaMA 在處理長視頻內容方面的顯著優勢,為視頻分析領域帶來了新的解決框架。w5z28資訊網——每日最新資訊28at.com

近年來,大型語言模型如 GPT、GLM 和 LLaMA等在自然語言處理領域取得了顯著進展,基于深度學習技術能夠理解和生成復雜的文本內容。然而,將這些能力擴展到視頻內容理解領域則是一個全新的挑戰 ——視頻不僅包含豐富多變的視覺信息,還涉及時間序列的動態變化,這使得大語言模型從視頻中提取信息變得更為復雜。w5z28資訊網——每日最新資訊28at.com

面對這一挑戰,字節跳動聯合浙江大學提出了能夠輸出可靠視頻描述的多模態大語言模型 Vista-LLaMA。Vista-LLaMA專門針對視頻內容的復雜性設計,能夠有效地將視頻幀轉換為準確的語言描述,從而極大地提高了視頻內容分析和生成的質量。w5z28資訊網——每日最新資訊28at.com

640.png

論文主頁:https://jinxxian.github.io/Vista-LLaMA/w5z28資訊網——每日最新資訊28at.com

640.jpeg

圖 1w5z28資訊網——每日最新資訊28at.com

技術創新路徑w5z28資訊網——每日最新資訊28at.com

現有多模態視覺與語言模型在處理視頻內容時,通常將視頻幀轉化為一系列的視覺 token,并與語言 token結合以生成文本。然而,隨著生成文本長度的增加,視頻內容的影響往往逐漸減弱,導致生成的文本越來越多地偏離原視頻內容,產生所謂的 “幻覺” 現象。w5z28資訊網——每日最新資訊28at.com

Vista-LLaMA 通過創新的方式處理視頻和文本間的復雜互動,突破了傳統視頻語言模型的限制。Vista-LLaMA 的核心創新在于其獨特的視覺與語言token 處理方式。不同于其他模型,它通過維持視覺和語言 token間的均等距離,有效避免了文本生成中的偏差,尤其是在長文本中更為顯著。這種方法大幅提高了模型對視頻內容的理解深度和準確性。w5z28資訊網——每日最新資訊28at.com

640 (1).jpeg

圖 2w5z28資訊網——每日最新資訊28at.com

Vista-LLaMA 采用了一種改良的注意力機制 —— 視覺等距離 token 注意力(EDVT),它在處理視覺與文本 token時去除了傳統的相對位置編碼,同時保留了文本與文本之間的相對位置編碼。EDVT 機制通過特定的函數處理隱藏層輸入,有效區分視覺 token 來源。w5z28資訊網——每日最新資訊28at.com

640 (1).png

具體而言,它首先對輸入進行查詢、鍵和值的映射轉換,接著對查詢和鍵輸入應用旋轉位置編碼(RoPE),分別計算帶 RoPE 和不帶 RoPE的注意力權重。隨后,根據視覺 token 的存在與否合并這兩種注意力權重,通過 softmax函數實現注意力的歸一化,并最終通過基于注意力權重的線性映射更新表示,生成輸出結果。這種創新使得多模態大語言模型能夠更加關注視頻的內容,尤其在復雜的視頻場景中,能夠有效地捕捉關鍵視覺元素,提升了文本生成的質量和相關性。w5z28資訊網——每日最新資訊28at.com

640 (2).png

圖 3w5z28資訊網——每日最新資訊28at.com

同時,該模型引入的序列化視覺投影器為視頻中的時間序列分析提供了新的視角,它不僅能夠處理當前視頻幀,還能利用前一幀的信息,從而增強視頻內容的連貫性和時序邏輯。w5z28資訊網——每日最新資訊28at.com

視覺投影器的作用是將視頻特征映射到語言嵌入空間,以便大型語言模型融合和處理視覺與文本輸入。如圖 4所示,早期的視覺投影器通常使用線性層或查詢轉換器(Q-Former)直接將幀特征轉換為語言token。然而,這些方法忽略了時間關系,限制了語言模型對視頻的全面理解。Vista-LLaMA 中引入了序列化視覺投影器,它通過線性投影層編碼視覺 token的時間上下文,增強了模型對視頻動態變化的理解能力,這對于提升視頻內容分析的質量至關重要。w5z28資訊網——每日最新資訊28at.com

640 (3).png

圖 4w5z28資訊網——每日最新資訊28at.com

基準測試結果w5z28資訊網——每日最新資訊28at.com

Vista-LLaMA 在多個開放式視頻問答基準測試中展現了卓越性能。它在 NExT-QA 和 MSRVTT-QA測試中取得了突破性成績,這兩個測試是衡量視頻理解和語言生成能力的關鍵標準。在零樣本 NExT-QA 測試中,Vista-LLaMA 實現了 60.7%的準確率。而在 MSRVTT-QA 測試中達到了 60.5% 的準確率,超過了目前所有的 SOTA 方法。這些成績在行業中屬于先進水平,顯著超越了其他 SOTA模型,如 Video-ChatGPT 和 MovieChat。w5z28資訊網——每日最新資訊28at.com

640 (4).png

圖 5w5z28資訊網——每日最新資訊28at.com

640 (5).png

這些測試結果證明了 Vista-LLaMA 在視頻內容理解和描述生成方面的高效性和精準性,Vista-LLaMA能夠準確理解和描述視頻內容,顯示了其強大的泛化能力。這些成績不僅展示了 Vista-LLaMA在理解復雜視頻內容方面的能力,還證明了其在多模態語言處理領域的領先地位。w5z28資訊網——每日最新資訊28at.com

數據集:CineClipQAw5z28資訊網——每日最新資訊28at.com

640 (6).png

圖 6w5z28資訊網——每日最新資訊28at.com

與 Vista-LLaMA 一同提出的還有 CineClipQA 新數據集。w5z28資訊網——每日最新資訊28at.com

CineClipQA 包含了 153 個精選視頻片段,這些片段來自五部風格和敘事手法各異的電影。每個片段代表電影情節的一個或多個獨特部分,并附有 16個量身定制的問題,共計 2448 個問題。問題分為系統提示和問題兩部分:w5z28資訊網——每日最新資訊28at.com

● 系統提示提供了當前視頻片段中關鍵角色的基本信息,并在必要時為角色的初始行動提供提示。w5z28資訊網——每日最新資訊28at.com

●問題主要分為五類:識別、時間性(預測)、空間性(互動)、意圖和感知。具體來說,識別包括地點和行動的問題;時間性涉及下一個行動、之前的行動、同時發生的行動和預測行動的問題;空間性涉及物體與人之間的空間信息問題;意圖涉及行動目的地三種相似問題;感知檢查情感識別和詢問“如何”(方式、態度等)。w5z28資訊網——每日最新資訊28at.com

該研究還提供了所有 16 種類型的詳細解釋和相應案例。在 CineClipQA 數據集中,Vista-LLaMA 也表現出了卓越的性能。w5z28資訊網——每日最新資訊28at.com

640 (7).png

圖 7w5z28資訊網——每日最新資訊28at.com

簡言之,Vista-LLaMA在處理長視頻內容方面的顯著優勢,為視頻分析領域帶來了新的解決框架,推動人工智能在視頻處理和內容創作方面的發展,預示著未來多模態交互和自動化內容生成領域的廣泛機遇。w5z28資訊網——每日最新資訊28at.com

更多詳情,請訪問項目頁面 [https://jinxxian.github.io/Vista-LLaMA]。w5z28資訊網——每日最新資訊28at.com

關于字節跳動智能創作團隊w5z28資訊網——每日最新資訊28at.com

智能創作團隊是字節跳動音視頻創新技術和業務中臺,覆蓋了計算機視覺、圖形學、語音、拍攝編輯、特效、客戶端、服務端工程等技術領域,借助字節跳動豐富的業務場景、基礎設施資源和良好的技術協作氛圍,實現了前沿算法- 工程系統 -產品全鏈路的閉環,旨在以多種形式向公司內部各業務線以及外部合作客戶提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。w5z28資訊網——每日最新資訊28at.com

目前,智能創作團隊已通過字節跳動旗下的云服務平臺火山引擎向企業開放技術能力和服務。(作者:彭傲晴)w5z28資訊網——每日最新資訊28at.com

舉報 0收藏 0打賞 0評論 0
 
 
更多>同類資訊
點擊查看更多 +
全站最新
奇瑞汽車預計2024年汽車行業增長低位,但仍堅持高質量發展路線
奇瑞汽車預計2024年汽車行業增長低位,但仍堅持高質量發展路線
TCL震撼CES 2024:發布115英寸QM891G電視,引領畫質新紀元
TCL震撼CES 2024:發布115英寸QM891G電視,引領畫質新紀元
TCL QM891G電視閃耀CES 2024:115英寸巨幕引領視聽新風尚
TCL QM891G電視閃耀CES 2024:115英寸巨幕引領視聽新風尚
CES 2024:三星發布“AI for All”愿景
CES 2024:三星發布“AI for All”愿景
特斯拉Model Y創歷史:首次登頂全球最暢銷車型,力壓豐田卡羅拉
特斯拉Model Y創歷史:首次登頂全球最暢銷車型,力壓豐田卡羅拉
上汽大眾2024款ID.3極智版新登場,科技與舒適并存
上汽大眾2024款ID.3極智版新登場,科技與舒適并存
熱門內容
  • 2024湖南衛視元旦跨年晚會即將開啟 跨年當天京東真便宜直播間海量京東E卡等你領!
  • 定了!12月31日19時30分,來華為視頻看2023-2024湖南衛視芒果TV跨年晚會
  • 2024年跨年晚會直播軟件哪個好?當貝X5投影儀看跨年直播方法匯總
  • 2024跨年晚會直播怎么看?當貝F6看跨年晚會直播超方便
  • 2024年客廳投影儀最值得買推薦:當貝X5 Ultra最值得入手的客廳投影
  • 星紀元ES、極氪001、智界S7、阿維塔12都來了,究竟誰是智能車之王?
  • 懂車帝冬測公開日續航成績公布,領克08和問界M7依舊倒數
  • 懂車帝舉報多個抹黑造謠冬測自媒體,將追究法律責任
  • 誰說游戲手機沒有IP68級防塵防水?ROG8新機這次秀翻了
  • 跨年晚會直播觀看攻略:當貝F6投影儀大屏看跨年晚會更精彩
  • 已開啟春節預訂 一嗨租車大規模上新車保障2024年春運
  • 網易游戲與華為達成鴻蒙合作
  • AG超玩會上九游會師成王者榮耀世界冠軍杯選拔賽,表演卓絕
  • 2023年五千元投影儀買哪個牌子好?當貝F6投影儀帶來明亮清晰畫面
  • 2023抖音汽車年終狂歡節來襲,打造汽車種草IP,賦能營銷新模式
本欄最新
CES 2024:三星發布“AI for All”愿景
CES 2024:三星發布“AI for All”愿景
MORROR ART R2:復古未來主義的美學音箱
MORROR ART R2:復古未來主義的美學音箱
報名亞洲第一商學院香港科技大學MBA,助你成為亞洲前瞻商業領袖
報名亞洲第一商學院香港科技大學MBA,助你成為亞洲前瞻商業領袖
中歐互聯領航者論壇在京開幕,華為云發布“雙百”計劃助力中國企業出海歐洲
中歐互聯領航者論壇在京開幕,華為云發布“雙百”計劃助力中國企業出海歐洲
綠源S90三年質保續航不減,啥黑科技挑戰行業首個整車全性能極寒測試?
綠源S90三年質保續航不減,啥黑科技挑戰行業首個整車全性能極寒測試?
三星電子推出 2024新品 Neo QLED、MICRO LED、OLED 和 Lifestyle產品,開啟人工智能屏幕新時代,引領全新生活方式
三星電子推出 2024新品 Neo QLED、MICRO LED、OLED 和 Lifestyle產品,開啟人工智能屏幕新時代,引領全新生活方式

本文鏈接:http://www.tebozhan.com/showinfo-16-60321-0.html字節與浙大聯合推多模態大語言模型Vista-LLaMA 可解讀視頻內容

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 售價80萬+,路特斯EMEYA純電超跑發布會定檔,性能驚艷值得期待

下一篇: 潮酷碰撞!聯想拯救者聯名魅族PANDAER,Y9000P電競本即將震撼登場

標簽:
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

相關資訊

Top