AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

字節(jié)與浙大聯(lián)合推多模態(tài)大語言模型Vista-LLaMA 可解讀視頻內(nèi)容

來源: 責(zé)編: 時(shí)間:2024-01-10 17:23:40 319觀看
導(dǎo)讀Vista-LLaMA 在處理長(zhǎng)視頻內(nèi)容方面的顯著優(yōu)勢(shì),為視頻分析領(lǐng)域帶來了新的解決框架。近年來,大型語言模型如 GPT、GLM 和 LLaMA等在自然語言處理領(lǐng)域取得了顯著進(jìn)展,基于深度學(xué)習(xí)技術(shù)能夠理解和生成復(fù)雜的文本內(nèi)容。然而,將

Vista-LLaMA 在處理長(zhǎng)視頻內(nèi)容方面的顯著優(yōu)勢(shì),為視頻分析領(lǐng)域帶來了新的解決框架。cbu28資訊網(wǎng)——每日最新資訊28at.com

近年來,大型語言模型如 GPT、GLM 和 LLaMA等在自然語言處理領(lǐng)域取得了顯著進(jìn)展,基于深度學(xué)習(xí)技術(shù)能夠理解和生成復(fù)雜的文本內(nèi)容。然而,將這些能力擴(kuò)展到視頻內(nèi)容理解領(lǐng)域則是一個(gè)全新的挑戰(zhàn) ——視頻不僅包含豐富多變的視覺信息,還涉及時(shí)間序列的動(dòng)態(tài)變化,這使得大語言模型從視頻中提取信息變得更為復(fù)雜。cbu28資訊網(wǎng)——每日最新資訊28at.com

面對(duì)這一挑戰(zhàn),字節(jié)跳動(dòng)聯(lián)合浙江大學(xué)提出了能夠輸出可靠視頻描述的多模態(tài)大語言模型 Vista-LLaMA。Vista-LLaMA專門針對(duì)視頻內(nèi)容的復(fù)雜性設(shè)計(jì),能夠有效地將視頻幀轉(zhuǎn)換為準(zhǔn)確的語言描述,從而極大地提高了視頻內(nèi)容分析和生成的質(zhì)量。cbu28資訊網(wǎng)——每日最新資訊28at.com

640.png

論文主頁:https://jinxxian.github.io/Vista-LLaMA/cbu28資訊網(wǎng)——每日最新資訊28at.com

640.jpeg

圖 1cbu28資訊網(wǎng)——每日最新資訊28at.com

技術(shù)創(chuàng)新路徑cbu28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)有多模態(tài)視覺與語言模型在處理視頻內(nèi)容時(shí),通常將視頻幀轉(zhuǎn)化為一系列的視覺 token,并與語言 token結(jié)合以生成文本。然而,隨著生成文本長(zhǎng)度的增加,視頻內(nèi)容的影響往往逐漸減弱,導(dǎo)致生成的文本越來越多地偏離原視頻內(nèi)容,產(chǎn)生所謂的 “幻覺” 現(xiàn)象。cbu28資訊網(wǎng)——每日最新資訊28at.com

Vista-LLaMA 通過創(chuàng)新的方式處理視頻和文本間的復(fù)雜互動(dòng),突破了傳統(tǒng)視頻語言模型的限制。Vista-LLaMA 的核心創(chuàng)新在于其獨(dú)特的視覺與語言token 處理方式。不同于其他模型,它通過維持視覺和語言 token間的均等距離,有效避免了文本生成中的偏差,尤其是在長(zhǎng)文本中更為顯著。這種方法大幅提高了模型對(duì)視頻內(nèi)容的理解深度和準(zhǔn)確性。cbu28資訊網(wǎng)——每日最新資訊28at.com

640 (1).jpeg

圖 2cbu28資訊網(wǎng)——每日最新資訊28at.com

Vista-LLaMA 采用了一種改良的注意力機(jī)制 —— 視覺等距離 token 注意力(EDVT),它在處理視覺與文本 token時(shí)去除了傳統(tǒng)的相對(duì)位置編碼,同時(shí)保留了文本與文本之間的相對(duì)位置編碼。EDVT 機(jī)制通過特定的函數(shù)處理隱藏層輸入,有效區(qū)分視覺 token 來源。cbu28資訊網(wǎng)——每日最新資訊28at.com

640 (1).png

具體而言,它首先對(duì)輸入進(jìn)行查詢、鍵和值的映射轉(zhuǎn)換,接著對(duì)查詢和鍵輸入應(yīng)用旋轉(zhuǎn)位置編碼(RoPE),分別計(jì)算帶 RoPE 和不帶 RoPE的注意力權(quán)重。隨后,根據(jù)視覺 token 的存在與否合并這兩種注意力權(quán)重,通過 softmax函數(shù)實(shí)現(xiàn)注意力的歸一化,并最終通過基于注意力權(quán)重的線性映射更新表示,生成輸出結(jié)果。這種創(chuàng)新使得多模態(tài)大語言模型能夠更加關(guān)注視頻的內(nèi)容,尤其在復(fù)雜的視頻場(chǎng)景中,能夠有效地捕捉關(guān)鍵視覺元素,提升了文本生成的質(zhì)量和相關(guān)性。cbu28資訊網(wǎng)——每日最新資訊28at.com

640 (2).png

圖 3cbu28資訊網(wǎng)——每日最新資訊28at.com

同時(shí),該模型引入的序列化視覺投影器為視頻中的時(shí)間序列分析提供了新的視角,它不僅能夠處理當(dāng)前視頻幀,還能利用前一幀的信息,從而增強(qiáng)視頻內(nèi)容的連貫性和時(shí)序邏輯。cbu28資訊網(wǎng)——每日最新資訊28at.com

視覺投影器的作用是將視頻特征映射到語言嵌入空間,以便大型語言模型融合和處理視覺與文本輸入。如圖 4所示,早期的視覺投影器通常使用線性層或查詢轉(zhuǎn)換器(Q-Former)直接將幀特征轉(zhuǎn)換為語言token。然而,這些方法忽略了時(shí)間關(guān)系,限制了語言模型對(duì)視頻的全面理解。Vista-LLaMA 中引入了序列化視覺投影器,它通過線性投影層編碼視覺 token的時(shí)間上下文,增強(qiáng)了模型對(duì)視頻動(dòng)態(tài)變化的理解能力,這對(duì)于提升視頻內(nèi)容分析的質(zhì)量至關(guān)重要。cbu28資訊網(wǎng)——每日最新資訊28at.com

640 (3).png

圖 4cbu28資訊網(wǎng)——每日最新資訊28at.com

基準(zhǔn)測(cè)試結(jié)果cbu28資訊網(wǎng)——每日最新資訊28at.com

Vista-LLaMA 在多個(gè)開放式視頻問答基準(zhǔn)測(cè)試中展現(xiàn)了卓越性能。它在 NExT-QA 和 MSRVTT-QA測(cè)試中取得了突破性成績(jī),這兩個(gè)測(cè)試是衡量視頻理解和語言生成能力的關(guān)鍵標(biāo)準(zhǔn)。在零樣本 NExT-QA 測(cè)試中,Vista-LLaMA 實(shí)現(xiàn)了 60.7%的準(zhǔn)確率。而在 MSRVTT-QA 測(cè)試中達(dá)到了 60.5% 的準(zhǔn)確率,超過了目前所有的 SOTA 方法。這些成績(jī)?cè)谛袠I(yè)中屬于先進(jìn)水平,顯著超越了其他 SOTA模型,如 Video-ChatGPT 和 MovieChat。cbu28資訊網(wǎng)——每日最新資訊28at.com

640 (4).png

圖 5cbu28資訊網(wǎng)——每日最新資訊28at.com

640 (5).png

這些測(cè)試結(jié)果證明了 Vista-LLaMA 在視頻內(nèi)容理解和描述生成方面的高效性和精準(zhǔn)性,Vista-LLaMA能夠準(zhǔn)確理解和描述視頻內(nèi)容,顯示了其強(qiáng)大的泛化能力。這些成績(jī)不僅展示了 Vista-LLaMA在理解復(fù)雜視頻內(nèi)容方面的能力,還證明了其在多模態(tài)語言處理領(lǐng)域的領(lǐng)先地位。cbu28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)集:CineClipQAcbu28資訊網(wǎng)——每日最新資訊28at.com

640 (6).png

圖 6cbu28資訊網(wǎng)——每日最新資訊28at.com

與 Vista-LLaMA 一同提出的還有 CineClipQA 新數(shù)據(jù)集。cbu28資訊網(wǎng)——每日最新資訊28at.com

CineClipQA 包含了 153 個(gè)精選視頻片段,這些片段來自五部風(fēng)格和敘事手法各異的電影。每個(gè)片段代表電影情節(jié)的一個(gè)或多個(gè)獨(dú)特部分,并附有 16個(gè)量身定制的問題,共計(jì) 2448 個(gè)問題。問題分為系統(tǒng)提示和問題兩部分:cbu28資訊網(wǎng)——每日最新資訊28at.com

● 系統(tǒng)提示提供了當(dāng)前視頻片段中關(guān)鍵角色的基本信息,并在必要時(shí)為角色的初始行動(dòng)提供提示。cbu28資訊網(wǎng)——每日最新資訊28at.com

●問題主要分為五類:識(shí)別、時(shí)間性(預(yù)測(cè))、空間性(互動(dòng))、意圖和感知。具體來說,識(shí)別包括地點(diǎn)和行動(dòng)的問題;時(shí)間性涉及下一個(gè)行動(dòng)、之前的行動(dòng)、同時(shí)發(fā)生的行動(dòng)和預(yù)測(cè)行動(dòng)的問題;空間性涉及物體與人之間的空間信息問題;意圖涉及行動(dòng)目的地三種相似問題;感知檢查情感識(shí)別和詢問“如何”(方式、態(tài)度等)。cbu28資訊網(wǎng)——每日最新資訊28at.com

該研究還提供了所有 16 種類型的詳細(xì)解釋和相應(yīng)案例。在 CineClipQA 數(shù)據(jù)集中,Vista-LLaMA 也表現(xiàn)出了卓越的性能。cbu28資訊網(wǎng)——每日最新資訊28at.com

640 (7).png

圖 7cbu28資訊網(wǎng)——每日最新資訊28at.com

簡(jiǎn)言之,Vista-LLaMA在處理長(zhǎng)視頻內(nèi)容方面的顯著優(yōu)勢(shì),為視頻分析領(lǐng)域帶來了新的解決框架,推動(dòng)人工智能在視頻處理和內(nèi)容創(chuàng)作方面的發(fā)展,預(yù)示著未來多模態(tài)交互和自動(dòng)化內(nèi)容生成領(lǐng)域的廣泛機(jī)遇。cbu28資訊網(wǎng)——每日最新資訊28at.com

更多詳情,請(qǐng)?jiān)L問項(xiàng)目頁面 [https://jinxxian.github.io/Vista-LLaMA]。cbu28資訊網(wǎng)——每日最新資訊28at.com

關(guān)于字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)cbu28資訊網(wǎng)——每日最新資訊28at.com

智能創(chuàng)作團(tuán)隊(duì)是字節(jié)跳動(dòng)音視頻創(chuàng)新技術(shù)和業(yè)務(wù)中臺(tái),覆蓋了計(jì)算機(jī)視覺、圖形學(xué)、語音、拍攝編輯、特效、客戶端、服務(wù)端工程等技術(shù)領(lǐng)域,借助字節(jié)跳動(dòng)豐富的業(yè)務(wù)場(chǎng)景、基礎(chǔ)設(shè)施資源和良好的技術(shù)協(xié)作氛圍,實(shí)現(xiàn)了前沿算法- 工程系統(tǒng) -產(chǎn)品全鏈路的閉環(huán),旨在以多種形式向公司內(nèi)部各業(yè)務(wù)線以及外部合作客戶提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動(dòng)體驗(yàn)與消費(fèi)的能力和行業(yè)解決方案。cbu28資訊網(wǎng)——每日最新資訊28at.com

目前,智能創(chuàng)作團(tuán)隊(duì)已通過字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái)火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。(作者:彭傲晴)cbu28資訊網(wǎng)——每日最新資訊28at.com

舉報(bào) 0收藏 0打賞 0評(píng)論 0
 
 
更多>同類資訊
點(diǎn)擊查看更多 +
全站最新
奇瑞汽車預(yù)計(jì)2024年汽車行業(yè)增長(zhǎng)低位,但仍堅(jiān)持高質(zhì)量發(fā)展路線
奇瑞汽車預(yù)計(jì)2024年汽車行業(yè)增長(zhǎng)低位,但仍堅(jiān)持高質(zhì)量發(fā)展路線
TCL震撼CES 2024:發(fā)布115英寸QM891G電視,引領(lǐng)畫質(zhì)新紀(jì)元
TCL震撼CES 2024:發(fā)布115英寸QM891G電視,引領(lǐng)畫質(zhì)新紀(jì)元
TCL QM891G電視閃耀CES 2024:115英寸巨幕引領(lǐng)視聽新風(fēng)尚
TCL QM891G電視閃耀CES 2024:115英寸巨幕引領(lǐng)視聽新風(fēng)尚
CES 2024:三星發(fā)布“AI for All”愿景
CES 2024:三星發(fā)布“AI for All”愿景
特斯拉Model Y創(chuàng)歷史:首次登頂全球最暢銷車型,力壓豐田卡羅拉
特斯拉Model Y創(chuàng)歷史:首次登頂全球最暢銷車型,力壓豐田卡羅拉
上汽大眾2024款I(lǐng)D.3極智版新登場(chǎng),科技與舒適并存
上汽大眾2024款I(lǐng)D.3極智版新登場(chǎng),科技與舒適并存
熱門內(nèi)容
  • 2024湖南衛(wèi)視元旦跨年晚會(huì)即將開啟 跨年當(dāng)天京東真便宜直播間海量京東E卡等你領(lǐng)!
  • 定了!12月31日19時(shí)30分,來華為視頻看2023-2024湖南衛(wèi)視芒果TV跨年晚會(huì)
  • 2024年跨年晚會(huì)直播軟件哪個(gè)好?當(dāng)貝X5投影儀看跨年直播方法匯總
  • 2024跨年晚會(huì)直播怎么看?當(dāng)貝F6看跨年晚會(huì)直播超方便
  • 2024年客廳投影儀最值得買推薦:當(dāng)貝X5 Ultra最值得入手的客廳投影
  • 星紀(jì)元ES、極氪001、智界S7、阿維塔12都來了,究竟誰是智能車之王?
  • 懂車帝冬測(cè)公開日續(xù)航成績(jī)公布,領(lǐng)克08和問界M7依舊倒數(shù)
  • 懂車帝舉報(bào)多個(gè)抹黑造謠冬測(cè)自媒體,將追究法律責(zé)任
  • 誰說游戲手機(jī)沒有IP68級(jí)防塵防水?ROG8新機(jī)這次秀翻了
  • 跨年晚會(huì)直播觀看攻略:當(dāng)貝F6投影儀大屏看跨年晚會(huì)更精彩
  • 已開啟春節(jié)預(yù)訂 一嗨租車大規(guī)模上新車保障2024年春運(yùn)
  • 網(wǎng)易游戲與華為達(dá)成鴻蒙合作
  • AG超玩會(huì)上九游會(huì)師成王者榮耀世界冠軍杯選拔賽,表演卓絕
  • 2023年五千元投影儀買哪個(gè)牌子好?當(dāng)貝F6投影儀帶來明亮清晰畫面
  • 2023抖音汽車年終狂歡節(jié)來襲,打造汽車種草IP,賦能營(yíng)銷新模式
本欄最新
CES 2024:三星發(fā)布“AI for All”愿景
CES 2024:三星發(fā)布“AI for All”愿景
MORROR ART R2:復(fù)古未來主義的美學(xué)音箱
MORROR ART R2:復(fù)古未來主義的美學(xué)音箱
報(bào)名亞洲第一商學(xué)院香港科技大學(xué)MBA,助你成為亞洲前瞻商業(yè)領(lǐng)袖
報(bào)名亞洲第一商學(xué)院香港科技大學(xué)MBA,助你成為亞洲前瞻商業(yè)領(lǐng)袖
中歐互聯(lián)領(lǐng)航者論壇在京開幕,華為云發(fā)布“雙百”計(jì)劃助力中國(guó)企業(yè)出海歐洲
中歐互聯(lián)領(lǐng)航者論壇在京開幕,華為云發(fā)布“雙百”計(jì)劃助力中國(guó)企業(yè)出海歐洲
綠源S90三年質(zhì)保續(xù)航不減,啥黑科技挑戰(zhàn)行業(yè)首個(gè)整車全性能極寒測(cè)試?
綠源S90三年質(zhì)保續(xù)航不減,啥黑科技挑戰(zhàn)行業(yè)首個(gè)整車全性能極寒測(cè)試?
三星電子推出 2024新品 Neo QLED、MICRO LED、OLED 和 Lifestyle產(chǎn)品,開啟人工智能屏幕新時(shí)代,引領(lǐng)全新生活方式
三星電子推出 2024新品 Neo QLED、MICRO LED、OLED 和 Lifestyle產(chǎn)品,開啟人工智能屏幕新時(shí)代,引領(lǐng)全新生活方式

本文鏈接:http://www.tebozhan.com/showinfo-45-3186-0.html字節(jié)與浙大聯(lián)合推多模態(tài)大語言模型Vista-LLaMA 可解讀視頻內(nèi)容

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 售價(jià)80萬+,路特斯EMEYA純電超跑發(fā)布會(huì)定檔,性能驚艷值得期待

下一篇: 潮酷碰撞!聯(lián)想拯救者聯(lián)名魅族PANDAER,Y9000P電競(jìng)本即將震撼登場(chǎng)

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 元宇宙的文旅賽道,還能如何發(fā)力?

    來源:X增強(qiáng)現(xiàn)實(shí)蘋果推出Vision Pro,為XR行業(yè)注入一劑強(qiáng)心針。而在蘋果開發(fā)者大會(huì)上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋果達(dá)成合作,其Disney+流媒體服務(wù)將于Vision Pro
  • VR/AR迷失元宇宙“硝煙”

    不溫不火的VR/AR可穿戴設(shè)備因元宇宙崛起火了一陣,又隨著元宇宙回歸平靜。1月份,微軟在 Surface 設(shè)備、HoloLens 混合現(xiàn)實(shí)硬件和 Xbox 等部門裁員,其中負(fù)責(zé)混合現(xiàn)實(shí)硬件(MR)的Holo
  • 【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報(bào)告 | 元宇宙Meta洞見

    虛擬數(shù)字人行業(yè)未來的主要驅(qū)動(dòng)力包括:用戶代際變化,新一代消費(fèi)者對(duì)內(nèi)容消費(fèi)和虛擬世界更為渴求;虛擬數(shù)字人相關(guān)技術(shù)門檻相對(duì)降低,成本有所回落;資本熱度上升,受Metav
  • 元宇宙時(shí)代NFT的價(jià)值衡量

    有人認(rèn)為NFT的高昂價(jià)格只是炒作的產(chǎn)物,并不具有其對(duì)等的價(jià)值,但其實(shí)NFT并不是空中樓閣,只是區(qū)塊鏈數(shù)字分類賬中的一種形式。誠(chéng)然,目前的NFT仍處于灰色地帶,相關(guān)的法
  • 頂流IP“冰墩墩”帶著中國(guó)元素NFT進(jìn)入全球視野

    一場(chǎng)被國(guó)際奧委會(huì)主席評(píng)價(jià)堪稱獨(dú)具匠心、非凡卓越的2022年北京冬季奧運(yùn)會(huì),在這個(gè)“雙奧之城”經(jīng)歷了16個(gè)令人難忘的精彩日夜,最終圓滿閉幕。讓我們印象深刻的不
  • 重溫 1602 年:DAO 是新的企業(yè)范式嗎?

    作者:Andrew Singer“ 將你的選票委托給行業(yè)有能力的專家,將使所有者在這些公司的管理中擁有更強(qiáng)大、更清晰的話語權(quán) 。”1602 年,荷蘭東印度公司成立,許多人認(rèn)為
  • NFTs正迎來數(shù)十億美元的繁榮--NFT零工經(jīng)濟(jì)從業(yè)者開始暴賺

    當(dāng)Stefan Prodanovic在13歲時(shí)開始嘗試平面設(shè)計(jì),與一位從事編程工作的學(xué)校朋友共同創(chuàng)作數(shù)字游戲時(shí),他從未料到這個(gè)愛好會(huì)在他成年后變成一個(gè)相當(dāng)有利可圖的生意。
  • 為什么元宇宙將永遠(yuǎn)改變體育和你的生活?

    自從Facebook更名為Meta以來,Metaverse這個(gè)詞已經(jīng)被大家所熟知。但是當(dāng)Metaverse仍然被許多人視為一個(gè)虛擬的平行世界時(shí),一些項(xiàng)目已經(jīng)顯示出Metaverse將如何永遠(yuǎn)
  • 元宇宙平臺(tái)會(huì)是上世紀(jì)末的互聯(lián)網(wǎng)嗎?

    “元宇宙”火了好幾個(gè)月,互聯(lián)網(wǎng)大廠忙于布局,資本市場(chǎng)熱烈追捧。然而很多人還是看不明白,更多的人覺得這是一場(chǎng)泡沫,一場(chǎng)騙局。一開始接觸這個(gè)怪里怪氣的名詞,感覺

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

Top