當前位置：首頁 > 元宇宙 > AI

AI 變鑒片大師，星際穿越都能看懂！賈佳亞團隊新作，多模態大模型挑戰超長 3 小時視頻

來源：責編：時間：2023-12-14 16:35:28 390觀看

導讀啥？AI 都能自己看電影大片了？賈佳亞團隊最新研究成果，讓大模型直接學會了處理超長視頻。丟給它一部科幻大片《星際穿越》（片長 2 小時 49 分鐘）：它“看”完之后，不僅能結合電影情節和人物輕松對電影進行點評：還能很精

啥？AI 都能自己看電影大片了？

賈佳亞團隊最新研究成果，讓大模型直接學會了處理超長視頻。

丟給它一部科幻大片《星際穿越》（片長 2 小時 49 分鐘）：

它“看”完之后，不僅能結合電影情節和人物輕松對電影進行點評：

還能很精準地回答出劇中所涉的細節：

例如：蟲洞的作用和創造者是誰？

答：未來的智慧生物放置在土星附近，用于幫助人類進行遠距離星際穿越。

男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲？

答：通過手表以摩斯密碼的方式傳遞數據。

啊這，感覺電影博主的飯碗也要被 AI 搶走了。

這就是最新多模態大模型 LLaMA-VID，它支持單圖、短視頻和長視頻三種輸入。

對比來看，包括 GPT-4V 等在內的同類模型基本只能處理圖像。

而背后原理更有看頭。

據介紹，LLaMA-VID 只通過一個非常簡單的辦法就達成了如上能力，那就是：

把表示每一幀圖像的 token 數量，壓縮到僅有 2 個。

具體效果如何以及如何實現？一起來看。

人物理解分析、電影細節都 OK

對于電影來說，除了精準回答所涉細節，LLaMA-VID 也能對角色進行十分準確的理解和分析。

還是《星際穿越》，我們讓它看完后分析米勒星球上相對地球時間的快慢及原因。

結果完全正確：

LLaMA-VID 表示是因為米勒星球在黑洞附近，導致 1 小時相當于地球 7 年。

再丟給它時長近倆小時的《阿甘正傳》。

對于“珍妮對于阿甘有何意義？”這一問題，LLaMA-VID 的回答是：

孩童時期的朋友，后來成為阿甘的妻子，是阿甘生活和心靈的慰藉。

對于阿甘在戰爭及退伍后的事件也能進行分析，且回答也很到位：

丹中尉責怪阿甘救了自己，因為這讓他無法戰死沙場。

除了看電影，成為一個無所不知的的“電影搭子”，它也能很好地理解宣傳片的意圖，回答一些開放問題。

比如給它一段最近很火的 GTA6 預告片。

問它“這個游戲哪里最吸引你？”，它“看”完后給出的想法是：

一是游戲場景和設置非常多（從賽車、特技駕駛到射擊等），二是視覺效果比較驚艷。

哦對了，LLaMA-VID 還能根據游戲中的場景和特征，推測出預告片是 Rockstar 游戲公司的推廣：

以及認出游戲的背景城市為邁阿密（根據夜生活、海灘等信息，以及在作者提示游戲設置在佛羅里達之后）。

最后，在宣傳片、時長高達 2-3 小時的電影這些視頻材料之外，我們也來看看 LLaMA-VID 對最基礎的圖片信息的理解能力。

吶，準確識別出這是一塊布料，上面有個洞：

讓它扮演“福爾摩斯”也不在話下。面對這樣一張房間內景照片：

它可以從門上掛了很多外套分析出房間主人可能生活繁忙 / 經常外出。

看得出來，LLaMA-VID 對視頻的準確解讀正是建立在這樣的圖片水準之上的，但最關鍵的點還是它如何完成如此長時間的視頻處理。

幾行代碼實現單幀 2 token 表示

LLaMA-VID 的關鍵創新是將每幀畫面的 token 數量壓縮到很低，從而實現可處理超長視頻。

很多傳統多模態大模型對于單張圖片編碼的 token 數量過多，導致了視頻時間加長后，所需 token 數量暴增，模型難以承受。

為此研究團隊重新設計了圖像的編碼方式，采用上下文編碼（Context Token）和圖像內容編碼（Content Token）來對視頻中的單幀進行編碼。

從而實現了將每一幀用 2 個 token 表示。

具體來看 LLaMA-VID 的框架。

只包含 3 個部分：

采用編解碼器產生視覺嵌入和文本引導特征。

根據特定 token 生成策略轉換上下文 token 和圖像內容 token。

指令調優進一步優化。

根據指令，LLaMA-VID 選取單個圖像或視頻幀作為輸入，然后從大語言模型上生成回答。

這個過程從一個可視編碼器開始，該編碼器將輸入幀轉換為可視幀嵌入。

然后文本解碼器根據用戶輸入和圖像編碼器提取的特征，來生成與輸入指令相關的跨模態索引（Text Query）。

然后利用注意力機制（Context Attention），將視覺嵌入中和文本相關的視覺線索聚合起來，也就是特征采樣和組合，從而生成高質量的指令相關特征。

為了提高效率，模型將可視化嵌入樣本壓縮到不同 token 大小，甚至是一個 token。

其中，上下文 token 根據用戶輸入的問題生成，盡可能保留和用戶問題相關的視覺特征。

圖像內容 token 則直接根據用戶指令對圖像特征進行池化采樣，更關注圖像本身的內容信息，對上下文 token 未關注到的部分進行補充。

文本引導上下文 token 和圖像 token 來一起表示每一幀。

最后，大語言模型將用戶指令和所有視覺 token 作為輸入，生成回答。

而且這種 token 的生成方法很簡單，僅需幾行代碼。

實驗結果方面，LLaMA-VID 在多個視頻問答和推理榜單上實現 SOTA。

僅需加入 1 個上下文 token 拓展，LLaMA-VID 在多個圖片問答指標上也能獲得顯著提升。

在 16 個視頻、圖片理解及推理數據集上，LLaMA-VID 實現了很好效果。

在 GitHub 上，團隊提供了不同階段的所有微調模型，以及第一階段的預訓練權重。

具體訓練包括 3 個過程：特征對齊、指令微調、長視頻微調（相應步驟可參考 GitHub）。

此外，LLaMA-VID 還收集了 400 部電影并生成 9K 條長視頻問答語料，包含電影影評、人物成長及情節推理等。

結合之前賈佳亞團隊所發布的長文本數據集 LongAlpaca-12k（9k 條長文本問答語料對、3k 短文本問答語料對）, 可輕松將現有多模態模型拓展來支持長視頻輸入。

值得一提的是，今年 8 月開始賈佳亞團隊就發布了主攻推理分割的 LISA 多模態大模型。

10 月還發布了長文本開源大語言模型 LongAlpaca（70 億參數）和超長文本擴展方法 LongLoRA。

LongLoRA 只需兩行代碼便可將 7B 模型的文本長度拓展到 100k tokens，70B 模型的文本長度拓展到 32k tokens。

最后，團隊也提供了 demo 地址，可自己上傳視頻和 LLaMA-VID 對話（部署在單塊 3090，需要的小伙伴可以參考 code 用更大的顯存部署，直接和整個電影對話）。

看來，以后看不懂諾蘭電影，可以請教 AI 試試

論文地址：

https://arxiv.org/abs/2311.17043

GitHub 地址：

https://github.com/dvlab-research/LLaMA-VID

demo 地址：

http://103.170.5.190:7864/

本文來自微信公眾號：量子位（ID：QbitAI），作者：豐色明敏

本文鏈接：http://www.tebozhan.com/showinfo-45-2892-0.htmlAI 變鑒片大師，星際穿越都能看懂！賈佳亞團隊新作，多模態大模型挑戰超長 3 小時視頻

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：谷歌 OpenAI 大模型巔峰對決！Gemini 激戰 GPT-4，數學代碼卻慘遭碾壓

下一篇：谷歌發言人承認：Gemini AI 演示視頻內容和語音提示均非實時錄制

標簽：

熱門焦點

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

作者：趙志東蔡佳雯來源：區塊鏈日報該法案采用風險分級的規制路徑，將人工智能系統的風險劃分成不可接受的風險、高風險、有限風險和輕微風險四種類型，并針對不同類型施加了不同
挖來Meta AR高管，難道蘋果也要進軍元宇宙？

“被曝光”的才是最吸引人的產品，相信有關注過蘋果硬件消息的朋友們都明白這樣的道理。往近了說有蘋果“即將發布”的iPhone SE 3和M2芯片，往遠了說有“折疊屏iP
搭上“谷愛凌”，“柳夜熙們”站上風口？

作者：張琳曹楊從“永不塌房”的藝人到頻頻亮相北京冬奧會，作為元宇宙細分賽道之一的虛擬數字人又火了一把。2月7日，即谷愛凌摘得冬奧會自由式滑雪大跳臺金牌的
NFT的未來：傳統企業與去中心化機構之間的競賽

傳統企業和去中心化機構一直存在分歧，但最近NFT的爆炸式增長讓他們產生了共同的興趣，雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問，NFT 市場正在增長。
影響元宇宙土地價格的五個因素

參考來源 | cryptonews編譯 | Ciel@iNFTnews.com元宇宙中的房地產價格主要取決于使用它的人數，以及為所有者創造收益的能力。專注于數字資產的投資公司LedgerPr
元宇宙畫廊體驗報告：有點頭疼。

2 月 10 日，Hrishi Rajasekar 在舊金山鑄幣廠的沉浸式 NFT 展覽 Verse 觀看增強現實藝術品。“我們現在在虛擬世界中嗎？時間好像變長了” 我問身后排隊的人。我
頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

特別聲明，我們的文章不作為投資建議，請各位讀者獨立思考，還是那句話：投資要慎之又慎，誰也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

前有騰訊、阿里申請商標注冊，后有Facebook宣布改名，若論當前互聯網最火最熱的概念，當屬“元宇宙”。“阿里元宇宙”“淘寶元宇宙”“釘釘元宇宙”“QQ元宇宙”“
Ceramic：為Web3.0社交應用打造的中間件

大家關注老雅痞公眾號這么久，對Web3的概念不陌生吧？讓我們做一個簡短的回顧，Web3主要被描述為去中心化的網絡，旨在實現無服務器、去中心化的互聯網，即用戶掌握自己

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

AI 變鑒片大師，星際穿越都能看懂！賈佳亞團隊新作，多模態大模型挑戰超長 3 小時視頻

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

挖來Meta AR高管，難道蘋果也要進軍元宇宙？

搭上“谷愛凌”，“柳夜熙們”站上風口？

NFT的未來：傳統企業與去中心化機構之間的競賽

影響元宇宙土地價格的五個因素

元宇宙畫廊體驗報告：有點頭疼。

頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

Ceramic：為Web3.0社交應用打造的中間件

最新推薦

元宇宙帶來沉浸式智能登錄？你學會了嗎？

Web 3如何改變傳統HR

NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

為什么元宇宙將永遠改變體育和你的生活？

3月份值得關注的5個NFT項目

Staking 收益翻倍？

猜你喜歡

熱門推薦

相關資訊