AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

AI 變鑒片大師,星際穿越都能看懂!賈佳亞團隊新作,多模態大模型挑戰超長 3 小時視頻

來源: 責編: 時間:2023-12-14 16:35:28 390觀看
導讀 啥?AI 都能自己看電影大片了?賈佳亞團隊最新研究成果,讓大模型直接學會了處理超長視頻。丟給它一部科幻大片《星際穿越》(片長 2 小時 49 分鐘):它“看”完之后,不僅能結合電影情節和人物輕松對電影進行點評:還能很精

啥?AI 都能自己看電影大片了?q5s28資訊網——每日最新資訊28at.com

賈佳亞團隊最新研究成果,讓大模型直接學會了處理超長視頻。q5s28資訊網——每日最新資訊28at.com

丟給它一部科幻大片《星際穿越》(片長 2 小時 49 分鐘):q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

它“看”完之后,不僅能結合電影情節和人物輕松對電影進行點評:q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

還能很精準地回答出劇中所涉的細節:q5s28資訊網——每日最新資訊28at.com

例如:蟲洞的作用和創造者是誰?q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

答:未來的智慧生物放置在土星附近,用于幫助人類進行遠距離星際穿越。q5s28資訊網——每日最新資訊28at.com

男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲?q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

答:通過手表以摩斯密碼的方式傳遞數據。q5s28資訊網——每日最新資訊28at.com

啊這,感覺電影博主的飯碗也要被 AI 搶走了。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

這就是最新多模態大模型 LLaMA-VID,它支持單圖、短視頻和長視頻三種輸入。q5s28資訊網——每日最新資訊28at.com

對比來看,包括 GPT-4V 等在內的同類模型基本只能處理圖像。q5s28資訊網——每日最新資訊28at.com

而背后原理更有看頭。q5s28資訊網——每日最新資訊28at.com

據介紹,LLaMA-VID 只通過一個非常簡單的辦法就達成了如上能力,那就是:q5s28資訊網——每日最新資訊28at.com

把表示每一幀圖像的 token 數量,壓縮到僅有 2 個。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

具體效果如何以及如何實現?一起來看。q5s28資訊網——每日最新資訊28at.com

人物理解分析、電影細節都 OK

對于電影來說,除了精準回答所涉細節,LLaMA-VID 也能對角色進行十分準確的理解和分析。q5s28資訊網——每日最新資訊28at.com

還是《星際穿越》,我們讓它看完后分析米勒星球上相對地球時間的快慢及原因。q5s28資訊網——每日最新資訊28at.com

結果完全正確:q5s28資訊網——每日最新資訊28at.com

LLaMA-VID 表示是因為米勒星球在黑洞附近,導致 1 小時相當于地球 7 年。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

再丟給它時長近倆小時的《阿甘正傳》。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

對于“珍妮對于阿甘有何意義?”這一問題,LLaMA-VID 的回答是:q5s28資訊網——每日最新資訊28at.com

孩童時期的朋友,后來成為阿甘的妻子,是阿甘生活和心靈的慰藉。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

對于阿甘在戰爭及退伍后的事件也能進行分析,且回答也很到位:q5s28資訊網——每日最新資訊28at.com

丹中尉責怪阿甘救了自己,因為這讓他無法戰死沙場。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

除了看電影,成為一個無所不知的的“電影搭子”,它也能很好地理解宣傳片的意圖,回答一些開放問題。q5s28資訊網——每日最新資訊28at.com

比如給它一段最近很火的 GTA6 預告片。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

問它“這個游戲哪里最吸引你?”,它“看”完后給出的想法是:q5s28資訊網——每日最新資訊28at.com

一是游戲場景和設置非常多(從賽車、特技駕駛到射擊等),二是視覺效果比較驚艷。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

哦對了,LLaMA-VID 還能根據游戲中的場景和特征,推測出預告片是 Rockstar 游戲公司的推廣:q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

以及認出游戲的背景城市為邁阿密(根據夜生活、海灘等信息,以及在作者提示游戲設置在佛羅里達之后)。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

最后,在宣傳片、時長高達 2-3 小時的電影這些視頻材料之外,我們也來看看 LLaMA-VID 對最基礎的圖片信息的理解能力。q5s28資訊網——每日最新資訊28at.com

吶,準確識別出這是一塊布料,上面有個洞:q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

讓它扮演“福爾摩斯”也不在話下。面對這樣一張房間內景照片:q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

它可以從門上掛了很多外套分析出房間主人可能生活繁忙 / 經常外出。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

看得出來,LLaMA-VID 對視頻的準確解讀正是建立在這樣的圖片水準之上的,但最關鍵的點還是它如何完成如此長時間的視頻處理。q5s28資訊網——每日最新資訊28at.com

幾行代碼實現單幀 2 token 表示

LLaMA-VID 的關鍵創新是將每幀畫面的 token 數量壓縮到很低,從而實現可處理超長視頻。q5s28資訊網——每日最新資訊28at.com

很多傳統多模態大模型對于單張圖片編碼的 token 數量過多,導致了視頻時間加長后,所需 token 數量暴增,模型難以承受。q5s28資訊網——每日最新資訊28at.com

為此研究團隊重新設計了圖像的編碼方式,采用上下文編碼(Context Token)和圖像內容編碼(Content Token)來對視頻中的單幀進行編碼。q5s28資訊網——每日最新資訊28at.com

從而實現了將每一幀用 2 個 token 表示。q5s28資訊網——每日最新資訊28at.com

具體來看 LLaMA-VID 的框架。q5s28資訊網——每日最新資訊28at.com

只包含 3 個部分:q5s28資訊網——每日最新資訊28at.com

采用編解碼器產生視覺嵌入和文本引導特征。q5s28資訊網——每日最新資訊28at.com

根據特定 token 生成策略轉換上下文 token 和圖像內容 token。q5s28資訊網——每日最新資訊28at.com

指令調優進一步優化。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

根據指令,LLaMA-VID 選取單個圖像或視頻幀作為輸入,然后從大語言模型上生成回答。q5s28資訊網——每日最新資訊28at.com

這個過程從一個可視編碼器開始,該編碼器將輸入幀轉換為可視幀嵌入。q5s28資訊網——每日最新資訊28at.com

然后文本解碼器根據用戶輸入和圖像編碼器提取的特征,來生成與輸入指令相關的跨模態索引(Text Query)。q5s28資訊網——每日最新資訊28at.com

然后利用注意力機制(Context Attention),將視覺嵌入中和文本相關的視覺線索聚合起來,也就是特征采樣和組合,從而生成高質量的指令相關特征。q5s28資訊網——每日最新資訊28at.com

為了提高效率,模型將可視化嵌入樣本壓縮到不同 token 大小,甚至是一個 token。q5s28資訊網——每日最新資訊28at.com

其中,上下文 token 根據用戶輸入的問題生成,盡可能保留和用戶問題相關的視覺特征。q5s28資訊網——每日最新資訊28at.com

圖像內容 token 則直接根據用戶指令對圖像特征進行池化采樣,更關注圖像本身的內容信息,對上下文 token 未關注到的部分進行補充。q5s28資訊網——每日最新資訊28at.com

文本引導上下文 token 和圖像 token 來一起表示每一幀。q5s28資訊網——每日最新資訊28at.com

最后,大語言模型將用戶指令和所有視覺 token 作為輸入,生成回答。q5s28資訊網——每日最新資訊28at.com

而且這種 token 的生成方法很簡單,僅需幾行代碼。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

實驗結果方面,LLaMA-VID 在多個視頻問答和推理榜單上實現 SOTA。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

僅需加入 1 個上下文 token 拓展,LLaMA-VID 在多個圖片問答指標上也能獲得顯著提升。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

在 16 個視頻、圖片理解及推理數據集上,LLaMA-VID 實現了很好效果。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

在 GitHub 上,團隊提供了不同階段的所有微調模型,以及第一階段的預訓練權重。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

具體訓練包括 3 個過程:特征對齊、指令微調、長視頻微調(相應步驟可參考 GitHub)。q5s28資訊網——每日最新資訊28at.com

此外,LLaMA-VID 還收集了 400 部電影并生成 9K 條長視頻問答語料,包含電影影評、人物成長及情節推理等。q5s28資訊網——每日最新資訊28at.com

結合之前賈佳亞團隊所發布的長文本數據集 LongAlpaca-12k(9k 條長文本問答語料對、3k 短文本問答語料對), 可輕松將現有多模態模型拓展來支持長視頻輸入。q5s28資訊網——每日最新資訊28at.com

值得一提的是,今年 8 月開始賈佳亞團隊就發布了主攻推理分割的 LISA 多模態大模型。q5s28資訊網——每日最新資訊28at.com

10 月還發布了長文本開源大語言模型 LongAlpaca(70 億參數)和超長文本擴展方法 LongLoRA。q5s28資訊網——每日最新資訊28at.com

LongLoRA 只需兩行代碼便可將 7B 模型的文本長度拓展到 100k tokens,70B 模型的文本長度拓展到 32k tokens。q5s28資訊網——每日最新資訊28at.com

最后,團隊也提供了 demo 地址,可自己上傳視頻和 LLaMA-VID 對話(部署在單塊 3090,需要的小伙伴可以參考 code 用更大的顯存部署,直接和整個電影對話)。q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

看來,以后看不懂諾蘭電影,可以請教 AI 試試q5s28資訊網——每日最新資訊28at.com

q5s28資訊網——每日最新資訊28at.com

~q5s28資訊網——每日最新資訊28at.com

論文地址:q5s28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2311.17043q5s28資訊網——每日最新資訊28at.com

GitHub 地址:q5s28資訊網——每日最新資訊28at.com

https://github.com/dvlab-research/LLaMA-VIDq5s28資訊網——每日最新資訊28at.com

demo 地址:q5s28資訊網——每日最新資訊28at.com

http://103.170.5.190:7864/q5s28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:豐色 明敏q5s28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-2892-0.htmlAI 變鑒片大師,星際穿越都能看懂!賈佳亞團隊新作,多模態大模型挑戰超長 3 小時視頻

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 谷歌 OpenAI 大模型巔峰對決!Gemini 激戰 GPT-4,數學代碼卻慘遭碾壓

下一篇: 谷歌發言人承認:Gemini AI 演示視頻內容和語音提示均非實時錄制

標簽:
  • 熱門焦點
Top