12 月 27 日消息,清華 KEG 實驗室近日和智譜 AI 合作,聯合推出了新一代圖像理解大模型 CogAgent。
該模型基于此前推出的 CogVLM,通過視覺 GUI Agent,使用視覺模態(而非文本)對 GUI 界面進行更全面直接的感知,從而作出規劃和決策。
CogAgent 可以接受 1120×1120 的高分辨率圖像輸入,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,在 9 個經典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績。
例如,用戶輸入一張關于 CogVLM 項目的 GitHub 的圖片,然后詢問如何給這個項目點“Star”,然后 CogAgent 就會反饋出結果。
例如用戶輸入一張原神游戲的截圖,可以詢問“當前任務中的隊友是誰?”,CogAgent 會給出相關的回答。
附上相關信息地址如下:
論文:https://arxiv.org/abs/2312.08914
Demo:Streamlit
代碼:https://github.com/THUDM/CogVLM
本文鏈接:http://www.tebozhan.com/showinfo-45-3084-0.html清華大學合作推出看圖答題小能手 CogAgent:可告知《原神》游戲操作步驟等
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com