1 月 28 日消息,阿里通義千問官方今日發文宣布,開源全新的視覺理解模型 Qwen2.5-VL——Qwen 模型家族的旗艦視覺語言模型,推出了 3B、7B 和 72B 三個尺寸版本。
附 Qwen2.5-VL 的主要特點如下:
視覺理解:Qwen2.5-VL 不僅擅長識別常見物體,如花、鳥、魚和昆蟲,還能夠分析圖像中的文本、圖表、圖標、圖形和布局。
代理:Qwen2.5-VL 直接作為一個視覺 Agent,可以推理并動態地使用工具,初步具備了使用電腦和使用手機的能力。
理解長視頻和捕捉事件:Qwen2.5-VL 能夠理解超過 1 小時的視頻,并且這次它具備了通過精準定位相關視頻片段來捕捉事件的新能力。
視覺定位:Qwen2.5-VL 可以通過生成 bounding boxes 或者 points 來準確定位圖像中的物體,并能夠為坐標和屬性提供穩定的 JSON 輸出。
結構化輸出:對于發票、表單、表格等數據,Qwen2.5-VL 支持其內容的結構化輸出,惠及金融、商業等領域的應用。
據官方介紹,在旗艦模型 Qwen2.5-VL-72B-Instruct 的測試中,它在一系列涵蓋多個領域和任務的基準測試中表現出色,包括大學水平的問題、數學、文檔理解、視覺問答、視頻理解和視覺 Agent。Qwen2.5-VL 在理解文檔和圖表方面具有優勢,并且能夠作為視覺 Agent 進行操作,而無需特定任務的微調。
另外,在較小的模型方面,Qwen2.5-VL-7B-Instruct 在多個任務中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作為端側 AI 的潛力股,超越了之前版本 Qwen2-VL 的 7B 模型。
阿里通義千問官方表示,與 Qwen2-VL 相比,Qwen2.5-VL 增強了模型對時間和空間尺度的感知能力,并進一步簡化了網絡結構以提高模型效率。后續將進一步提升模型的問題解決和推理能力,同時整合更多模態,使模型變得更加智能,并向能夠處理多種輸入類型和任務的綜合全能模型邁進。
本文鏈接:http://www.tebozhan.com/showinfo-45-10327-0.html阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源:三尺寸版本、支持理解長視頻和捕捉事件等能力
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com