AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源:三尺寸版本、支持理解長視頻和捕捉事件等能力

來源: 責編: 時間:2025-01-31 10:30:12 56觀看
導讀 1 月 28 日消息,阿里通義千問官方今日發文宣布,開源全新的視覺理解模型 Qwen2.5-VL——Qwen 模型家族的旗艦視覺語言模型,推出了 3B、7B 和 72B 三個尺寸版本。附 Qwen2.5-VL 的主要特點如下:視覺理解:Qwen2.5-VL

1 月 28 日消息,阿里通義千問官方今日發文宣布,開源全新的視覺理解模型 Qwen2.5-VL——Qwen 模型家族的旗艦視覺語言模型,推出了 3B、7B 和 72B 三個尺寸版本。Bvc28資訊網——每日最新資訊28at.com

Bvc28資訊網——每日最新資訊28at.com

附 Qwen2.5-VL 的主要特點如下:Bvc28資訊網——每日最新資訊28at.com

視覺理解:Qwen2.5-VL 不僅擅長識別常見物體,如花、鳥、魚和昆蟲,還能夠分析圖像中的文本、圖表、圖標、圖形和布局。Bvc28資訊網——每日最新資訊28at.com

代理:Qwen2.5-VL 直接作為一個視覺 Agent,可以推理并動態地使用工具,初步具備了使用電腦和使用手機的能力。Bvc28資訊網——每日最新資訊28at.com

理解長視頻和捕捉事件:Qwen2.5-VL 能夠理解超過 1 小時的視頻,并且這次它具備了通過精準定位相關視頻片段來捕捉事件的新能力。Bvc28資訊網——每日最新資訊28at.com

視覺定位:Qwen2.5-VL 可以通過生成 bounding boxes 或者 points 來準確定位圖像中的物體,并能夠為坐標和屬性提供穩定的 JSON 輸出。Bvc28資訊網——每日最新資訊28at.com

結構化輸出:對于發票、表單、表格等數據,Qwen2.5-VL 支持其內容的結構化輸出,惠及金融、商業等領域的應用。Bvc28資訊網——每日最新資訊28at.com

據官方介紹,在旗艦模型 Qwen2.5-VL-72B-Instruct 的測試中,它在一系列涵蓋多個領域和任務的基準測試中表現出色,包括大學水平的問題、數學、文檔理解、視覺問答、視頻理解和視覺 Agent。Qwen2.5-VL 在理解文檔和圖表方面具有優勢,并且能夠作為視覺 Agent 進行操作,而無需特定任務的微調。Bvc28資訊網——每日最新資訊28at.com

Bvc28資訊網——每日最新資訊28at.com

另外,在較小的模型方面,Qwen2.5-VL-7B-Instruct 在多個任務中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作為端側 AI 的潛力股,超越了之前版本 Qwen2-VL 的 7B 模型。Bvc28資訊網——每日最新資訊28at.com

Bvc28資訊網——每日最新資訊28at.com

Bvc28資訊網——每日最新資訊28at.com

阿里通義千問官方表示,與 Qwen2-VL 相比,Qwen2.5-VL 增強了模型對時間和空間尺度的感知能力,并進一步簡化了網絡結構以提高模型效率。后續將進一步提升模型的問題解決和推理能力,同時整合更多模態,使模型變得更加智能,并向能夠處理多種輸入類型和任務的綜合全能模型邁進。Bvc28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10327-0.html阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源:三尺寸版本、支持理解長視頻和捕捉事件等能力

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: DeepSeek 深夜再放大招:7B 參數人人可用的視覺多模態模型 Janus-Pro-7B 開源

下一篇: DeepSeek 應用在意大利應用商店下架,此前曾被該國隱私監管機構盯上

標簽:
  • 熱門焦點
Top