8 月 11 日消息,智譜 AI 今日推出全球 100B 級效果最佳的開源視覺推理模型 GLM-4.5V(總參數 106B,激活參數 12B),并同步在魔搭社區與 Hugging Face 開源。此外,API 調用價格低至輸入 2 元 / M tokens,輸出 6 元 / M tokens。
從官方介紹獲悉,GLM-4.5V 基于智譜新一代旗艦文本基座模型 GLM-4.5-Air,延續 GLM-4.1V-Thinking 技術路線,在 41 個公開視覺多模態榜單中綜合效果達到同級別開源模型 SOTA 性能,涵蓋圖像、視頻、文檔理解以及 GUI Agent 等常見任務。
在多模態榜單之外,其更重視模型在真實場景下的表現與可用性。GLM-4.5V 通過高效混合訓練,具備覆蓋不同種視覺內容的處理能力,實現全場景視覺推理,包括:
圖像推理(場景理解、復雜多圖分析、位置識別)
視頻理解(長視頻分鏡分析、事件識別)
GUI 任務(屏幕讀取、圖標識別、桌面操作輔助)
復雜圖表與長文檔解析(研報分析、信息提?。?span style="display:none">apc28資訊網——每日最新資訊28at.com
Grounding 能力(精準定位視覺元素)
同時,模型新增“思考模式”開關,用戶可靈活選擇快速響應或深度推理,平衡效率與效果。為幫助開發者直觀體驗 GLM-4.5V 的模型能力,打造專屬于自己的多模態應用,智譜 AI 同步開源了一款桌面助手應用。
該桌面應用可實時截屏、錄屏獲取屏幕信息,并依托 GLM-4.5V 處理多種視覺推理任務,日常處理如代碼輔助、視頻內容分析、游戲解答、文檔解讀等多類視覺任務,成為一個能看著屏幕和你一起工作娛樂的伙伴。我們也希望通過模型開源和 API 服務,賦能更多有想法的開發者,基于多模態基座模型發揮創意和想象,把過去科幻電影中的場景變為現實。
本文鏈接:http://www.tebozhan.com/showinfo-45-26014-0.html智譜視覺推理模型 GLM-4.5V 上線并開源,號稱“全球 100B 級效果最佳”
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com