1 月 23 日消息,北京智譜華章科技有限公司今日發文宣布,旗下智譜 GLM-PC 開放體驗,宣稱“自主操作電腦的多模態 Agent 再升級”。
據介紹,GLM-PC 是基于智譜多模態大模型 CogAgent,全球首個面向公眾、回車即用的電腦智能體(agent)。它能像人類一樣「觀察」和「操作」計算機,協助用戶完成各類電腦任務。GLM-PC v1.0 于 2024 年 11 月 29 日發布并開放內測,目前最新推出「深度思考」模式、增加專用于做邏輯推理和代碼生成的功能、并提供了對 Windows 系統的支持。
從智譜官方獲悉,GLM-PC 具備如下能力:
代碼生成與邏輯執行規劃:支持綜合分析目標以及可用資源,生成執行路線圖,并將大型任務自動分解為可管理的子任務,以構建出清晰的執行路徑。
循環執行:規劃階段結束后,支持啟動代碼生成模塊,執行邏輯循環,逐步推進任務完成。該循環機制確保了任務的精確執行與高度自動化,從而實現從輸入到輸出的完整閉環,無需人工干預
長思考能力:支持實時調整、反思修正和自我糾錯,持續優化解決方案。具體表現為:流程因外部因素中斷時,可重構邏輯路徑;遇到信息缺失時,可主動與用戶進行交互,通過提問來完善任務執行方案
圖像與 GUI 認知GUI 圖像理解:準確識別圖形界面元素(如按鈕、圖標、布局等),并理解其功能與交互邏輯
用戶行為認知:結合對用戶界面的學習及歷史操作信息的理解,為用戶提供當前界面的智能推薦操作
圖像語義解析:對復雜圖像進行深入語義分析,提取關鍵信息如文字、標識符及數據可視化圖表中的趨勢和指標
多模態信息融合:融合圖像與文字信息,形成全面感知結果。例如,在用戶界面中同時識別按鈕位置與文字標簽,助力「左腦」制定精準操作計劃
本文鏈接:http://www.tebozhan.com/showinfo-45-10144-0.html自主操作電腦的多模態 Agent 升級,智譜 GLM-PC 開放體驗
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com