1 月 23 日消息,北京智譜華章科技有限公司今日發(fā)文宣布,旗下智譜 GLM-PC 開放體驗(yàn),宣稱“自主操作電腦的多模態(tài) Agent 再升級(jí)”。
據(jù)介紹,GLM-PC 是基于智譜多模態(tài)大模型 CogAgent,全球首個(gè)面向公眾、回車即用的電腦智能體(agent)。它能像人類一樣「觀察」和「操作」計(jì)算機(jī),協(xié)助用戶完成各類電腦任務(wù)。GLM-PC v1.0 于 2024 年 11 月 29 日發(fā)布并開放內(nèi)測(cè),目前最新推出「深度思考」模式、增加專用于做邏輯推理和代碼生成的功能、并提供了對(duì) Windows 系統(tǒng)的支持。
從智譜官方獲悉,GLM-PC 具備如下能力:
代碼生成與邏輯執(zhí)行規(guī)劃:支持綜合分析目標(biāo)以及可用資源,生成執(zhí)行路線圖,并將大型任務(wù)自動(dòng)分解為可管理的子任務(wù),以構(gòu)建出清晰的執(zhí)行路徑。
循環(huán)執(zhí)行:規(guī)劃階段結(jié)束后,支持啟動(dòng)代碼生成模塊,執(zhí)行邏輯循環(huán),逐步推進(jìn)任務(wù)完成。該循環(huán)機(jī)制確保了任務(wù)的精確執(zhí)行與高度自動(dòng)化,從而實(shí)現(xiàn)從輸入到輸出的完整閉環(huán),無需人工干預(yù)
長(zhǎng)思考能力:支持實(shí)時(shí)調(diào)整、反思修正和自我糾錯(cuò),持續(xù)優(yōu)化解決方案。具體表現(xiàn)為:流程因外部因素中斷時(shí),可重構(gòu)邏輯路徑;遇到信息缺失時(shí),可主動(dòng)與用戶進(jìn)行交互,通過提問來完善任務(wù)執(zhí)行方案
圖像與 GUI 認(rèn)知GUI 圖像理解:準(zhǔn)確識(shí)別圖形界面元素(如按鈕、圖標(biāo)、布局等),并理解其功能與交互邏輯
用戶行為認(rèn)知:結(jié)合對(duì)用戶界面的學(xué)習(xí)及歷史操作信息的理解,為用戶提供當(dāng)前界面的智能推薦操作
圖像語義解析:對(duì)復(fù)雜圖像進(jìn)行深入語義分析,提取關(guān)鍵信息如文字、標(biāo)識(shí)符及數(shù)據(jù)可視化圖表中的趨勢(shì)和指標(biāo)
多模態(tài)信息融合:融合圖像與文字信息,形成全面感知結(jié)果。例如,在用戶界面中同時(shí)識(shí)別按鈕位置與文字標(biāo)簽,助力「左腦」制定精準(zhǔn)操作計(jì)劃
本文鏈接:http://www.tebozhan.com/showinfo-45-10144-0.html自主操作電腦的多模態(tài) Agent 升級(jí),智譜 GLM-PC 開放體驗(yàn)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 提升機(jī)器人 3D 操作能力,北京大學(xué)與智元機(jī)器人聯(lián)合實(shí)驗(yàn)室發(fā)布 OmniManip