當(dāng)前位置：首頁 > 元宇宙 > AI

微軟開源 OmniParser 純視覺 GUI 智能體：讓 GPT-4V 秒懂屏幕截圖，可操控手機(jī) 電腦

來源：責(zé)編：時間：2024-11-01 09:38:39 83觀看

導(dǎo)讀 10 月 29 日消息，科技媒體 marktechpost 于 10 月 24 日發(fā)布博文，報(bào)道稱微軟公司宣布開源 OmniParser，是一款解析和識別屏幕上可交互圖標(biāo)的AI 工具。項(xiàng)目背景傳統(tǒng)的自動化方法通常依賴于解析 HTML 或視圖層次結(jié)

10 月 29 日消息，科技媒體 marktechpost 于 10 月 24 日發(fā)布博文，報(bào)道稱微軟公司宣布開源 OmniParser，是一款解析和識別屏幕上可交互圖標(biāo)的AI 工具。

項(xiàng)目背景

傳統(tǒng)的自動化方法通常依賴于解析 HTML 或視圖層次結(jié)構(gòu)，從而限制了其在非網(wǎng)絡(luò)環(huán)境中的適用性。

而包括 GPT-4V 在內(nèi)的現(xiàn)有的視覺語言模型（VLMs），并不擅長解讀復(fù)雜 GUI 元素，導(dǎo)致動作定位不準(zhǔn)確。

項(xiàng)目簡介

微軟為了克服這些障礙，推出了 OmniParser，是一種純視覺基礎(chǔ)的工具，旨在填補(bǔ)當(dāng)前屏幕解析技術(shù)中的空白。

該工具并不需要依賴額外的上下文數(shù)據(jù)，可以理解更復(fù)雜的圖形用戶界面（GUI），是智能 GUI 自動化領(lǐng)域的一項(xiàng)令人興奮的進(jìn)展。

OmniParser 結(jié)合可交互區(qū)域檢測模型、圖標(biāo)描述模型和 OCR 模塊等，不需要 HTML 標(biāo)簽或視圖層次結(jié)構(gòu)等顯式基礎(chǔ)數(shù)據(jù)，能夠在桌面、移動設(shè)備和網(wǎng)頁等上跨平臺工作，提高用戶界面的解析準(zhǔn)確性。

OmniParser 除了識別屏幕上的元素，還能將這些元素轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)。

測試表現(xiàn)

OmniParser 在多個基準(zhǔn)測試中顯示出優(yōu)越的性能。例如，在 ScreenSpot 數(shù)據(jù)集中，其準(zhǔn)確率提高了 73%，顯著超越依賴 HTML 解析的模型。

這一設(shè)計(jì)不僅能生成類似文檔對象模型（DOM）的結(jié)構(gòu)化表示，還能通過疊加邊界框和功能標(biāo)簽來引導(dǎo)語言模型做出更準(zhǔn)確的用戶動作預(yù)測。

同時，GPT-4V 在使用 OmniParser 輸出后，圖標(biāo)的正確標(biāo)記率從 70.5% 提升至 93.8%。這些改進(jìn)表明，OmniParser 能夠有效解決當(dāng)前 GUI 交互模型的根本缺陷。

OmniParser 的發(fā)布不僅拓寬了智能體的應(yīng)用范圍，也為開發(fā)者提供了一個強(qiáng)大的工具，助力創(chuàng)建更智能、更高效的用戶界面驅(qū)動智能體。微軟目前已在 Hugging Face 上發(fā)布 OmniParser，普及這一前沿技術(shù)，將進(jìn)一步推動多模態(tài) AI 的發(fā)展，特別是在無障礙、自動化和智能用戶輔助等領(lǐng)域。

附上參考地址

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured Elements

Microsoft’s New vision based GUI agent — OmniParser

OmniParser for Pure Vision Based GUI Agent

本文鏈接：http://www.tebozhan.com/showinfo-45-9349-0.html微軟開源 OmniParser 純視覺 GUI 智能體：讓 GPT-4V 秒懂屏幕截圖，可操控手機(jī) 電腦

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：智源推出全能視覺生成模型 OmniGen：支持文生圖、圖像編輯等

下一篇： GLM-4-Plus賦能“閱讀智能體”，效率飆升300%？

標(biāo)簽：

熱門焦點(diǎn)

拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時間6月6日凌晨，蘋果2023年全球開發(fā)者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
從科幻走進(jìn)現(xiàn)實(shí)，元宇宙概念逐漸清晰

2021年，元宇宙概念如同一顆炸彈投進(jìn)互聯(lián)網(wǎng)行業(yè)，掀起了一場數(shù)字海嘯，眾多企業(yè)紛紛入局，在此新領(lǐng)域展開新探索。那么，加速狂奔的元宇宙究竟是什么？概念翻紅，元宇宙走進(jìn)資本圈2021年3
頂流IP“冰墩墩”帶著中國元素NFT進(jìn)入全球視野

一場被國際奧委會主席評價(jià)堪稱獨(dú)具匠心、非凡卓越的2022年北京冬季奧運(yùn)會，在這個“雙奧之城”經(jīng)歷了16個令人難忘的精彩日夜，最終圓滿閉幕。讓我們印象深刻的不
吸金31億美元，誰在催火2021年的鏈游？

2021年究竟發(fā)生了什么，才使得鏈游領(lǐng)域在這年一飛沖天？作者：廖羽2022年2月16日，Invest Game發(fā)布《2021年全球游戲投資報(bào)告》，報(bào)告顯示，游戲行業(yè)的投資重點(diǎn)正在向區(qū)塊
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經(jīng)存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
頭像類NFTs的統(tǒng)治能持續(xù)多久？

在過去的一兩年里，NFTs在互聯(lián)網(wǎng)世界中掀起了一場風(fēng)暴。今天，當(dāng)我們想到NFTs時，我們主要想到的是那些充斥著我們的社交媒體屏幕的數(shù)字卡通--無聊猿、punks 和介于
從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

去年8月9日，騰訊音樂布局NFT數(shù)字收藏，在騰訊應(yīng)用寶發(fā)布幻核app，騰訊音樂的提前布局示意著未來區(qū)塊鏈技術(shù)將對數(shù)字音樂版權(quán)市場進(jìn)行改造升級。作者從深層測分析為
初探元宇宙

2021年可以被稱為“元宇宙”元年。繼2021年3月沙盒游戲平臺Roblox將“元宇宙”概念放入招股書中，被稱為“元宇宙”第一股后，F(xiàn)acebook更名為Meta, 引發(fā)全球范圍內(nèi)
TX加入的NFT數(shù)字收藏品，元宇宙的破圈之路?

3月7日，澳大利亞 NFT 初創(chuàng)公司 Immutable 在新加坡淡馬錫牽頭的R資中以估值 25 億美元完成2億美元R資，騰訊參投。想必國人最熟知的應(yīng)該就是TX，作為國內(nèi)四大互聯(lián)網(wǎng)

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

微軟開源 OmniParser 純視覺 GUI 智能體：讓 GPT-4V 秒懂屏幕截圖，可操控手機(jī) 電腦

拯救XR，蘋果力不從心

從科幻走進(jìn)現(xiàn)實(shí)，元宇宙概念逐漸清晰

頂流IP“冰墩墩”帶著中國元素NFT進(jìn)入全球視野

吸金31億美元，誰在催火2021年的鏈游？

下一個黃金賽道？NFT的碎片化!

頭像類NFTs的統(tǒng)治能持續(xù)多久？

從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

初探元宇宙

TX加入的NFT數(shù)字收藏品，元宇宙的破圈之路?

最新推薦

數(shù)字人的AB面：在元宇宙中過氣，在AIGC中重生

“平均時代”：ChatGPT模仿秀的隱喻

避坑指南：遠(yuǎn)離具有這些特性的NFT

從冰墩墩到無聊猿，解秘未來IP爆款的模因

元宇宙是推動NFT發(fā)展的初始家園

爆發(fā)在即的Layer2賽道百花齊放，誰將是領(lǐng)跑者？

猜你喜歡

熱門推薦

相關(guān)資訊

微軟開源 OmniParser 純視覺 GUI 智能體：讓 GPT-4V 秒懂屏幕截圖，可操控手機(jī) 電腦

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

微軟開源 OmniParser 純視覺 GUI 智能體：讓 GPT-4V 秒懂屏幕截圖，可操控手機(jī) 電腦