AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機(jī) 電腦

來源: 責(zé)編: 時間:2024-11-01 09:38:39 83觀看
導(dǎo)讀 10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發(fā)布博文,報(bào)道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標(biāo)的AI 工具。項(xiàng)目背景傳統(tǒng)的自動化方法通常依賴于解析 HTML 或視圖層次結(jié)

10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發(fā)布博文,報(bào)道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標(biāo)的AI 工具。FKJ28資訊網(wǎng)——每日最新資訊28at.com

項(xiàng)目背景

傳統(tǒng)的自動化方法通常依賴于解析 HTML 或視圖層次結(jié)構(gòu),從而限制了其在非網(wǎng)絡(luò)環(huán)境中的適用性。FKJ28資訊網(wǎng)——每日最新資訊28at.com

而包括 GPT-4V 在內(nèi)的現(xiàn)有的視覺語言模型(VLMs),并不擅長解讀復(fù)雜 GUI 元素,導(dǎo)致動作定位不準(zhǔn)確。FKJ28資訊網(wǎng)——每日最新資訊28at.com

項(xiàng)目簡介

微軟為了克服這些障礙,推出了 OmniParser,是一種純視覺基礎(chǔ)的工具,旨在填補(bǔ)當(dāng)前屏幕解析技術(shù)中的空白。FKJ28資訊網(wǎng)——每日最新資訊28at.com

FKJ28資訊網(wǎng)——每日最新資訊28at.com

該工具并不需要依賴額外的上下文數(shù)據(jù),可以理解更復(fù)雜的圖形用戶界面(GUI),是智能 GUI 自動化領(lǐng)域的一項(xiàng)令人興奮的進(jìn)展。FKJ28資訊網(wǎng)——每日最新資訊28at.com

OmniParser 結(jié)合可交互區(qū)域檢測模型、圖標(biāo)描述模型和 OCR 模塊等,不需要 HTML 標(biāo)簽或視圖層次結(jié)構(gòu)等顯式基礎(chǔ)數(shù)據(jù),能夠在桌面、移動設(shè)備和網(wǎng)頁等上跨平臺工作,提高用戶界面的解析準(zhǔn)確性。FKJ28資訊網(wǎng)——每日最新資訊28at.com

OmniParser 除了識別屏幕上的元素,還能將這些元素轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)。FKJ28資訊網(wǎng)——每日最新資訊28at.com

FKJ28資訊網(wǎng)——每日最新資訊28at.com

FKJ28資訊網(wǎng)——每日最新資訊28at.com

FKJ28資訊網(wǎng)——每日最新資訊28at.com

FKJ28資訊網(wǎng)——每日最新資訊28at.com

測試表現(xiàn)

OmniParser 在多個基準(zhǔn)測試中顯示出優(yōu)越的性能。例如,在 ScreenSpot 數(shù)據(jù)集中,其準(zhǔn)確率提高了 73%,顯著超越依賴 HTML 解析的模型。FKJ28資訊網(wǎng)——每日最新資訊28at.com

FKJ28資訊網(wǎng)——每日最新資訊28at.com

FKJ28資訊網(wǎng)——每日最新資訊28at.com

FKJ28資訊網(wǎng)——每日最新資訊28at.com

這一設(shè)計(jì)不僅能生成類似文檔對象模型(DOM)的結(jié)構(gòu)化表示,還能通過疊加邊界框和功能標(biāo)簽來引導(dǎo)語言模型做出更準(zhǔn)確的用戶動作預(yù)測。FKJ28資訊網(wǎng)——每日最新資訊28at.com

同時,GPT-4V 在使用 OmniParser 輸出后,圖標(biāo)的正確標(biāo)記率從 70.5% 提升至 93.8%。這些改進(jìn)表明,OmniParser 能夠有效解決當(dāng)前 GUI 交互模型的根本缺陷。FKJ28資訊網(wǎng)——每日最新資訊28at.com

OmniParser 的發(fā)布不僅拓寬了智能體的應(yīng)用范圍,也為開發(fā)者提供了一個強(qiáng)大的工具,助力創(chuàng)建更智能、更高效的用戶界面驅(qū)動智能體。微軟目前已在 Hugging Face 上發(fā)布 OmniParser,普及這一前沿技術(shù),將進(jìn)一步推動多模態(tài) AI 的發(fā)展,特別是在無障礙、自動化和智能用戶輔助等領(lǐng)域。FKJ28資訊網(wǎng)——每日最新資訊28at.com

附上參考地址FKJ28資訊網(wǎng)——每日最新資訊28at.com

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured ElementsFKJ28資訊網(wǎng)——每日最新資訊28at.com

Microsoft’s New vision based GUI agent — OmniParserFKJ28資訊網(wǎng)——每日最新資訊28at.com

OmniParser for Pure Vision Based GUI AgentFKJ28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-9349-0.html微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機(jī) 電腦

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 智源推出全能視覺生成模型 OmniGen:支持文生圖、圖像編輯等

下一篇: GLM-4-Plus賦能“閱讀智能體”,效率飆升300%?

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時間6月6日凌晨,蘋果2023年全球開發(fā)者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 從科幻走進(jìn)現(xiàn)實(shí),元宇宙概念逐漸清晰

    2021年,元宇宙概念如同一顆炸彈投進(jìn)互聯(lián)網(wǎng)行業(yè),掀起了一場數(shù)字海嘯,眾多企業(yè)紛紛入局,在此新領(lǐng)域展開新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻紅,元宇宙走進(jìn)資本圈2021年3
  • 頂流IP“冰墩墩”帶著中國元素NFT進(jìn)入全球視野

    一場被國際奧委會主席評價(jià)堪稱獨(dú)具匠心、非凡卓越的2022年北京冬季奧運(yùn)會,在這個“雙奧之城”經(jīng)歷了16個令人難忘的精彩日夜,最終圓滿閉幕。讓我們印象深刻的不
  • 吸金31億美元,誰在催火2021年的鏈游?

    2021年究竟發(fā)生了什么,才使得鏈游領(lǐng)域在這年一飛沖天?作者:廖羽2022年2月16日,Invest Game發(fā)布《2021年全球游戲投資報(bào)告》,報(bào)告顯示,游戲行業(yè)的投資重點(diǎn)正在向區(qū)塊
  • 下一個黃金賽道?NFT的碎片化!

    碎片化可能是我們一生中最重要的一個投資趨勢,碎片化本身并不新鮮。它已經(jīng)存在了400年之久。早在1602年,荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
  • 頭像類NFTs的統(tǒng)治能持續(xù)多久?

    在過去的一兩年里,NFTs在互聯(lián)網(wǎng)世界中掀起了一場風(fēng)暴。今天,當(dāng)我們想到NFTs時,我們主要想到的是那些充斥著我們的社交媒體屏幕的數(shù)字卡通--無聊猿、punks 和介于
  • 從NFT數(shù)字收藏,洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

    去年8月9日,騰訊音樂布局NFT數(shù)字收藏,在騰訊應(yīng)用寶發(fā)布幻核app,騰訊音樂的提前布局示意著未來區(qū)塊鏈技術(shù)將對數(shù)字音樂版權(quán)市場進(jìn)行改造升級。作者從深層測分析為
  • 初探元宇宙

    2021年可以被稱為“元宇宙”元年。繼2021年3月沙盒游戲平臺Roblox將“元宇宙”概念放入招股書中,被稱為“元宇宙”第一股后,F(xiàn)acebook更名為Meta, 引發(fā)全球范圍內(nèi)
  • TX加入的NFT數(shù)字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亞 NFT 初創(chuàng)公司 Immutable 在新加坡淡馬錫牽頭的R資中以估值 25 億美元完成2億美元R資,騰訊參投。想必國人最熟知的應(yīng)該就是TX,作為國內(nèi)四大互聯(lián)網(wǎng)
Top