AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機 電腦

來源: 責編: 時間:2024-11-01 09:38:39 37觀看
導讀 10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發布博文,報道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標的AI 工具。項目背景傳統的自動化方法通常依賴于解析 HTML 或視圖層次結

10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發布博文,報道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標的AI 工具。Ram28資訊網——每日最新資訊28at.com

項目背景

傳統的自動化方法通常依賴于解析 HTML 或視圖層次結構,從而限制了其在非網絡環境中的適用性。Ram28資訊網——每日最新資訊28at.com

而包括 GPT-4V 在內的現有的視覺語言模型(VLMs),并不擅長解讀復雜 GUI 元素,導致動作定位不準確。Ram28資訊網——每日最新資訊28at.com

項目簡介

微軟為了克服這些障礙,推出了 OmniParser,是一種純視覺基礎的工具,旨在填補當前屏幕解析技術中的空白。Ram28資訊網——每日最新資訊28at.com

Ram28資訊網——每日最新資訊28at.com

該工具并不需要依賴額外的上下文數據,可以理解更復雜的圖形用戶界面(GUI),是智能 GUI 自動化領域的一項令人興奮的進展。Ram28資訊網——每日最新資訊28at.com

OmniParser 結合可交互區域檢測模型、圖標描述模型和 OCR 模塊等,不需要 HTML 標簽或視圖層次結構等顯式基礎數據,能夠在桌面、移動設備和網頁等上跨平臺工作,提高用戶界面的解析準確性。Ram28資訊網——每日最新資訊28at.com

OmniParser 除了識別屏幕上的元素,還能將這些元素轉換成結構化的數據。Ram28資訊網——每日最新資訊28at.com

Ram28資訊網——每日最新資訊28at.com

Ram28資訊網——每日最新資訊28at.com

Ram28資訊網——每日最新資訊28at.com

Ram28資訊網——每日最新資訊28at.com

測試表現

OmniParser 在多個基準測試中顯示出優越的性能。例如,在 ScreenSpot 數據集中,其準確率提高了 73%,顯著超越依賴 HTML 解析的模型。Ram28資訊網——每日最新資訊28at.com

Ram28資訊網——每日最新資訊28at.com

Ram28資訊網——每日最新資訊28at.com

Ram28資訊網——每日最新資訊28at.com

這一設計不僅能生成類似文檔對象模型(DOM)的結構化表示,還能通過疊加邊界框和功能標簽來引導語言模型做出更準確的用戶動作預測。Ram28資訊網——每日最新資訊28at.com

同時,GPT-4V 在使用 OmniParser 輸出后,圖標的正確標記率從 70.5% 提升至 93.8%。這些改進表明,OmniParser 能夠有效解決當前 GUI 交互模型的根本缺陷。Ram28資訊網——每日最新資訊28at.com

OmniParser 的發布不僅拓寬了智能體的應用范圍,也為開發者提供了一個強大的工具,助力創建更智能、更高效的用戶界面驅動智能體。微軟目前已在 Hugging Face 上發布 OmniParser,普及這一前沿技術,將進一步推動多模態 AI 的發展,特別是在無障礙、自動化和智能用戶輔助等領域。Ram28資訊網——每日最新資訊28at.com

附上參考地址Ram28資訊網——每日最新資訊28at.com

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured ElementsRam28資訊網——每日最新資訊28at.com

Microsoft’s New vision based GUI agent — OmniParserRam28資訊網——每日最新資訊28at.com

OmniParser for Pure Vision Based GUI AgentRam28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-9349-0.html微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機 電腦

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 智源推出全能視覺生成模型 OmniGen:支持文生圖、圖像編輯等

下一篇: GLM-4-Plus賦能“閱讀智能體”,效率飆升300%?

標簽:
  • 熱門焦點
  • 數字虛擬人23年最新變化!

    作者:小資來源:米塔之家自2021年元宇宙“爆炸”后,作為現實世界連接元宇宙的媒介之一,大批虛擬人跑步入場。到了2022年底,據天眼查數據顯示,我國目前企業名稱或經營范圍
  • 從科幻走進現實,元宇宙概念逐漸清晰

    2021年,元宇宙概念如同一顆炸彈投進互聯網行業,掀起了一場數字海嘯,眾多企業紛紛入局,在此新領域展開新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻紅,元宇宙走進資本圈2021年3
  • 字節跳動,剛剛投了一位虛擬女生

    今年第一筆虛擬人融資出爐了。投資界獲悉,杭州李未可科技有限公司顯示發生股東變更,新增字節跳動關聯公司北京量子躍動科技有限公司。今天公司方面正式確認,本輪
  • 好萊塢:一股新的電影制作加密浪潮將顛覆這個行業

    在Moviecoin.com平臺上,有一部電影設定了一個前所未有的目標,即通過預售NFT獲得100%的全額融資,這部電影就是馬克·奧康納(Mark O’connor)執導的《Oui Cannes》,
  • 索尼公布PSVR 2頭顯渲染圖;社區開發者發布Quest版《我的世界》

    近日熱點:索尼正式公布PSVR 2頭顯及控制器官方渲染圖;入局元宇宙,鴻海科技與XRSPACE簽訂合作備忘錄;研究人員表示面部追蹤可增強VR操控體驗;社區開發者QuestCraft發
  • 虛擬數字人:元宇宙的主角破圈而來

    虛擬數字人市場逐步進入成熟期,商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生,虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破,制
  • 量子計算在未來能否提高區塊鏈技術的效率

    區塊鏈技術的主要成功之處在于對不透明的金融流程進行了去中心化的訪問量子計算機的內在目標是解決傳統計算機不可能解決的問題隨著區塊鏈技術的使用案例逐漸
  • 元宇宙風歸何處?

    元宇宙持續大火,在過去一段時間內,其屢次登上熱點,吸引了一波又一波投資者。近期,在“2022中國·金魚嘴元宇宙生態賦能大會”上,南京建鄴區金魚嘴基金街區宣布計劃
  • NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣,究竟有何潛力?

    Block-810多個區塊鏈吸引了希望創建單個NFT或整個集合的用戶的注意。Tezos是其中因其低費用和低碳排放方式而備受贊譽的區塊鏈,就連Snoop Dogg也希望通過公開他
Top