10 月 29 日消息,科技媒體 marktechpost 于 10 月 24 日發布博文,報道稱微軟公司宣布開源 OmniParser,是一款解析和識別屏幕上可交互圖標的AI 工具。
項目背景傳統的自動化方法通常依賴于解析 HTML 或視圖層次結構,從而限制了其在非網絡環境中的適用性。
而包括 GPT-4V 在內的現有的視覺語言模型(VLMs),并不擅長解讀復雜 GUI 元素,導致動作定位不準確。
項目簡介微軟為了克服這些障礙,推出了 OmniParser,是一種純視覺基礎的工具,旨在填補當前屏幕解析技術中的空白。
該工具并不需要依賴額外的上下文數據,可以理解更復雜的圖形用戶界面(GUI),是智能 GUI 自動化領域的一項令人興奮的進展。
OmniParser 結合可交互區域檢測模型、圖標描述模型和 OCR 模塊等,不需要 HTML 標簽或視圖層次結構等顯式基礎數據,能夠在桌面、移動設備和網頁等上跨平臺工作,提高用戶界面的解析準確性。
OmniParser 除了識別屏幕上的元素,還能將這些元素轉換成結構化的數據。
OmniParser 在多個基準測試中顯示出優越的性能。例如,在 ScreenSpot 數據集中,其準確率提高了 73%,顯著超越依賴 HTML 解析的模型。
這一設計不僅能生成類似文檔對象模型(DOM)的結構化表示,還能通過疊加邊界框和功能標簽來引導語言模型做出更準確的用戶動作預測。
同時,GPT-4V 在使用 OmniParser 輸出后,圖標的正確標記率從 70.5% 提升至 93.8%。這些改進表明,OmniParser 能夠有效解決當前 GUI 交互模型的根本缺陷。
OmniParser 的發布不僅拓寬了智能體的應用范圍,也為開發者提供了一個強大的工具,助力創建更智能、更高效的用戶界面驅動智能體。微軟目前已在 Hugging Face 上發布 OmniParser,普及這一前沿技術,將進一步推動多模態 AI 的發展,特別是在無障礙、自動化和智能用戶輔助等領域。
附上參考地址
Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured Elements
Microsoft’s New vision based GUI agent — OmniParser
OmniParser for Pure Vision Based GUI Agent
本文鏈接:http://www.tebozhan.com/showinfo-45-9349-0.html微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V 秒懂屏幕截圖,可操控手機 電腦
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com