微軟 OmniParser 作為一款獨(dú)具特色的基于純視覺(jué)的 GUI 智能體,能夠精準(zhǔn)解析和識(shí)別屏幕上可交互圖標(biāo),此前與 GPT-4V 搭配時(shí),其識(shí)別能力便得到顯著增強(qiáng),在行業(yè)內(nèi)備受關(guān)注。
2 月 12 日,微軟在官方網(wǎng)站正式發(fā)布了 OmniParser 的最新版本 ——V2.0。這一版本實(shí)現(xiàn)了重大突破,它能夠?qū)?OpenAI(4o /o1 /o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等多種模型,巧妙轉(zhuǎn)化為可操控計(jì)算機(jī)的 AI 智能體。這意味著,開(kāi)發(fā)者和用戶(hù)能夠借助更多不同類(lèi)型的模型,拓展 AI 智能體的應(yīng)用場(chǎng)景與功能邊界。
與舊版本 V1 相比,OmniParser V2 在技術(shù)層面進(jìn)行了深度優(yōu)化。它采用了規(guī)模更為龐大的交互元素檢測(cè)數(shù)據(jù)以及圖標(biāo)功能標(biāo)題數(shù)據(jù)開(kāi)展訓(xùn)練。如此一來(lái),在檢測(cè)較小的可交互 UI 元素時(shí),新版本展現(xiàn)出了卓越的性能。不僅準(zhǔn)確率得到大幅提升,推理速度也顯著加快,延遲降低幅度高達(dá) 60%。
在高分辨率 Agent 基準(zhǔn)測(cè)試 ScreenSpot Pro 中,V2 版本搭配 GPT-4o 的組合,準(zhǔn)確率飆升至 39.6%,而 GPT-4o 原始狀態(tài)下的準(zhǔn)確率僅為 0.8%,對(duì)比之下,V2 版本的優(yōu)勢(shì)一目了然。
為了進(jìn)一步推動(dòng) AI 智能體技術(shù)的發(fā)展,方便開(kāi)發(fā)者更快地對(duì)不同智能體設(shè)置進(jìn)行實(shí)驗(yàn),微軟還開(kāi)源了 OmniTool。
本文鏈接:http://www.tebozhan.com/showinfo-27-131395-0.html微軟 OmniParser 升級(jí)至 V2.0
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com