4月11日消息,蘋果近日發(fā)布了最新的多模態(tài)大語言模型Ferret-UI,該模型專為理解和與移動UI屏幕交互而設(shè)計。Ferret-UI在所有基本UI任務(wù)上的表現(xiàn)均超越了GPT-4V,顯示出了卓越的理解和交互能力。
據(jù)ITBEAR科技資訊了解,F(xiàn)erret-UI作為一種新的多模態(tài)大型語言模型(MLLM),具備指向、定位和推理等多重功能,能夠有效理解和交互移動UI屏幕上的信息。它通過靈活的輸入格式和基礎(chǔ)任務(wù),在移動用戶界面屏幕上執(zhí)行各種引用任務(wù)。Ferret-UI的一個顯著特點是“任何分辨率”技術(shù),通過放大細(xì)節(jié)來解決UI屏幕中小型對象的識別問題,從而提升了對UI元素的理解精度。
此外,F(xiàn)erret-UI不僅能夠在詳細(xì)描述和感知對話中討論視覺元素,還能在交互對話中提出目標(biāo)導(dǎo)向的動作,并通過函數(shù)推理來推斷屏幕的整體功能。研究人員為了增強模型的推理能力,特別編譯了用于高級任務(wù)的數(shù)據(jù)集,包括詳細(xì)描述、感知/交互對話和函數(shù)推理等方面的數(shù)據(jù)。
在基礎(chǔ)任務(wù)性能的比較上,F(xiàn)erret-UI展現(xiàn)出了對UI屏幕的出色理解能力以及執(zhí)行開放式指令的能力。這項技術(shù)的掌握使得AI能夠像人類一樣進行交互,預(yù)示著蘋果未來可能將改變MLLM的游戲規(guī)則。
通過獨特的模型架構(gòu)和數(shù)據(jù)集訓(xùn)練方法,F(xiàn)erret-UI實現(xiàn)了對移動UI屏幕的深入理解和有效交互,為用戶帶來了更為智能和便捷的操作體驗。這一技術(shù)的突破,無疑將推動科技行業(yè)向更智能化、人性化的方向發(fā)展。
本文鏈接:http://www.tebozhan.com/showinfo-45-5129-0.html蘋果放大招!新模型Ferret-UI將顛覆AI交互?
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com