AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

AI 讓手機(jī)任務(wù)自動(dòng)“跑”起來!我國高校最新研究,簡(jiǎn)化移動(dòng)設(shè)備操作

來源: 責(zé)編: 時(shí)間:2024-11-04 07:17:50 93觀看
導(dǎo)讀 AI 解放碳基生物雙手,甚至能讓你的手機(jī)自己玩自己!你沒聽錯(cuò) —— 這其實(shí)就是移動(dòng)任務(wù)自動(dòng)化。在 AI 飛速發(fā)展下,這逐漸成為一個(gè)新興的熱門研究領(lǐng)域。移動(dòng)任務(wù)自動(dòng)化利用 AI 精準(zhǔn)捕捉并解析人類意圖,進(jìn)而在移動(dòng)設(shè)

AI 解放碳基生物雙手,甚至能讓你的手機(jī)自己玩自己!gjZ28資訊網(wǎng)——每日最新資訊28at.com

你沒聽錯(cuò) —— 這其實(shí)就是移動(dòng)任務(wù)自動(dòng)化。gjZ28資訊網(wǎng)——每日最新資訊28at.com

在 AI 飛速發(fā)展下,這逐漸成為一個(gè)新興的熱門研究領(lǐng)域。gjZ28資訊網(wǎng)——每日最新資訊28at.com

移動(dòng)任務(wù)自動(dòng)化利用 AI 精準(zhǔn)捕捉并解析人類意圖,進(jìn)而在移動(dòng)設(shè)備(手機(jī)、平板電腦、車機(jī)終端)上高效執(zhí)行多樣化任務(wù),為那些因認(rèn)知局限、身體條件限制或身處特殊情境下的用戶提供前所未有的便捷與支持。gjZ28資訊網(wǎng)——每日最新資訊28at.com

幫助視障人群用戶完成導(dǎo)航、閱讀或網(wǎng)上購物gjZ28資訊網(wǎng)——每日最新資訊28at.com

輔助老年人使用手機(jī),跨越數(shù)字鴻溝gjZ28資訊網(wǎng)——每日最新資訊28at.com

幫助車主在駕駛過程中完成發(fā)送短信或調(diào)節(jié)車內(nèi)環(huán)境gjZ28資訊網(wǎng)——每日最新資訊28at.com

替用戶完成日常生活中普遍存在的重復(fù)性任務(wù)gjZ28資訊網(wǎng)——每日最新資訊28at.com

……gjZ28資訊網(wǎng)——每日最新資訊28at.com

媽媽再也不嫌重復(fù)設(shè)置多個(gè)日歷事項(xiàng)會(huì)心煩了。gjZ28資訊網(wǎng)——每日最新資訊28at.com

最近,來自西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室(MOE KLINNS Lab)的蔡忠閩教授、宋云鵬副教授團(tuán)隊(duì)(團(tuán)隊(duì)主要研究方向?yàn)橹悄苋藱C(jī)交互、混合增強(qiáng)智能、電力系統(tǒng)智能化等),基于團(tuán)隊(duì)最新 AI 研究成果,創(chuàng)新性提出了基于視覺的移動(dòng)設(shè)備任務(wù)自動(dòng)化方案 VisionTasker。gjZ28資訊網(wǎng)——每日最新資訊28at.com

這項(xiàng)研究不僅為普通用戶提供了更智能的移動(dòng)設(shè)備使用體驗(yàn),也展現(xiàn)出了對(duì)特殊需求群體的關(guān)懷與賦能。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

基于視覺的移動(dòng)設(shè)備任務(wù)自動(dòng)化方案

團(tuán)隊(duì)提出了 VisionTasker,一個(gè)結(jié)合基于視覺的 UI 理解和 LLM 任務(wù)規(guī)劃的兩階段框架,用于逐步實(shí)現(xiàn)移動(dòng)任務(wù)自動(dòng)化。gjZ28資訊網(wǎng)——每日最新資訊28at.com

該方案有效消除了表示 UI 對(duì)視圖層次結(jié)構(gòu)的依賴,提高了對(duì)不同應(yīng)用界面的適應(yīng)性。gjZ28資訊網(wǎng)——每日最新資訊28at.com

值得注意的是,利用 VisionTasker 無需大量數(shù)據(jù)訓(xùn)練大模型。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

VisionTasker 從用戶以自然語言提出任務(wù)需求開始工作,Agent 開始理解并執(zhí)行指令。gjZ28資訊網(wǎng)——每日最新資訊28at.com

具體實(shí)現(xiàn)如下:gjZ28資訊網(wǎng)——每日最新資訊28at.com

1、用戶界面理解gjZ28資訊網(wǎng)——每日最新資訊28at.com

VisionTasker 通過視覺的方法做 UI 理解來解析和解釋用戶界面。gjZ28資訊網(wǎng)——每日最新資訊28at.com

首先 Agent 識(shí)別并分析用戶界面上的元素及布局,如按鈕、文本框、文字標(biāo)簽等。gjZ28資訊網(wǎng)——每日最新資訊28at.com

然后,將這些識(shí)別到的視覺信息轉(zhuǎn)換成自然語言描述,用于解釋界面內(nèi)容。gjZ28資訊網(wǎng)——每日最新資訊28at.com

2、任務(wù)規(guī)劃與執(zhí)行gjZ28資訊網(wǎng)——每日最新資訊28at.com

接下來,Agent 利用大語言模型導(dǎo)航,根據(jù)用戶的指令和界面描述信息做任務(wù)規(guī)劃。gjZ28資訊網(wǎng)——每日最新資訊28at.com

將用戶任務(wù)拆解為可執(zhí)行的步驟,如點(diǎn)擊或滑動(dòng)操作,以自動(dòng)推進(jìn)任務(wù)的完成。gjZ28資訊網(wǎng)——每日最新資訊28at.com

3、持續(xù)迭代以上過程gjZ28資訊網(wǎng)——每日最新資訊28at.com

每一步完成后,Agent 都會(huì)根據(jù)最新界面和歷史動(dòng)作更新其對(duì)話和任務(wù)規(guī)劃,確保每一步的決策都是基于當(dāng)前上下文的。gjZ28資訊網(wǎng)——每日最新資訊28at.com

這是個(gè)迭代的過程,將持續(xù)進(jìn)行直到判斷任務(wù)完成或達(dá)到預(yù)設(shè)的限制。gjZ28資訊網(wǎng)——每日最新資訊28at.com

用戶不僅能從交互中解放雙手,還可以通過可見提示監(jiān)控任務(wù)進(jìn)度,并隨時(shí)中斷任務(wù),保持對(duì)整個(gè)流程的控制。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

首先是識(shí)別界面中的小部件和文本,檢測(cè)按鈕、文本框等元素及其位置。gjZ28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于沒有文本標(biāo)簽的按鈕,利用 CLIP 模型基于視覺設(shè)計(jì)來推斷其可能功能。gjZ28資訊網(wǎng)——每日最新資訊28at.com

隨后,系統(tǒng)根據(jù) UI 布局的視覺信息進(jìn)行區(qū)塊劃分,將界面分割成多個(gè)具有不同功能的區(qū)塊,并對(duì)每個(gè)區(qū)塊生成自然語言描述。gjZ28資訊網(wǎng)——每日最新資訊28at.com

這個(gè)過程還包括文本與小部件的匹配,確保正確理解每個(gè)元素的功能。gjZ28資訊網(wǎng)——每日最新資訊28at.com

最終,所有這些信息被轉(zhuǎn)化為自然語言描述,為大語言模型提供清晰、語義豐富的界面信息,使其能夠有效地進(jìn)行任務(wù)規(guī)劃和自動(dòng)化操作。gjZ28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)評(píng)估

實(shí)驗(yàn)評(píng)估部分,該項(xiàng)目提供了對(duì)三種 UI 理解的比較分析,分別是:gjZ28資訊網(wǎng)——每日最新資訊28at.com

GPT-4VgjZ28資訊網(wǎng)——每日最新資訊28at.com

VH(視圖層級(jí))gjZ28資訊網(wǎng)——每日最新資訊28at.com

VisionTasker 方法gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

△ 三種 UI 理解方法的比較分析gjZ28資訊網(wǎng)——每日最新資訊28at.com

對(duì)比顯示,VisionTasker 在多個(gè)維度上比其他方法有顯著優(yōu)勢(shì)。gjZ28資訊網(wǎng)——每日最新資訊28at.com

此外,在處理跨語言應(yīng)用時(shí)也表現(xiàn)出了良好的泛化能力。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

△實(shí)驗(yàn) 1 中使用到的常見 UI 布局gjZ28資訊網(wǎng)——每日最新資訊28at.com

表明 VisionTasker 的以視覺為基礎(chǔ)的 UI 理解方法在理解和解釋 UI 方面具有明顯優(yōu)勢(shì),尤其是在面對(duì)多樣化和復(fù)雜的用戶界面時(shí)尤為明顯。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

△ 跨四個(gè)數(shù)據(jù)集的單步預(yù)測(cè)準(zhǔn)確性gjZ28資訊網(wǎng)——每日最新資訊28at.com

文章還進(jìn)行了單步預(yù)測(cè)實(shí)驗(yàn),根據(jù)當(dāng)前的任務(wù)狀態(tài)和用戶界面,預(yù)測(cè)接下來應(yīng)該執(zhí)行的動(dòng)作或操作。gjZ28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果顯示,VisionTasker 在所有數(shù)據(jù)集上的平均準(zhǔn)確率達(dá)到了 67%,比基線方法提高了 15% 以上。gjZ28資訊網(wǎng)——每日最新資訊28at.com

真實(shí)世界任務(wù):VisionTasker vs 人類gjZ28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)過程中,研究人員設(shè)計(jì)了 147 個(gè)真實(shí)的多步驟任務(wù)來測(cè)試 VisionTasker 的表現(xiàn),這些任務(wù)涵蓋了國內(nèi)常用的 42 個(gè)應(yīng)用程序。gjZ28資訊網(wǎng)——每日最新資訊28at.com

與此同時(shí),團(tuán)隊(duì)還設(shè)置了人類對(duì)比測(cè)試,由 12 名人類評(píng)估者手動(dòng)執(zhí)行這些任務(wù),然后 VisionTasker 的結(jié)果進(jìn)行比較。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果顯示,VisionTasker 在大多數(shù)任務(wù)中能達(dá)到與人類相當(dāng)?shù)耐瓿陕剩⑶以谀承┎皇煜さ娜蝿?wù)中表現(xiàn)優(yōu)于人類。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

△ 實(shí)際任務(wù)自動(dòng)化實(shí)驗(yàn)的結(jié)果“Ours-qwen”是指使用開源 Qwen 實(shí)現(xiàn) VisionTasker 框架,”O(jiān)urs”表示使用文心一言作為 LLMgjZ28資訊網(wǎng)——每日最新資訊28at.com

團(tuán)隊(duì)還評(píng)估了 VisionTasker 在不同條件下的表現(xiàn),包括使用不同的大語言模型(LLM)和編程演示(PBD)機(jī)制。gjZ28資訊網(wǎng)——每日最新資訊28at.com

VisionTasker 在大多數(shù)直觀任務(wù)中達(dá)到了與人類相當(dāng)?shù)耐瓿陕剩谑煜と蝿?wù)中略低于人類但在不熟悉任務(wù)中優(yōu)于人類。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

△VisionTasker 逐步完成任務(wù)的展示gjZ28資訊網(wǎng)——每日最新資訊28at.com

結(jié)論

作為一個(gè)基于視覺和大模型的移動(dòng)任務(wù)自動(dòng)化框架,VisionTasker 克服了現(xiàn)階段移動(dòng)任務(wù)自動(dòng)化對(duì)視圖層級(jí)結(jié)構(gòu)的依賴。gjZ28資訊網(wǎng)——每日最新資訊28at.com

通過一系列對(duì)比實(shí)驗(yàn),證明其在用戶界面表現(xiàn)上超越了傳統(tǒng)的編程演示和視圖層級(jí)結(jié)構(gòu)方法。gjZ28資訊網(wǎng)——每日最新資訊28at.com

它在 4 個(gè)不同的數(shù)據(jù)集上都展示了高效的 UI 表示能力,表現(xiàn)出更廣泛的應(yīng)用性;并在 Android 手機(jī)上的 147 個(gè)真實(shí)世界任務(wù)中,特別是在復(fù)雜任務(wù)的處理上,表現(xiàn)了出超越人類的任務(wù)完成能力。gjZ28資訊網(wǎng)——每日最新資訊28at.com

此外,通過集成編程演示(PBD)機(jī)制,VisionTasker 在任務(wù)自動(dòng)化方面有顯著的性能提升。gjZ28資訊網(wǎng)——每日最新資訊28at.com

目前,該工作已以正式論文的形式發(fā)表于 2024 年 10 月 13-16 日在美國匹茲堡舉行的人機(jī)交互頂級(jí)會(huì)議 UIST(The ACM Symposium on User Interface Software and Technology)。gjZ28資訊網(wǎng)——每日最新資訊28at.com

UIST 是人機(jī)交互領(lǐng)域?qū)W⒂谌藱C(jī)界面軟件和技術(shù)創(chuàng)新的 CCF A 類頂級(jí)學(xué)術(shù)會(huì)議。gjZ28資訊網(wǎng)——每日最新資訊28at.com

gjZ28資訊網(wǎng)——每日最新資訊28at.com

原文鏈接:https://dl.acm.org/ doi / 10.1145/3654777.3676386gjZ28資訊網(wǎng)——每日最新資訊28at.com

項(xiàng)目鏈接:https://github.com/ AkimotoAyako / VisionTaskergjZ28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:關(guān)注前沿科技gjZ28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-9361-0.htmlAI 讓手機(jī)任務(wù)自動(dòng)“跑”起來!我國高校最新研究,簡(jiǎn)化移動(dòng)設(shè)備操作

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 榮耀平板GT Pro來襲!驍龍8s Gen 3+10050mAh電池,續(xù)航強(qiáng)勁?

下一篇: Python 成 GitHub 最受歡迎編程語言,AI 成主要推動(dòng)力

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 清華、北大等86所高校布局元宇宙,是風(fēng)口還是噱頭?

    作者:徐賜豪來源:區(qū)塊鏈日?qǐng)?bào)據(jù)全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟元宇宙專委會(huì)不完全統(tǒng)計(jì),截至2023年7月,全國共有86所高校戰(zhàn)略布局元宇宙領(lǐng)域,其中本科院校73所,高職專科院校13所
  • 數(shù)字人的AB面:在元宇宙中過氣,在AIGC中重生

    來源:光錐智能作者:郝 鑫“29800元一年的虛擬主播,號(hào)稱24小時(shí)不停播,月入十幾萬,實(shí)際上卻是關(guān)鍵詞都不能回復(fù),播了半個(gè)月,直播間還因違規(guī)被快手封禁,最終投訴無門、退款無果。&
  • AIGC產(chǎn)品測(cè)評(píng)TOP25丨誰能搶到下個(gè)十年的“船票”?

    Tech星球(微信ID:tech618) 文 | 何煦陽策劃 | 楊曉鶴封面來源 | 圖蟲創(chuàng)意 2016年,李彥宏站在百度聯(lián)盟峰會(huì)的講臺(tái)上,向所有人宣布:互聯(lián)網(wǎng)的下一幕是人工智能。同年,Google 旗下 Dee
  • 藍(lán)標(biāo)虧錢、Meta裁員:天下秀還值得砸錢元宇宙嗎?

    日前,天下秀數(shù)字科技集團(tuán)正式公布了2022年報(bào)及2023年一季報(bào)。報(bào)告顯示,2022年天下秀實(shí)現(xiàn)營(yíng)收41.29億元,同比下滑8.48%;歸母凈利潤(rùn)1.8億元,同比下滑49.2%,幾乎出現(xiàn)了盈利腰斬的態(tài)勢(shì)
  • 頂流IP“冰墩墩”帶著中國元素NFT進(jìn)入全球視野

    一場(chǎng)被國際奧委會(huì)主席評(píng)價(jià)堪稱獨(dú)具匠心、非凡卓越的2022年北京冬季奧運(yùn)會(huì),在這個(gè)“雙奧之城”經(jīng)歷了16個(gè)令人難忘的精彩日夜,最終圓滿閉幕。讓我們印象深刻的不
  • 全面擁抱“虛擬世界”,摩登天空要打造“音樂元宇宙”

    作者:袁佳琦沈黎暉不怎么打游戲,但許多事兒在他眼里都“有意思”。好玩,有意思,是他的口頭禪,在接受娛樂獨(dú)角獸的采訪過程中,他多次提到,做虛擬音樂人,“是件挺好玩的
  • 「國產(chǎn)良心」NFT嘲諷了誰?

    2月23日,一個(gè)名為「國產(chǎn)良心」的NFT項(xiàng)目被許多活躍的加密用戶注意到。該項(xiàng)目的官網(wǎng)風(fēng)格尤為「不正經(jīng)」,它絲毫沒有避諱自己的小作坊出身,還將「中國人不騙中國人
  • Meta 在衰落嗎?

    扎克伯格已經(jīng)很久沒有出現(xiàn)在公眾視野里了,近日,他罕見的接受播客采訪,在兩個(gè)小時(shí)的時(shí)間里暢談了Meta、Facebook、Instagram、元宇宙的未來。正方觀點(diǎn):是的阿倫·達(dá)
  • 虛擬人行業(yè)研究報(bào)告

    最早的虛擬人出現(xiàn)于 20 世紀(jì) 80 年代,受限于技術(shù),當(dāng)時(shí)的虛擬人制作以手繪為主。21 世紀(jì)初,隨著動(dòng)捕、渲染等技術(shù)的逐步發(fā)展,虛擬人相關(guān)技術(shù)開始在影視領(lǐng)域逐漸普及
Top