AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

AI 讓手機任務自動“跑”起來!我國高校最新研究,簡化移動設備操作

來源: 責編: 時間:2024-11-04 07:17:50 44觀看
導讀 AI 解放碳基生物雙手,甚至能讓你的手機自己玩自己!你沒聽錯 —— 這其實就是移動任務自動化。在 AI 飛速發展下,這逐漸成為一個新興的熱門研究領域。移動任務自動化利用 AI 精準捕捉并解析人類意圖,進而在移動設

AI 解放碳基生物雙手,甚至能讓你的手機自己玩自己!xh028資訊網——每日最新資訊28at.com

你沒聽錯 —— 這其實就是移動任務自動化。xh028資訊網——每日最新資訊28at.com

在 AI 飛速發展下,這逐漸成為一個新興的熱門研究領域。xh028資訊網——每日最新資訊28at.com

移動任務自動化利用 AI 精準捕捉并解析人類意圖,進而在移動設備(手機、平板電腦、車機終端)上高效執行多樣化任務,為那些因認知局限、身體條件限制或身處特殊情境下的用戶提供前所未有的便捷與支持。xh028資訊網——每日最新資訊28at.com

幫助視障人群用戶完成導航、閱讀或網上購物xh028資訊網——每日最新資訊28at.com

輔助老年人使用手機,跨越數字鴻溝xh028資訊網——每日最新資訊28at.com

幫助車主在駕駛過程中完成發送短信或調節車內環境xh028資訊網——每日最新資訊28at.com

替用戶完成日常生活中普遍存在的重復性任務xh028資訊網——每日最新資訊28at.com

……xh028資訊網——每日最新資訊28at.com

媽媽再也不嫌重復設置多個日歷事項會心煩了。xh028資訊網——每日最新資訊28at.com

最近,來自西安交通大學智能網絡與網絡安全教育部重點實驗室(MOE KLINNS Lab)的蔡忠閩教授、宋云鵬副教授團隊(團隊主要研究方向為智能人機交互、混合增強智能、電力系統智能化等),基于團隊最新 AI 研究成果,創新性提出了基于視覺的移動設備任務自動化方案 VisionTasker。xh028資訊網——每日最新資訊28at.com

這項研究不僅為普通用戶提供了更智能的移動設備使用體驗,也展現出了對特殊需求群體的關懷與賦能。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

基于視覺的移動設備任務自動化方案

團隊提出了 VisionTasker,一個結合基于視覺的 UI 理解和 LLM 任務規劃的兩階段框架,用于逐步實現移動任務自動化。xh028資訊網——每日最新資訊28at.com

該方案有效消除了表示 UI 對視圖層次結構的依賴,提高了對不同應用界面的適應性。xh028資訊網——每日最新資訊28at.com

值得注意的是,利用 VisionTasker 無需大量數據訓練大模型。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

VisionTasker 從用戶以自然語言提出任務需求開始工作,Agent 開始理解并執行指令。xh028資訊網——每日最新資訊28at.com

具體實現如下:xh028資訊網——每日最新資訊28at.com

1、用戶界面理解xh028資訊網——每日最新資訊28at.com

VisionTasker 通過視覺的方法做 UI 理解來解析和解釋用戶界面。xh028資訊網——每日最新資訊28at.com

首先 Agent 識別并分析用戶界面上的元素及布局,如按鈕、文本框、文字標簽等。xh028資訊網——每日最新資訊28at.com

然后,將這些識別到的視覺信息轉換成自然語言描述,用于解釋界面內容。xh028資訊網——每日最新資訊28at.com

2、任務規劃與執行xh028資訊網——每日最新資訊28at.com

接下來,Agent 利用大語言模型導航,根據用戶的指令和界面描述信息做任務規劃。xh028資訊網——每日最新資訊28at.com

將用戶任務拆解為可執行的步驟,如點擊或滑動操作,以自動推進任務的完成。xh028資訊網——每日最新資訊28at.com

3、持續迭代以上過程xh028資訊網——每日最新資訊28at.com

每一步完成后,Agent 都會根據最新界面和歷史動作更新其對話和任務規劃,確保每一步的決策都是基于當前上下文的。xh028資訊網——每日最新資訊28at.com

這是個迭代的過程,將持續進行直到判斷任務完成或達到預設的限制。xh028資訊網——每日最新資訊28at.com

用戶不僅能從交互中解放雙手,還可以通過可見提示監控任務進度,并隨時中斷任務,保持對整個流程的控制。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

首先是識別界面中的小部件和文本,檢測按鈕、文本框等元素及其位置。xh028資訊網——每日最新資訊28at.com

對于沒有文本標簽的按鈕,利用 CLIP 模型基于視覺設計來推斷其可能功能。xh028資訊網——每日最新資訊28at.com

隨后,系統根據 UI 布局的視覺信息進行區塊劃分,將界面分割成多個具有不同功能的區塊,并對每個區塊生成自然語言描述。xh028資訊網——每日最新資訊28at.com

這個過程還包括文本與小部件的匹配,確保正確理解每個元素的功能。xh028資訊網——每日最新資訊28at.com

最終,所有這些信息被轉化為自然語言描述,為大語言模型提供清晰、語義豐富的界面信息,使其能夠有效地進行任務規劃和自動化操作。xh028資訊網——每日最新資訊28at.com

實驗評估

實驗評估部分,該項目提供了對三種 UI 理解的比較分析,分別是:xh028資訊網——每日最新資訊28at.com

GPT-4Vxh028資訊網——每日最新資訊28at.com

VH(視圖層級)xh028資訊網——每日最新資訊28at.com

VisionTasker 方法xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

△ 三種 UI 理解方法的比較分析xh028資訊網——每日最新資訊28at.com

對比顯示,VisionTasker 在多個維度上比其他方法有顯著優勢。xh028資訊網——每日最新資訊28at.com

此外,在處理跨語言應用時也表現出了良好的泛化能力。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

△實驗 1 中使用到的常見 UI 布局xh028資訊網——每日最新資訊28at.com

表明 VisionTasker 的以視覺為基礎的 UI 理解方法在理解和解釋 UI 方面具有明顯優勢,尤其是在面對多樣化和復雜的用戶界面時尤為明顯。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

△ 跨四個數據集的單步預測準確性xh028資訊網——每日最新資訊28at.com

文章還進行了單步預測實驗,根據當前的任務狀態和用戶界面,預測接下來應該執行的動作或操作。xh028資訊網——每日最新資訊28at.com

結果顯示,VisionTasker 在所有數據集上的平均準確率達到了 67%,比基線方法提高了 15% 以上。xh028資訊網——每日最新資訊28at.com

真實世界任務:VisionTasker vs 人類xh028資訊網——每日最新資訊28at.com

實驗過程中,研究人員設計了 147 個真實的多步驟任務來測試 VisionTasker 的表現,這些任務涵蓋了國內常用的 42 個應用程序。xh028資訊網——每日最新資訊28at.com

與此同時,團隊還設置了人類對比測試,由 12 名人類評估者手動執行這些任務,然后 VisionTasker 的結果進行比較。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

結果顯示,VisionTasker 在大多數任務中能達到與人類相當的完成率,并且在某些不熟悉的任務中表現優于人類。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

△ 實際任務自動化實驗的結果“Ours-qwen”是指使用開源 Qwen 實現 VisionTasker 框架,”Ours”表示使用文心一言作為 LLMxh028資訊網——每日最新資訊28at.com

團隊還評估了 VisionTasker 在不同條件下的表現,包括使用不同的大語言模型(LLM)和編程演示(PBD)機制。xh028資訊網——每日最新資訊28at.com

VisionTasker 在大多數直觀任務中達到了與人類相當的完成率,在熟悉任務中略低于人類但在不熟悉任務中優于人類。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

△VisionTasker 逐步完成任務的展示xh028資訊網——每日最新資訊28at.com

結論

作為一個基于視覺和大模型的移動任務自動化框架,VisionTasker 克服了現階段移動任務自動化對視圖層級結構的依賴。xh028資訊網——每日最新資訊28at.com

通過一系列對比實驗,證明其在用戶界面表現上超越了傳統的編程演示和視圖層級結構方法。xh028資訊網——每日最新資訊28at.com

它在 4 個不同的數據集上都展示了高效的 UI 表示能力,表現出更廣泛的應用性;并在 Android 手機上的 147 個真實世界任務中,特別是在復雜任務的處理上,表現了出超越人類的任務完成能力。xh028資訊網——每日最新資訊28at.com

此外,通過集成編程演示(PBD)機制,VisionTasker 在任務自動化方面有顯著的性能提升。xh028資訊網——每日最新資訊28at.com

目前,該工作已以正式論文的形式發表于 2024 年 10 月 13-16 日在美國匹茲堡舉行的人機交互頂級會議 UIST(The ACM Symposium on User Interface Software and Technology)。xh028資訊網——每日最新資訊28at.com

UIST 是人機交互領域專注于人機界面軟件和技術創新的 CCF A 類頂級學術會議。xh028資訊網——每日最新資訊28at.com

xh028資訊網——每日最新資訊28at.com

原文鏈接:https://dl.acm.org/ doi / 10.1145/3654777.3676386xh028資訊網——每日最新資訊28at.com

項目鏈接:https://github.com/ AkimotoAyako / VisionTaskerxh028資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:關注前沿科技xh028資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-9361-0.htmlAI 讓手機任務自動“跑”起來!我國高校最新研究,簡化移動設備操作

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 榮耀平板GT Pro來襲!驍龍8s Gen 3+10050mAh電池,續航強勁?

下一篇: Python 成 GitHub 最受歡迎編程語言,AI 成主要推動力

標簽:
  • 熱門焦點
Top