AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

GPT-4o 能玩《黑神話:悟空》:精英怪勝率超人類,無強(qiáng)化學(xué)習(xí)純大模型方案

來源: 責(zé)編: 時間:2024-09-25 16:36:07 93觀看
導(dǎo)讀 AI 玩黑神話,第一個精英怪牯護(hù)院輕松拿捏啊。有方向感,視角也沒有問題。躲閃劈棍很絲滑。甚至在打鴉香客和牯護(hù)院時,AI 的勝率已經(jīng)超過人類。而且是完全使用大模型玩,沒有使用強(qiáng)化學(xué)習(xí)。阿里巴巴的研究人員們提出

AI 玩黑神話,第一個精英怪牯護(hù)院輕松拿捏啊。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

有方向感,視角也沒有問題。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

躲閃劈棍很絲滑。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

甚至在打鴉香客和牯護(hù)院時,AI 的勝率已經(jīng)超過人類。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

而且是完全使用大模型玩,沒有使用強(qiáng)化學(xué)習(xí)。Qwx28資訊網(wǎng)——每日最新資訊28at.com

阿里巴巴的研究人員們提出了一個新型 VARP(視覺動作角色扮演)智能體框架。它能直接將游戲截圖作為輸入,通過視覺語言模型推理,最終生成 Python 代碼形式的動作,以此來操作游戲。Qwx28資訊網(wǎng)——每日最新資訊28at.com

以玩《黑神話?悟空》為例,該智能體在 90% 簡單和中等水平戰(zhàn)斗場景中取勝。Qwx28資訊網(wǎng)——每日最新資訊28at.com

GPT-4o、Claude 3.5 都來迎戰(zhàn)

研究人員以《黑神話?悟空》為研究平臺,一共定義了 12 個任務(wù),75% 與戰(zhàn)斗有關(guān)。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

他們構(gòu)建了一個人類操作數(shù)據(jù)集,包含鍵鼠操作和游戲截圖,一共 1000 條有效數(shù)據(jù)。Qwx28資訊網(wǎng)——每日最新資訊28at.com

每個操作都是由原子命令的各種組合組成的序列。原子命令包括輕攻、閃避、重攻擊、回血等。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

然后,他們提出了 VARP 智能體框架。主要包含動作規(guī)劃系統(tǒng)和人類引導(dǎo)軌跡系統(tǒng)。Qwx28資訊網(wǎng)——每日最新資訊28at.com

其中動作規(guī)劃系統(tǒng)由情境庫、動作庫和人類引導(dǎo)庫組成,利用 VLMs 進(jìn)行動作推理和生成,引入分解特定任務(wù)的輔助模塊和自我優(yōu)化的動作生成模塊。Qwx28資訊網(wǎng)——每日最新資訊28at.com

人類引導(dǎo)軌跡系統(tǒng)利用人類操作數(shù)據(jù)改進(jìn)智能體性能,對于困難任務(wù),通過查詢?nèi)祟愐龑?dǎo)庫獲取相似截圖和操作,生成新的人類引導(dǎo)動作。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

同時 VARP 還包含 3 個庫:情景庫、動作庫和人工引導(dǎo)庫。這些庫中存儲了 agent 自我學(xué)習(xí)和人類指導(dǎo)的內(nèi)容,可以進(jìn)行檢索和更新。Qwx28資訊網(wǎng)——每日最新資訊28at.com

動作庫中,“def new_func_a ()”表示動作計劃系統(tǒng)生成的新動作,“def new_func_h ()”表示人導(dǎo)軌跡系統(tǒng)生成的動作。“def pre_func ()”代表預(yù)定義的動作。Qwx28資訊網(wǎng)——每日最新資訊28at.com

動作案例研究和相應(yīng)的游戲截圖。第一行和第二行中的操作是預(yù)定義的函數(shù)。第三行動作由人工制導(dǎo)軌跡系統(tǒng)生成。Qwx28資訊網(wǎng)——每日最新資訊28at.com

SOAG 會在玩家角色與敵人的每次戰(zhàn)斗互動后總結(jié)第四行和第五行中的新動作,并將其存儲在動作庫中。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

框架分別使用了 GPT-4o(2024-0513 版本)、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。Qwx28資訊網(wǎng)——每日最新資訊28at.com

對比人類和 AI 的表現(xiàn)結(jié)果,可以看到小怪部分 AI 們的表現(xiàn)達(dá)到人類玩家水平。Qwx28資訊網(wǎng)——每日最新資訊28at.com

到了牯護(hù)院時,Claude 3.5 Sonnet 敗下陣來,GPT-4o 勝率最高。Qwx28資訊網(wǎng)——每日最新資訊28at.com

但是對于新手玩家普遍頭疼的幽魂,AI 們也都束手無策了。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

另外研究還提到,由于 VLMs 推理速度受到限制,是無法實時輸入每一幀畫面的。它只能間隔輸入關(guān)鍵幀,這也會導(dǎo)致 AI 在一些情況下錯過 boss 攻擊的關(guān)鍵信息。Qwx28資訊網(wǎng)——每日最新資訊28at.com

以及由于游戲中沒有明確的道路引導(dǎo)且存在很多空氣墻,在沒有人類引導(dǎo)下,智能體也不能自已找到正確的路線。Qwx28資訊網(wǎng)——每日最新資訊28at.com

如上研究來自阿里團(tuán)隊,一共有 5 位作者。Qwx28資訊網(wǎng)——每日最新資訊28at.com

Qwx28資訊網(wǎng)——每日最新資訊28at.com

后續(xù)相關(guān)代碼和數(shù)據(jù)集有發(fā)布計劃,感興趣的童鞋可以蹲下。Qwx28資訊網(wǎng)——每日最新資訊28at.com

One More Thing

AI 打游戲并不是一個新鮮事了,比如 AI 基于強(qiáng)化學(xué)習(xí)方法打《星際爭霸 II》已經(jīng)可以擊敗人類職業(yè)高手。Qwx28資訊網(wǎng)——每日最新資訊28at.com

利用強(qiáng)化學(xué)習(xí)方案,往往需要輸入大量對局。商湯此前訓(xùn)練的 DI-star(監(jiān)督學(xué)習(xí) + 強(qiáng)化學(xué)習(xí)),就用了“16 萬場錄像”和“1 億局對戰(zhàn)”。Qwx28資訊網(wǎng)——每日最新資訊28at.com

但是純大模型也能打游戲,還是很出乎意料的。在本項研究中,數(shù)據(jù)集中的有效數(shù)據(jù)為 1000 條。Qwx28資訊網(wǎng)——每日最新資訊28at.com

論文地址:Qwx28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2409.12889Qwx28資訊網(wǎng)——每日最新資訊28at.com

項目地址:Qwx28資訊網(wǎng)——每日最新資訊28at.com

https://varp-agent.github.io/Qwx28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:微信公眾號(ID:QbitAI),作者:小明,原標(biāo)題《GPT-4o 能玩《黑神話》!精英怪勝率超人類,無強(qiáng)化學(xué)習(xí)純大模型方案》Qwx28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-7750-0.htmlGPT-4o 能玩《黑神話:悟空》:精英怪勝率超人類,無強(qiáng)化學(xué)習(xí)純大模型方案

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微軟亞洲研究院與上海市精神衛(wèi)生中心展開聯(lián)合研究,借助多模態(tài)大模型為認(rèn)知障礙患者帶來全新訓(xùn)練方法

下一篇: AI“攻克”CAPTCHA 網(wǎng)站驗證系統(tǒng)

標(biāo)簽:
  • 熱門焦點
Top