AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

谷歌 DeepMind 閉關修煉《我的世界》:自學成才挖鉆石,成果登 Nature

來源: 責編: 時間:2025-04-05 09:27:11 27觀看
導讀 AI 又進化了,在沒有任何人類數據的參與下,自己玩《我的世界》還能找到鉆石!在剛剛登上 Nature 的論文中,谷歌 DeepMind 的智能體通過純?自我學習,順利完成了收集鉆石的任務。論文鏈接:https://www.nature.com/arti

AI 又進化了,在沒有任何人類數據的參與下,自己玩《我的世界》還能找到鉆石!8I328資訊網——每日最新資訊28at.com

在剛剛登上 Nature 的論文中,谷歌 DeepMind 的智能體通過純?自我學習,順利完成了收集鉆石的任務。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

論文鏈接:https://www.nature.com/articles/s41586-025-08744-28I328資訊網——每日最新資訊28at.com

對此,DeepMind 的計算機科學家 Danijar Hafner 表示:「Dreamer 是一個重要的里程碑,標志著 AI 又朝著通用人工智能前進了一大步。」8I328資訊網——每日最新資訊28at.com

又是 AI 和《我的世界》,為何這次就成了邁向 AGI 的一大步

用 AI 來挑戰《我的世界》早已是 AI 界「喜聞樂見」的項目了。8I328資訊網——每日最新資訊28at.com

作為世界上排名第一且月活超過 1 億的游戲,《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。8I328資訊網——每日最新資訊28at.com

早在兩三年前,包括 OpenAI 在內的各個模型都有挑戰《我的世界》的嘗試。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

更早在 2019 年,研究人員就認為《我的世界》的開放式游戲環境可能非常適合 AI 研究。8I328資訊網——每日最新資訊28at.com

比如一個七歲的小孩在觀看了 10 分鐘演示視頻后就能學會如何在游戲中找到稀有的鉆石,而當年的 AI 還遠遠做不到這一點。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

AI 從《我的世界》中的一個隨機位置開始,必須完成某些任務來找到鉆石8I328資訊網——每日最新資訊28at.com

為何這次 DeepMind 就敢說是「通向 AGI 的一大步」呢?8I328資訊網——每日最新資訊28at.com

這次的任務 —— 在游戲內尋找鉆石 —— 聽起來容易,但其實非常困難,「高玩」們也要花 20-30 分鐘才能找到一個鉆石。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

給不熟悉游戲的朋友解釋下這個任務為什么這么困難:8I328資訊網——每日最新資訊28at.com

1. 每一次的游戲場景都是隨機世界,包含各種地形的虛擬 3D 世界,包括森林、山脈、沙漠和沼澤,這讓 AI 無法只記住一種特定策略來作弊;8I328資訊網——每日最新資訊28at.com

2. 想要獲得鉆石需要經過一系列復雜的前置流程,并不是隨機在地圖尋找,比如你需要:8I328資訊網——每日最新資訊28at.com

先找到樹木8I328資訊網——每日最新資訊28at.com

然后將樹木分解為木材,木材也僅僅是用來制作一個工作臺8I328資訊網——每日最新資訊28at.com

有了工作臺再加上更多的木材你才可以制作一個木頭鎬頭8I328資訊網——每日最新資訊28at.com

然后才能開始挖掘以尋找鉆石8I328資訊網——每日最新資訊28at.com

......8I328資訊網——每日最新資訊28at.com

鉆石恒久遠,AI 不疲倦

AI 研究人員專注于在《我的世界》中尋找鉆石,Hafner 說因為這需要一系列復雜的步驟,是一個很長的里程碑鏈條,因此它需要非常深入的探索。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

▲DeepMind 的 Dreamer AI 在《我的世界》中進行了多次游戲學習如何收集鉆石

之前的嘗試讓 AI 系統收集鉆石依賴于使用人類游戲的視頻或研究人員引導系統完成各個步驟。8I328資訊網——每日最新資訊28at.com

相比之下,Dreamer 通過強化學習的試錯技術自行探索游戲的所有內容 —— 它識別出可能帶來獎勵的動作,重復這些動作并放棄其他動作。8I328資訊網——每日最新資訊28at.com

強化學習是一些重大 AI 進展的基礎,但之前的程序都是專家型的 —— 它們無法從零開始在新領域應用知識。8I328資訊網——每日最新資訊28at.com

成功的關鍵是構建「世界模型」

Dreamer 成功的關鍵在于它構建了周圍環境的模型,并使用這個世界模型來「想象」未來的情景并指導決策。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

就像我們自己的抽象思維一樣,世界模型并不是周圍環境的精確復制品。8I328資訊網——每日最新資訊28at.com

世界模型允許 Dreamer 嘗試不同的事情,「世界模型真正賦予了人工智能系統想象未來的能力」Hafner 說。8I328資訊網——每日最新資訊28at.com

這種能力還可能有助于創造能夠在現實世界中學習互動的機器人 —— 在現實世界中,試錯的成本要比在視頻游戲中高得多。8I328資訊網——每日最新資訊28at.com

研究團隊一開始并不是奔著「鉆石測試」去研究的,測試 Dreamer 在鉆石挑戰上的表現是一個事后的想法。8I328資訊網——每日最新資訊28at.com

「在構建整個算法時并沒有考慮到這一點」,Hafner 說,但團隊意識到,這是測試其算法是否能夠開箱即用、處理不熟悉任務的理想方式。8I328資訊網——每日最新資訊28at.com

在《我的世界》中,團隊使用了一種協議,每當 Dreamer 完成鉆石收集過程中涉及的 12 個逐步步驟之一時,就會獲得一個「+1」的獎勵 —— 這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。8I328資訊網——每日最新資訊28at.com

這些中間獎勵促使 Dreamer 選擇了更有可能獲得鉆石的動作。團隊每 30 分鐘重置一次游戲,這樣 Dreamer 就不會適應某個特定的配置 —— 而是學會了獲得更多獎勵的一般規則。8I328資訊網——每日最新資訊28at.com

在這種設置下,Dreamer 需要連續玩大約九天才能找到至少一顆鉆石。8I328資訊網——每日最新資訊28at.com

而高手玩家找到一顆鉆石需要 20 到 30 分鐘,新手則需要更長的時間。8I328資訊網——每日最新資訊28at.com

在 Minecraft 中進行鉆石挑戰

游戲中的每一次都設定在一個獨特的隨機生成且無限的三維世界中。8I328資訊網——每日最新資訊28at.com

每一次持續到玩家死亡或達到 36,000 步(相當于 30 分鐘),根據 MineRL 競賽提供的動作形成了一個分類動作空間,其中包括抽象的制作動作。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

據 DeepMind 宣稱,Dreamer 是第一個在不使用人類數據的情況下從零開始在《我的世界》中收集鉆石的算法。8I328資訊網——每日最新資訊28at.com

所有的 Dreamer 智能體都在一億次步驟內發現了鉆石。所有物品的成功率顯示在圖右擴展數據中。8I328資訊網——每日最新資訊28at.com

盡管其他幾個強大的算法(例子中的 PPO、Rainbow 和 IMPALA)進展到了諸如鐵鎬等高級物品,但沒有一個發現鉆石。8I328資訊網——每日最新資訊28at.com

Dreamer 算法核心原理

Dreamer 算法的核心是學習一個世界模型。8I328資訊網——每日最新資訊28at.com

這就像是智能體的大腦,讓智能體具備豐富的感知能力,通過想象未來場景來規劃行動。8I328資訊網——每日最新資訊28at.com

算法由三個關鍵的神經網絡組成:世界模型、評論家網絡和行動者網絡。8I328資訊網——每日最新資訊28at.com

世界模型通過自動編碼學習感官輸入的表示,并通過預測潛在動作的未來表示和獎勵來實現規劃。8I328資訊網——每日最新資訊28at.com

將世界模型實現為遞歸狀態空間模型,如圖所示。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

評論家網絡則對世界模型預測的每個結果進行價值判斷,評估這個結果對實現目標的幫助有多大。8I328資訊網——每日最新資訊28at.com

行動者網絡根據評論家的判斷,選擇能達到最佳結果的行動。8I328資訊網——每日最新資訊28at.com

這三個網絡相互協作,在智能體與環境交互的過程中,通過重放經驗同時進行訓練。8I328資訊網——每日最新資訊28at.com

在訓練過程中,世界模型的學習至關重要。它要學習從感官輸入中提取有用信息,還要預測未來的狀態和獎勵。8I328資訊網——每日最新資訊28at.com

為實現這一目標,世界模型需要最小化預測損失、動態損失和表示損失。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

預測損失用于訓練解碼器和獎勵預測器,動態損失訓練序列模型預測下一個表示,表示損失則讓表示更具可預測性。8I328資訊網——每日最新資訊28at.com

圖中可視化了世界模型的長期視頻預測。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

實驗結果

DeepMind 團隊在 8 個領域的 150 多個任務中評估 Dreamer 算法的通用性,包括連續和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同的獎勵尺度、二維和三維世界以及程序生成。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

圖中展示了基準測試結果,Dreamer 在所有測試中均有更好的表現。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

在 Atari 基準測試中,它能在使用少量計算資源的情況下,超越 MuZero 算法,也優于 Rainbow 和 IQN 算法。8I328資訊網——每日最新資訊28at.com

在 ProcGen 基準測試中,面對隨機生成的關卡和視覺干擾,Dreamer 算法在 5000 萬幀的預算內,超過了經過調優的 PPG 和 Rainbow 算法。8I328資訊網——每日最新資訊28at.com

在 DMLab 基準測試里,它在 1 億幀訓練后,性能超過了 IMPALA 和 R2D2 + 智能體,數據效率大幅提升。8I328資訊網——每日最新資訊28at.com

在 Atari100k 基準測試中,盡管訓練預算僅為 40 萬幀,Dreamer 算法依然能超越其他方法。8I328資訊網——每日最新資訊28at.com

在 BSuite 基準測試中,它同樣表現出色,在尺度穩健性方面有很大改進。8I328資訊網——每日最新資訊28at.com

研究人員進行了消融實驗,結果表明,所有的穩健性技術都有助于提高算法性能。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

研究人員還對 Dreamer 算法的縮放屬性進行了研究。8I328資訊網——每日最新資訊28at.com

他們訓練了不同規模的模型,參數從 12M 到 4M。結果發現,擴大模型規模不僅能提高任務性能,還能減少數據需求。8I328資訊網——每日最新資訊28at.com

更多的梯度步數也能減少學習成功行為所需的交互次數。這表明 Dreamer 算法在計算資源增加時,能夠穩健地提升性能,為實際應用提供了更靈活的選擇。8I328資訊網——每日最新資訊28at.com

這篇論文是關于訓練一個單一算法,期望其能在多樣化的強化學習任務中表現出色。8I328資訊網——每日最新資訊28at.com

在《我的游戲》中尋找鉆石也許僅僅通向 AGI 之路的第一關。8I328資訊網——每日最新資訊28at.com

AI 的下一個更大目標是《我的世界》玩家面臨的終極挑戰:擊殺末影龍,這個虛擬世界中最可怕的生物。8I328資訊網——每日最新資訊28at.com

8I328資訊網——每日最新資訊28at.com

參考資料:8I328資訊網——每日最新資訊28at.com

https://www.nature.com/articles/d41586-025-01019-w#ref-CR18I328資訊網——每日最新資訊28at.com

https://www.nature.com/articles/s41586-025-08744-28I328資訊網——每日最新資訊28at.com

https://x.com/danijarh/status/19075111825982220958I328資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era),原標題《DeepMind 閉關修煉「我的世界」,自學成才挖鉆登 Nature!人類玩家瑟瑟發抖》8I328資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-11930-0.html谷歌 DeepMind 閉關修煉《我的世界》:自學成才挖鉆石,成果登 Nature

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 百度飛槳框架 3.0 正式版發布,五大特性專為大模型設計

下一篇: 谷歌 AI 筆記應用 NotebookLM 新增“發現資料”功能,可自動檢索相關網絡資源

標簽:
  • 熱門焦點
Top