AI 又進化了,在沒有任何人類數據的參與下,自己玩《我的世界》還能找到鉆石!
在剛剛登上 Nature 的論文中,谷歌 DeepMind 的智能體通過純?自我學習,順利完成了收集鉆石的任務。
論文鏈接:https://www.nature.com/articles/s41586-025-08744-2
對此,DeepMind 的計算機科學家 Danijar Hafner 表示:「Dreamer 是一個重要的里程碑,標志著 AI 又朝著通用人工智能前進了一大步。」
又是 AI 和《我的世界》,為何這次就成了邁向 AGI 的一大步用 AI 來挑戰《我的世界》早已是 AI 界「喜聞樂見」的項目了。
作為世界上排名第一且月活超過 1 億的游戲,《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。
早在兩三年前,包括 OpenAI 在內的各個模型都有挑戰《我的世界》的嘗試。
更早在 2019 年,研究人員就認為《我的世界》的開放式游戲環境可能非常適合 AI 研究。
比如一個七歲的小孩在觀看了 10 分鐘演示視頻后就能學會如何在游戲中找到稀有的鉆石,而當年的 AI 還遠遠做不到這一點。
AI 從《我的世界》中的一個隨機位置開始,必須完成某些任務來找到鉆石
為何這次 DeepMind 就敢說是「通向 AGI 的一大步」呢?
這次的任務 —— 在游戲內尋找鉆石 —— 聽起來容易,但其實非常困難,「高玩」們也要花 20-30 分鐘才能找到一個鉆石。
給不熟悉游戲的朋友解釋下這個任務為什么這么困難:
1. 每一次的游戲場景都是隨機世界,包含各種地形的虛擬 3D 世界,包括森林、山脈、沙漠和沼澤,這讓 AI 無法只記住一種特定策略來作弊;
2. 想要獲得鉆石需要經過一系列復雜的前置流程,并不是隨機在地圖尋找,比如你需要:
先找到樹木
然后將樹木分解為木材,木材也僅僅是用來制作一個工作臺
有了工作臺再加上更多的木材你才可以制作一個木頭鎬頭
然后才能開始挖掘以尋找鉆石
......
鉆石恒久遠,AI 不疲倦AI 研究人員專注于在《我的世界》中尋找鉆石,Hafner 說因為這需要一系列復雜的步驟,是一個很長的里程碑鏈條,因此它需要非常深入的探索。
之前的嘗試讓 AI 系統收集鉆石依賴于使用人類游戲的視頻或研究人員引導系統完成各個步驟。
相比之下,Dreamer 通過強化學習的試錯技術自行探索游戲的所有內容 —— 它識別出可能帶來獎勵的動作,重復這些動作并放棄其他動作。
強化學習是一些重大 AI 進展的基礎,但之前的程序都是專家型的 —— 它們無法從零開始在新領域應用知識。
成功的關鍵是構建「世界模型」Dreamer 成功的關鍵在于它構建了周圍環境的模型,并使用這個世界模型來「想象」未來的情景并指導決策。
就像我們自己的抽象思維一樣,世界模型并不是周圍環境的精確復制品。
世界模型允許 Dreamer 嘗試不同的事情,「世界模型真正賦予了人工智能系統想象未來的能力」Hafner 說。
這種能力還可能有助于創造能夠在現實世界中學習互動的機器人 —— 在現實世界中,試錯的成本要比在視頻游戲中高得多。
研究團隊一開始并不是奔著「鉆石測試」去研究的,測試 Dreamer 在鉆石挑戰上的表現是一個事后的想法。
「在構建整個算法時并沒有考慮到這一點」,Hafner 說,但團隊意識到,這是測試其算法是否能夠開箱即用、處理不熟悉任務的理想方式。
在《我的世界》中,團隊使用了一種協議,每當 Dreamer 完成鉆石收集過程中涉及的 12 個逐步步驟之一時,就會獲得一個「+1」的獎勵 —— 這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。
這些中間獎勵促使 Dreamer 選擇了更有可能獲得鉆石的動作。團隊每 30 分鐘重置一次游戲,這樣 Dreamer 就不會適應某個特定的配置 —— 而是學會了獲得更多獎勵的一般規則。
在這種設置下,Dreamer 需要連續玩大約九天才能找到至少一顆鉆石。
而高手玩家找到一顆鉆石需要 20 到 30 分鐘,新手則需要更長的時間。
在 Minecraft 中進行鉆石挑戰游戲中的每一次都設定在一個獨特的隨機生成且無限的三維世界中。
每一次持續到玩家死亡或達到 36,000 步(相當于 30 分鐘),根據 MineRL 競賽提供的動作形成了一個分類動作空間,其中包括抽象的制作動作。
據 DeepMind 宣稱,Dreamer 是第一個在不使用人類數據的情況下從零開始在《我的世界》中收集鉆石的算法。
所有的 Dreamer 智能體都在一億次步驟內發現了鉆石。所有物品的成功率顯示在圖右擴展數據中。
盡管其他幾個強大的算法(例子中的 PPO、Rainbow 和 IMPALA)進展到了諸如鐵鎬等高級物品,但沒有一個發現鉆石。
Dreamer 算法核心原理Dreamer 算法的核心是學習一個世界模型。
這就像是智能體的大腦,讓智能體具備豐富的感知能力,通過想象未來場景來規劃行動。
算法由三個關鍵的神經網絡組成:世界模型、評論家網絡和行動者網絡。
世界模型通過自動編碼學習感官輸入的表示,并通過預測潛在動作的未來表示和獎勵來實現規劃。
將世界模型實現為遞歸狀態空間模型,如圖所示。
評論家網絡則對世界模型預測的每個結果進行價值判斷,評估這個結果對實現目標的幫助有多大。
行動者網絡根據評論家的判斷,選擇能達到最佳結果的行動。
這三個網絡相互協作,在智能體與環境交互的過程中,通過重放經驗同時進行訓練。
在訓練過程中,世界模型的學習至關重要。它要學習從感官輸入中提取有用信息,還要預測未來的狀態和獎勵。
為實現這一目標,世界模型需要最小化預測損失、動態損失和表示損失。
預測損失用于訓練解碼器和獎勵預測器,動態損失訓練序列模型預測下一個表示,表示損失則讓表示更具可預測性。
圖中可視化了世界模型的長期視頻預測。
DeepMind 團隊在 8 個領域的 150 多個任務中評估 Dreamer 算法的通用性,包括連續和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同的獎勵尺度、二維和三維世界以及程序生成。
圖中展示了基準測試結果,Dreamer 在所有測試中均有更好的表現。
在 Atari 基準測試中,它能在使用少量計算資源的情況下,超越 MuZero 算法,也優于 Rainbow 和 IQN 算法。
在 ProcGen 基準測試中,面對隨機生成的關卡和視覺干擾,Dreamer 算法在 5000 萬幀的預算內,超過了經過調優的 PPG 和 Rainbow 算法。
在 DMLab 基準測試里,它在 1 億幀訓練后,性能超過了 IMPALA 和 R2D2 + 智能體,數據效率大幅提升。
在 Atari100k 基準測試中,盡管訓練預算僅為 40 萬幀,Dreamer 算法依然能超越其他方法。
在 BSuite 基準測試中,它同樣表現出色,在尺度穩健性方面有很大改進。
研究人員進行了消融實驗,結果表明,所有的穩健性技術都有助于提高算法性能。
研究人員還對 Dreamer 算法的縮放屬性進行了研究。
他們訓練了不同規模的模型,參數從 12M 到 4M。結果發現,擴大模型規模不僅能提高任務性能,還能減少數據需求。
更多的梯度步數也能減少學習成功行為所需的交互次數。這表明 Dreamer 算法在計算資源增加時,能夠穩健地提升性能,為實際應用提供了更靈活的選擇。
這篇論文是關于訓練一個單一算法,期望其能在多樣化的強化學習任務中表現出色。
在《我的游戲》中尋找鉆石也許僅僅通向 AGI 之路的第一關。
AI 的下一個更大目標是《我的世界》玩家面臨的終極挑戰:擊殺末影龍,這個虛擬世界中最可怕的生物。
參考資料:
https://www.nature.com/articles/d41586-025-01019-w#ref-CR1
https://www.nature.com/articles/s41586-025-08744-2
https://x.com/danijarh/status/1907511182598222095
本文來自微信公眾號:新智元(ID:AI_era),原標題《DeepMind 閉關修煉「我的世界」,自學成才挖鉆登 Nature!人類玩家瑟瑟發抖》
本文鏈接:http://www.tebozhan.com/showinfo-45-11930-0.html谷歌 DeepMind 閉關修煉《我的世界》:自學成才挖鉆石,成果登 Nature
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com