當前位置：首頁 > 元宇宙 > AI

谷歌 DeepMind 閉關修煉《我的世界》：自學成才挖鉆石，成果登 Nature

來源：責編：時間：2025-04-05 09:27:11 84觀看

導讀 AI 又進化了，在沒有任何人類數據的參與下，自己玩《我的世界》還能找到鉆石！在剛剛登上 Nature 的論文中，谷歌 DeepMind 的智能體通過純?自我學習，順利完成了收集鉆石的任務。論文鏈接：https://www.nature.com/arti

AI 又進化了，在沒有任何人類數據的參與下，自己玩《我的世界》還能找到鉆石！

在剛剛登上 Nature 的論文中，谷歌 DeepMind 的智能體通過純?自我學習，順利完成了收集鉆石的任務。

論文鏈接：https://www.nature.com/articles/s41586-025-08744-2

對此，DeepMind 的計算機科學家 Danijar Hafner 表示：「Dreamer 是一個重要的里程碑，標志著 AI 又朝著通用人工智能前進了一大步。」

又是 AI 和《我的世界》，為何這次就成了邁向 AGI 的一大步

用 AI 來挑戰《我的世界》早已是 AI 界「喜聞樂見」的項目了。

作為世界上排名第一且月活超過 1 億的游戲，《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。

早在兩三年前，包括 OpenAI 在內的各個模型都有挑戰《我的世界》的嘗試。

更早在 2019 年，研究人員就認為《我的世界》的開放式游戲環境可能非常適合 AI 研究。

比如一個七歲的小孩在觀看了 10 分鐘演示視頻后就能學會如何在游戲中找到稀有的鉆石，而當年的 AI 還遠遠做不到這一點。

AI 從《我的世界》中的一個隨機位置開始，必須完成某些任務來找到鉆石

為何這次 DeepMind 就敢說是「通向 AGI 的一大步」呢？

這次的任務 —— 在游戲內尋找鉆石 —— 聽起來容易，但其實非常困難，「高玩」們也要花 20-30 分鐘才能找到一個鉆石。

給不熟悉游戲的朋友解釋下這個任務為什么這么困難：

1. 每一次的游戲場景都是隨機世界，包含各種地形的虛擬 3D 世界，包括森林、山脈、沙漠和沼澤，這讓 AI 無法只記住一種特定策略來作弊；

2. 想要獲得鉆石需要經過一系列復雜的前置流程，并不是隨機在地圖尋找，比如你需要：

先找到樹木

然后將樹木分解為木材，木材也僅僅是用來制作一個工作臺

有了工作臺再加上更多的木材你才可以制作一個木頭鎬頭

然后才能開始挖掘以尋找鉆石

......

鉆石恒久遠，AI 不疲倦

AI 研究人員專注于在《我的世界》中尋找鉆石，Hafner 說因為這需要一系列復雜的步驟，是一個很長的里程碑鏈條，因此它需要非常深入的探索。

▲DeepMind 的 Dreamer AI 在《我的世界》中進行了多次游戲學習如何收集鉆石

之前的嘗試讓 AI 系統收集鉆石依賴于使用人類游戲的視頻或研究人員引導系統完成各個步驟。

相比之下，Dreamer 通過強化學習的試錯技術自行探索游戲的所有內容 —— 它識別出可能帶來獎勵的動作，重復這些動作并放棄其他動作。

強化學習是一些重大 AI 進展的基礎，但之前的程序都是專家型的 —— 它們無法從零開始在新領域應用知識。

成功的關鍵是構建「世界模型」

Dreamer 成功的關鍵在于它構建了周圍環境的模型，并使用這個世界模型來「想象」未來的情景并指導決策。

就像我們自己的抽象思維一樣，世界模型并不是周圍環境的精確復制品。

世界模型允許 Dreamer 嘗試不同的事情，「世界模型真正賦予了人工智能系統想象未來的能力」Hafner 說。

這種能力還可能有助于創造能夠在現實世界中學習互動的機器人 —— 在現實世界中，試錯的成本要比在視頻游戲中高得多。

研究團隊一開始并不是奔著「鉆石測試」去研究的，測試 Dreamer 在鉆石挑戰上的表現是一個事后的想法。

「在構建整個算法時并沒有考慮到這一點」，Hafner 說，但團隊意識到，這是測試其算法是否能夠開箱即用、處理不熟悉任務的理想方式。

在《我的世界》中，團隊使用了一種協議，每當 Dreamer 完成鉆石收集過程中涉及的 12 個逐步步驟之一時，就會獲得一個「+1」的獎勵 —— 這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。

這些中間獎勵促使 Dreamer 選擇了更有可能獲得鉆石的動作。團隊每 30 分鐘重置一次游戲，這樣 Dreamer 就不會適應某個特定的配置 —— 而是學會了獲得更多獎勵的一般規則。

在這種設置下，Dreamer 需要連續玩大約九天才能找到至少一顆鉆石。

而高手玩家找到一顆鉆石需要 20 到 30 分鐘，新手則需要更長的時間。

在 Minecraft 中進行鉆石挑戰

游戲中的每一次都設定在一個獨特的隨機生成且無限的三維世界中。

每一次持續到玩家死亡或達到 36,000 步（相當于 30 分鐘），根據 MineRL 競賽提供的動作形成了一個分類動作空間，其中包括抽象的制作動作。

據 DeepMind 宣稱，Dreamer 是第一個在不使用人類數據的情況下從零開始在《我的世界》中收集鉆石的算法。

所有的 Dreamer 智能體都在一億次步驟內發現了鉆石。所有物品的成功率顯示在圖右擴展數據中。

盡管其他幾個強大的算法（例子中的 PPO、Rainbow 和 IMPALA）進展到了諸如鐵鎬等高級物品，但沒有一個發現鉆石。

Dreamer 算法核心原理

Dreamer 算法的核心是學習一個世界模型。

這就像是智能體的大腦，讓智能體具備豐富的感知能力，通過想象未來場景來規劃行動。

算法由三個關鍵的神經網絡組成：世界模型、評論家網絡和行動者網絡。

世界模型通過自動編碼學習感官輸入的表示，并通過預測潛在動作的未來表示和獎勵來實現規劃。

將世界模型實現為遞歸狀態空間模型，如圖所示。

評論家網絡則對世界模型預測的每個結果進行價值判斷，評估這個結果對實現目標的幫助有多大。

行動者網絡根據評論家的判斷，選擇能達到最佳結果的行動。

這三個網絡相互協作，在智能體與環境交互的過程中，通過重放經驗同時進行訓練。

在訓練過程中，世界模型的學習至關重要。它要學習從感官輸入中提取有用信息，還要預測未來的狀態和獎勵。

為實現這一目標，世界模型需要最小化預測損失、動態損失和表示損失。

預測損失用于訓練解碼器和獎勵預測器，動態損失訓練序列模型預測下一個表示，表示損失則讓表示更具可預測性。

圖中可視化了世界模型的長期視頻預測。

實驗結果

DeepMind 團隊在 8 個領域的 150 多個任務中評估 Dreamer 算法的通用性，包括連續和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同的獎勵尺度、二維和三維世界以及程序生成。

圖中展示了基準測試結果，Dreamer 在所有測試中均有更好的表現。

在 Atari 基準測試中，它能在使用少量計算資源的情況下，超越 MuZero 算法，也優于 Rainbow 和 IQN 算法。

在 ProcGen 基準測試中，面對隨機生成的關卡和視覺干擾，Dreamer 算法在 5000 萬幀的預算內，超過了經過調優的 PPG 和 Rainbow 算法。

在 DMLab 基準測試里，它在 1 億幀訓練后，性能超過了 IMPALA 和 R2D2 + 智能體，數據效率大幅提升。

在 Atari100k 基準測試中，盡管訓練預算僅為 40 萬幀，Dreamer 算法依然能超越其他方法。

在 BSuite 基準測試中，它同樣表現出色，在尺度穩健性方面有很大改進。

研究人員進行了消融實驗，結果表明，所有的穩健性技術都有助于提高算法性能。

研究人員還對 Dreamer 算法的縮放屬性進行了研究。

他們訓練了不同規模的模型，參數從 12M 到 4M。結果發現，擴大模型規模不僅能提高任務性能，還能減少數據需求。

更多的梯度步數也能減少學習成功行為所需的交互次數。這表明 Dreamer 算法在計算資源增加時，能夠穩健地提升性能，為實際應用提供了更靈活的選擇。

這篇論文是關于訓練一個單一算法，期望其能在多樣化的強化學習任務中表現出色。

在《我的游戲》中尋找鉆石也許僅僅通向 AGI 之路的第一關。

AI 的下一個更大目標是《我的世界》玩家面臨的終極挑戰：擊殺末影龍，這個虛擬世界中最可怕的生物。

參考資料：

https://www.nature.com/articles/d41586-025-01019-w#ref-CR1

https://www.nature.com/articles/s41586-025-08744-2

https://x.com/danijarh/status/1907511182598222095

本文來自微信公眾號：新智元（ID：AI_era），原標題《DeepMind 閉關修煉「我的世界」，自學成才挖鉆登 Nature！人類玩家瑟瑟發抖》

本文鏈接：http://www.tebozhan.com/showinfo-45-11930-0.html谷歌 DeepMind 閉關修煉《我的世界》：自學成才挖鉆石，成果登 Nature

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：百度飛槳框架 3.0 正式版發布，五大特性專為大模型設計

下一篇：谷歌 AI 筆記應用 NotebookLM 新增“發現資料”功能，可自動檢索相關網絡資源

標簽：

熱門焦點

大廠元宇宙，又菜又愛玩

撰文 | 吳先之編輯 | 王潘當下所有大廠推出的元宇宙產品，所能帶來的沉浸式體驗并不多，好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例，由于VR頭顯設
元宇宙風口下，視覺中國如何重估？

要說橫跨2021年和2022年，到目前仍然很火的概念，元宇宙肯定要算一個。不僅互聯網巨頭們紛紛布局，上市公司們趨之若鶩，還被不少地方政府寫入了產業規劃，大有在2022年
企業熱、用戶冷，元宇宙第一站將是“營銷場”？

如果說2021年底什么最火熱，那元宇宙當之無愧。“萬物皆可元宇宙”似乎成為新的流行語，在廣告中也常常聽到“社交元宇宙”“購物元宇宙”等等。就在近日，有消息傳
網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發商米哈游宣布創立元宇宙品牌】《原神》開發商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務為全球玩家創造并提供沉浸式虛擬世界體
美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

No.1 俄羅斯財政部長: 在俄羅斯禁止比特幣就如禁止互聯網一樣2月16日消息，俄羅斯財政部長安東·西盧安諾夫（Anton Siluanov）表示，在俄羅斯禁止加密貨幣就跟禁止互
Meta、谷歌、微軟競相涌入元宇宙，小型企業該如何伺機而動？

目前來看元宇宙不會影響到小型企業的發展，但在接下來的十年內可能會發生很多變化。很多有商業頭腦的企業家都在密切關注著元宇宙的發展。元宇宙這個詞，你一定或
2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

UGC作為元宇宙的主要內容創作模式，已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現今元宇宙UGC模式的主要呈現方式以元宇宙概念
藝術創作者能否永久收取版稅？

NFTs正在改變我們理解互聯網所有權的方式，社區管理的所有權有很多好處，但如果創作者想為他/她的創作獲得永久的收益（版稅），會發生什么？這不是一個容易解決的問題，版稅
盤點9個主流元宇宙平臺，你都知道哪些？

隨著NFT的持續升溫，它也加入了現在的元宇宙浪潮。本文介紹元宇宙的基本概念以及九個最流行的元宇宙NFT平臺，如Decentraland、sandbox等。用熟悉的語言學習以太

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

谷歌 DeepMind 閉關修煉《我的世界》：自學成才挖鉆石，成果登 Nature

大廠元宇宙，又菜又愛玩

元宇宙風口下，視覺中國如何重估？

企業熱、用戶冷，元宇宙第一站將是“營銷場”？

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

Meta、谷歌、微軟競相涌入元宇宙，小型企業該如何伺機而動？

2022年元宇宙系列報告：UGC當道，XR帶來新交互體驗

藝術創作者能否永久收取版稅？

盤點9個主流元宇宙平臺，你都知道哪些？

最新推薦

2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

GameFi 深度解析，元宇宙內容雛形顯現

大廠打造元宇宙平臺的業務重心是什么？

Steam 禁止NFT和加密貨幣原因曝光

猜你喜歡

熱門推薦

相關資訊