首頁 > 智能時(shí)代>人工智能

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

新智元 2025/4/3 13:42:19 責(zé)編：汪淼

評(píng)論：

AI 又進(jìn)化了，在沒有任何人類數(shù)據(jù)的參與下，自己玩《我的世界》還能找到鉆石！

在剛剛登上 Nature 的論文中，谷歌 DeepMind 的智能體通過純?自我學(xué)習(xí)，順利完成了收集鉆石的任務(wù)。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

論文鏈接：https://www.nature.com/articles/s41586-025-08744-2

對(duì)此，DeepMind 的計(jì)算機(jī)科學(xué)家 Danijar Hafner 表示：「Dreamer 是一個(gè)重要的里程碑，標(biāo)志著 AI 又朝著通用人工智能前進(jìn)了一大步?！?/p>

又是 AI 和《我的世界》，為何這次就成了邁向 AGI 的一大步

用 AI 來挑戰(zhàn)《我的世界》早已是 AI 界「喜聞樂見」的項(xiàng)目了。

作為世界上排名第一且月活超過 1 億的游戲，《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。

早在兩三年前，包括 OpenAI 在內(nèi)的各個(gè)模型都有挑戰(zhàn)《我的世界》的嘗試。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

更早在 2019 年，研究人員就認(rèn)為《我的世界》的開放式游戲環(huán)境可能非常適合 AI 研究。

比如一個(gè)七歲的小孩在觀看了 10 分鐘演示視頻后就能學(xué)會(huì)如何在游戲中找到稀有的鉆石，而當(dāng)年的 AI 還遠(yuǎn)遠(yuǎn)做不到這一點(diǎn)。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

AI 從《我的世界》中的一個(gè)隨機(jī)位置開始，必須完成某些任務(wù)來找到鉆石

為何這次 DeepMind 就敢說是「通向 AGI 的一大步」呢？

這次的任務(wù) —— 在游戲內(nèi)尋找鉆石 —— 聽起來容易，但其實(shí)非常困難，「高玩」們也要花 20-30 分鐘才能找到一個(gè)鉆石。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

給不熟悉游戲的朋友解釋下這個(gè)任務(wù)為什么這么困難：

1. 每一次的游戲場景都是隨機(jī)世界，包含各種地形的虛擬 3D 世界，包括森林、山脈、沙漠和沼澤，這讓 AI 無法只記住一種特定策略來作弊；

2. 想要獲得鉆石需要經(jīng)過一系列復(fù)雜的前置流程，并不是隨機(jī)在地圖尋找，比如你需要：

先找到樹木
然后將樹木分解為木材，木材也僅僅是用來制作一個(gè)工作臺(tái)
有了工作臺(tái)再加上更多的木材你才可以制作一個(gè)木頭鎬頭
然后才能開始挖掘以尋找鉆石
......

鉆石恒久遠(yuǎn)，AI 不疲倦

AI 研究人員專注于在《我的世界》中尋找鉆石，Hafner 說因?yàn)檫@需要一系列復(fù)雜的步驟，是一個(gè)很長的里程碑鏈條，因此它需要非常深入的探索。

DeepMind 的 Dreamer AI 在《我的世界》中進(jìn)行了多次游戲?qū)W習(xí)如何收集鉆石

▲ DeepMind 的 Dreamer AI 在《我的世界》中進(jìn)行了多次游戲?qū)W習(xí)如何收集鉆石

之前的嘗試讓 AI 系統(tǒng)收集鉆石依賴于使用人類游戲的視頻或研究人員引導(dǎo)系統(tǒng)完成各個(gè)步驟。

相比之下，Dreamer 通過強(qiáng)化學(xué)習(xí)的試錯(cuò)技術(shù)自行探索游戲的所有內(nèi)容 —— 它識(shí)別出可能帶來獎(jiǎng)勵(lì)的動(dòng)作，重復(fù)這些動(dòng)作并放棄其他動(dòng)作。

強(qiáng)化學(xué)習(xí)是一些重大 AI 進(jìn)展的基礎(chǔ)，但之前的程序都是專家型的 —— 它們無法從零開始在新領(lǐng)域應(yīng)用知識(shí)。

成功的關(guān)鍵是構(gòu)建「世界模型」

Dreamer 成功的關(guān)鍵在于它構(gòu)建了周圍環(huán)境的模型，并使用這個(gè)世界模型來「想象」未來的情景并指導(dǎo)決策。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

就像我們自己的抽象思維一樣，世界模型并不是周圍環(huán)境的精確復(fù)制品。

世界模型允許 Dreamer 嘗試不同的事情，「世界模型真正賦予了人工智能系統(tǒng)想象未來的能力」Hafner 說。

這種能力還可能有助于創(chuàng)造能夠在現(xiàn)實(shí)世界中學(xué)習(xí)互動(dòng)的機(jī)器人 —— 在現(xiàn)實(shí)世界中，試錯(cuò)的成本要比在視頻游戲中高得多。

研究團(tuán)隊(duì)一開始并不是奔著「鉆石測試」去研究的，測試 Dreamer 在鉆石挑戰(zhàn)上的表現(xiàn)是一個(gè)事后的想法。

「在構(gòu)建整個(gè)算法時(shí)并沒有考慮到這一點(diǎn)」，Hafner 說，但團(tuán)隊(duì)意識(shí)到，這是測試其算法是否能夠開箱即用、處理不熟悉任務(wù)的理想方式。

在《我的世界》中，團(tuán)隊(duì)使用了一種協(xié)議，每當(dāng) Dreamer 完成鉆石收集過程中涉及的 12 個(gè)逐步步驟之一時(shí)，就會(huì)獲得一個(gè)「+1」的獎(jiǎng)勵(lì) —— 這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。

這些中間獎(jiǎng)勵(lì)促使 Dreamer 選擇了更有可能獲得鉆石的動(dòng)作。團(tuán)隊(duì)每 30 分鐘重置一次游戲，這樣 Dreamer 就不會(huì)適應(yīng)某個(gè)特定的配置 —— 而是學(xué)會(huì)了獲得更多獎(jiǎng)勵(lì)的一般規(guī)則。

在這種設(shè)置下，Dreamer 需要連續(xù)玩大約九天才能找到至少一顆鉆石。

而高手玩家找到一顆鉆石需要 20 到 30 分鐘，新手則需要更長的時(shí)間。

在 Minecraft 中進(jìn)行鉆石挑戰(zhàn)

游戲中的每一次都設(shè)定在一個(gè)獨(dú)特的隨機(jī)生成且無限的三維世界中。

每一次持續(xù)到玩家死亡或達(dá)到 36,000 步（相當(dāng)于 30 分鐘），根據(jù) MineRL 競賽提供的動(dòng)作形成了一個(gè)分類動(dòng)作空間，其中包括抽象的制作動(dòng)作。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

據(jù) DeepMind 宣稱，Dreamer 是第一個(gè)在不使用人類數(shù)據(jù)的情況下從零開始在《我的世界》中收集鉆石的算法。

所有的 Dreamer 智能體都在一億次步驟內(nèi)發(fā)現(xiàn)了鉆石。所有物品的成功率顯示在圖右擴(kuò)展數(shù)據(jù)中。

盡管其他幾個(gè)強(qiáng)大的算法（例子中的 PPO、Rainbow 和 IMPALA）進(jìn)展到了諸如鐵鎬等高級(jí)物品，但沒有一個(gè)發(fā)現(xiàn)鉆石。

Dreamer 算法核心原理

Dreamer 算法的核心是學(xué)習(xí)一個(gè)世界模型。

這就像是智能體的大腦，讓智能體具備豐富的感知能力，通過想象未來場景來規(guī)劃行動(dòng)。

算法由三個(gè)關(guān)鍵的神經(jīng)網(wǎng)絡(luò)組成：世界模型、評(píng)論家網(wǎng)絡(luò)和行動(dòng)者網(wǎng)絡(luò)。

世界模型通過自動(dòng)編碼學(xué)習(xí)感官輸入的表示，并通過預(yù)測潛在動(dòng)作的未來表示和獎(jiǎng)勵(lì)來實(shí)現(xiàn)規(guī)劃。

將世界模型實(shí)現(xiàn)為遞歸狀態(tài)空間模型，如圖所示。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

評(píng)論家網(wǎng)絡(luò)則對(duì)世界模型預(yù)測的每個(gè)結(jié)果進(jìn)行價(jià)值判斷，評(píng)估這個(gè)結(jié)果對(duì)實(shí)現(xiàn)目標(biāo)的幫助有多大。

行動(dòng)者網(wǎng)絡(luò)根據(jù)評(píng)論家的判斷，選擇能達(dá)到最佳結(jié)果的行動(dòng)。

這三個(gè)網(wǎng)絡(luò)相互協(xié)作，在智能體與環(huán)境交互的過程中，通過重放經(jīng)驗(yàn)同時(shí)進(jìn)行訓(xùn)練。

在訓(xùn)練過程中，世界模型的學(xué)習(xí)至關(guān)重要。它要學(xué)習(xí)從感官輸入中提取有用信息，還要預(yù)測未來的狀態(tài)和獎(jiǎng)勵(lì)。

為實(shí)現(xiàn)這一目標(biāo)，世界模型需要最小化預(yù)測損失、動(dòng)態(tài)損失和表示損失。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

預(yù)測損失用于訓(xùn)練解碼器和獎(jiǎng)勵(lì)預(yù)測器，動(dòng)態(tài)損失訓(xùn)練序列模型預(yù)測下一個(gè)表示，表示損失則讓表示更具可預(yù)測性。

圖中可視化了世界模型的長期視頻預(yù)測。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

實(shí)驗(yàn)結(jié)果

DeepMind 團(tuán)隊(duì)在 8 個(gè)領(lǐng)域的 150 多個(gè)任務(wù)中評(píng)估 Dreamer 算法的通用性，包括連續(xù)和離散動(dòng)作、視覺和低維輸入、密集和稀疏獎(jiǎng)勵(lì)、不同的獎(jiǎng)勵(lì)尺度、二維和三維世界以及程序生成。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

圖中展示了基準(zhǔn)測試結(jié)果，Dreamer 在所有測試中均有更好的表現(xiàn)。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

在 Atari 基準(zhǔn)測試中，它能在使用少量計(jì)算資源的情況下，超越 MuZero 算法，也優(yōu)于 Rainbow 和 IQN 算法。
在 ProcGen 基準(zhǔn)測試中，面對(duì)隨機(jī)生成的關(guān)卡和視覺干擾，Dreamer 算法在 5000 萬幀的預(yù)算內(nèi)，超過了經(jīng)過調(diào)優(yōu)的 PPG 和 Rainbow 算法。
在 DMLab 基準(zhǔn)測試?yán)?，它?1 億幀訓(xùn)練后，性能超過了 IMPALA 和 R2D2 + 智能體，數(shù)據(jù)效率大幅提升。
在 Atari100k 基準(zhǔn)測試中，盡管訓(xùn)練預(yù)算僅為 40 萬幀，Dreamer 算法依然能超越其他方法。
在 BSuite 基準(zhǔn)測試中，它同樣表現(xiàn)出色，在尺度穩(wěn)健性方面有很大改進(jìn)。

研究人員進(jìn)行了消融實(shí)驗(yàn)，結(jié)果表明，所有的穩(wěn)健性技術(shù)都有助于提高算法性能。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

研究人員還對(duì) Dreamer 算法的縮放屬性進(jìn)行了研究。

他們訓(xùn)練了不同規(guī)模的模型，參數(shù)從 12M 到 4M。結(jié)果發(fā)現(xiàn)，擴(kuò)大模型規(guī)模不僅能提高任務(wù)性能，還能減少數(shù)據(jù)需求。

更多的梯度步數(shù)也能減少學(xué)習(xí)成功行為所需的交互次數(shù)。這表明 Dreamer 算法在計(jì)算資源增加時(shí)，能夠穩(wěn)健地提升性能，為實(shí)際應(yīng)用提供了更靈活的選擇。

這篇論文是關(guān)于訓(xùn)練一個(gè)單一算法，期望其能在多樣化的強(qiáng)化學(xué)習(xí)任務(wù)中表現(xiàn)出色。

在《我的游戲》中尋找鉆石也許僅僅通向 AGI 之路的第一關(guān)。

AI 的下一個(gè)更大目標(biāo)是《我的世界》玩家面臨的終極挑戰(zhàn)：擊殺末影龍，這個(gè)虛擬世界中最可怕的生物。

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature

參考資料：

https://www.nature.com/articles/d41586-025-01019-w#ref-CR1
https://www.nature.com/articles/s41586-025-08744-2
https://x.com/danijarh/status/1907511182598222095

本文來自微信公眾號(hào)：新智元（ID：AI_era），原標(biāo)題《DeepMind 閉關(guān)修煉「我的世界」，自學(xué)成才挖鉆登 Nature！人類玩家瑟瑟發(fā)抖》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

谷歌 DeepMind 閉關(guān)修煉《我的世界》：自學(xué)成才挖鉆石，成果登 Nature