在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 DeepMind 閉關(guān)修煉《我的世界》:自學(xué)成才挖鉆石,成果登 Nature

新智元 2025/4/3 13:42:19 責(zé)編:汪淼

AI 又進(jìn)化了,在沒有任何人類數(shù)據(jù)的參與下,自己玩《我的世界》還能找到鉆石!

在剛剛登上 Nature 的論文中,谷歌 DeepMind 的智能體通過純?自我學(xué)習(xí),順利完成了收集鉆石的任務(wù)。

論文鏈接:https://www.nature.com/articles/s41586-025-08744-2

對(duì)此,DeepMind 的計(jì)算機(jī)科學(xué)家 Danijar Hafner 表示:「Dreamer 是一個(gè)重要的里程碑,標(biāo)志著 AI 又朝著通用人工智能前進(jìn)了一大步?!?/p>

又是 AI 和《我的世界》,為何這次就成了邁向 AGI 的一大步

用 AI 來挑戰(zhàn)《我的世界》早已是 AI 界「喜聞樂見」的項(xiàng)目了。

作為世界上排名第一且月活超過 1 億的游戲,《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。

早在兩三年前,包括 OpenAI 在內(nèi)的各個(gè)模型都有挑戰(zhàn)《我的世界》的嘗試。

更早在 2019 年,研究人員就認(rèn)為《我的世界》的開放式游戲環(huán)境可能非常適合 AI 研究。

比如一個(gè)七歲的小孩在觀看了 10 分鐘演示視頻后就能學(xué)會(huì)如何在游戲中找到稀有的鉆石,而當(dāng)年的 AI 還遠(yuǎn)遠(yuǎn)做不到這一點(diǎn)。

AI 從《我的世界》中的一個(gè)隨機(jī)位置開始,必須完成某些任務(wù)來找到鉆石

為何這次 DeepMind 就敢說是「通向 AGI 的一大步」呢?

這次的任務(wù) —— 在游戲內(nèi)尋找鉆石 —— 聽起來容易,但其實(shí)非常困難,「高玩」們也要花 20-30 分鐘才能找到一個(gè)鉆石。

給不熟悉游戲的朋友解釋下這個(gè)任務(wù)為什么這么困難:

1. 每一次的游戲場景都是隨機(jī)世界,包含各種地形的虛擬 3D 世界,包括森林、山脈、沙漠和沼澤,這讓 AI 無法只記住一種特定策略來作弊;

2. 想要獲得鉆石需要經(jīng)過一系列復(fù)雜的前置流程,并不是隨機(jī)在地圖尋找,比如你需要:

  • 先找到樹木

  • 然后將樹木分解為木材,木材也僅僅是用來制作一個(gè)工作臺(tái)

  • 有了工作臺(tái)再加上更多的木材你才可以制作一個(gè)木頭鎬頭

  • 然后才能開始挖掘以尋找鉆石

  • ......

鉆石恒久遠(yuǎn),AI 不疲倦

AI 研究人員專注于在《我的世界》中尋找鉆石,Hafner 說因?yàn)檫@需要一系列復(fù)雜的步驟,是一個(gè)很長的里程碑鏈條,因此它需要非常深入的探索。

DeepMind 的 Dreamer AI 在《我的世界》中進(jìn)行了多次游戲?qū)W習(xí)如何收集鉆石

▲ DeepMind 的 Dreamer AI 在《我的世界》中進(jìn)行了多次游戲?qū)W習(xí)如何收集鉆石

之前的嘗試讓 AI 系統(tǒng)收集鉆石依賴于使用人類游戲的視頻或研究人員引導(dǎo)系統(tǒng)完成各個(gè)步驟。

相比之下,Dreamer 通過強(qiáng)化學(xué)習(xí)的試錯(cuò)技術(shù)自行探索游戲的所有內(nèi)容 —— 它識(shí)別出可能帶來獎(jiǎng)勵(lì)的動(dòng)作,重復(fù)這些動(dòng)作并放棄其他動(dòng)作。

強(qiáng)化學(xué)習(xí)是一些重大 AI 進(jìn)展的基礎(chǔ),但之前的程序都是專家型的 —— 它們無法從零開始在新領(lǐng)域應(yīng)用知識(shí)。

成功的關(guān)鍵是構(gòu)建「世界模型」

Dreamer 成功的關(guān)鍵在于它構(gòu)建了周圍環(huán)境的模型,并使用這個(gè)世界模型來「想象」未來的情景并指導(dǎo)決策。

就像我們自己的抽象思維一樣,世界模型并不是周圍環(huán)境的精確復(fù)制品。

世界模型允許 Dreamer 嘗試不同的事情,「世界模型真正賦予了人工智能系統(tǒng)想象未來的能力」Hafner 說。

這種能力還可能有助于創(chuàng)造能夠在現(xiàn)實(shí)世界中學(xué)習(xí)互動(dòng)的機(jī)器人 —— 在現(xiàn)實(shí)世界中,試錯(cuò)的成本要比在視頻游戲中高得多。

研究團(tuán)隊(duì)一開始并不是奔著「鉆石測試」去研究的,測試 Dreamer 在鉆石挑戰(zhàn)上的表現(xiàn)是一個(gè)事后的想法。

「在構(gòu)建整個(gè)算法時(shí)并沒有考慮到這一點(diǎn)」,Hafner 說,但團(tuán)隊(duì)意識(shí)到,這是測試其算法是否能夠開箱即用、處理不熟悉任務(wù)的理想方式。

在《我的世界》中,團(tuán)隊(duì)使用了一種協(xié)議,每當(dāng) Dreamer 完成鉆石收集過程中涉及的 12 個(gè)逐步步驟之一時(shí),就會(huì)獲得一個(gè)「+1」的獎(jiǎng)勵(lì) —— 這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。

這些中間獎(jiǎng)勵(lì)促使 Dreamer 選擇了更有可能獲得鉆石的動(dòng)作。團(tuán)隊(duì)每 30 分鐘重置一次游戲,這樣 Dreamer 就不會(huì)適應(yīng)某個(gè)特定的配置 —— 而是學(xué)會(huì)了獲得更多獎(jiǎng)勵(lì)的一般規(guī)則。

在這種設(shè)置下,Dreamer 需要連續(xù)玩大約九天才能找到至少一顆鉆石。

而高手玩家找到一顆鉆石需要 20 到 30 分鐘,新手則需要更長的時(shí)間。

在 Minecraft 中進(jìn)行鉆石挑戰(zhàn)

游戲中的每一次都設(shè)定在一個(gè)獨(dú)特的隨機(jī)生成且無限的三維世界中。

每一次持續(xù)到玩家死亡或達(dá)到 36,000 步(相當(dāng)于 30 分鐘),根據(jù) MineRL 競賽提供的動(dòng)作形成了一個(gè)分類動(dòng)作空間,其中包括抽象的制作動(dòng)作。

據(jù) DeepMind 宣稱,Dreamer 是第一個(gè)在不使用人類數(shù)據(jù)的情況下從零開始在《我的世界》中收集鉆石的算法。

所有的 Dreamer 智能體都在一億次步驟內(nèi)發(fā)現(xiàn)了鉆石。所有物品的成功率顯示在圖右擴(kuò)展數(shù)據(jù)中。

盡管其他幾個(gè)強(qiáng)大的算法(例子中的 PPO、Rainbow 和 IMPALA)進(jìn)展到了諸如鐵鎬等高級(jí)物品,但沒有一個(gè)發(fā)現(xiàn)鉆石。

Dreamer 算法核心原理

Dreamer 算法的核心是學(xué)習(xí)一個(gè)世界模型。

這就像是智能體的大腦,讓智能體具備豐富的感知能力,通過想象未來場景來規(guī)劃行動(dòng)。

算法由三個(gè)關(guān)鍵的神經(jīng)網(wǎng)絡(luò)組成:世界模型、評(píng)論家網(wǎng)絡(luò)和行動(dòng)者網(wǎng)絡(luò)

世界模型通過自動(dòng)編碼學(xué)習(xí)感官輸入的表示,并通過預(yù)測潛在動(dòng)作的未來表示和獎(jiǎng)勵(lì)來實(shí)現(xiàn)規(guī)劃。

將世界模型實(shí)現(xiàn)為遞歸狀態(tài)空間模型,如圖所示。

評(píng)論家網(wǎng)絡(luò)則對(duì)世界模型預(yù)測的每個(gè)結(jié)果進(jìn)行價(jià)值判斷,評(píng)估這個(gè)結(jié)果對(duì)實(shí)現(xiàn)目標(biāo)的幫助有多大。

行動(dòng)者網(wǎng)絡(luò)根據(jù)評(píng)論家的判斷,選擇能達(dá)到最佳結(jié)果的行動(dòng)。

這三個(gè)網(wǎng)絡(luò)相互協(xié)作,在智能體與環(huán)境交互的過程中,通過重放經(jīng)驗(yàn)同時(shí)進(jìn)行訓(xùn)練。

在訓(xùn)練過程中,世界模型的學(xué)習(xí)至關(guān)重要。它要學(xué)習(xí)從感官輸入中提取有用信息,還要預(yù)測未來的狀態(tài)和獎(jiǎng)勵(lì)。

為實(shí)現(xiàn)這一目標(biāo),世界模型需要最小化預(yù)測損失、動(dòng)態(tài)損失和表示損失。

預(yù)測損失用于訓(xùn)練解碼器和獎(jiǎng)勵(lì)預(yù)測器,動(dòng)態(tài)損失訓(xùn)練序列模型預(yù)測下一個(gè)表示,表示損失則讓表示更具可預(yù)測性。

圖中可視化了世界模型的長期視頻預(yù)測。

實(shí)驗(yàn)結(jié)果

DeepMind 團(tuán)隊(duì)在 8 個(gè)領(lǐng)域的 150 多個(gè)任務(wù)中評(píng)估 Dreamer 算法的通用性,包括連續(xù)和離散動(dòng)作、視覺和低維輸入、密集和稀疏獎(jiǎng)勵(lì)、不同的獎(jiǎng)勵(lì)尺度、二維和三維世界以及程序生成。

圖中展示了基準(zhǔn)測試結(jié)果,Dreamer 在所有測試中均有更好的表現(xiàn)

  • 在 Atari 基準(zhǔn)測試中,它能在使用少量計(jì)算資源的情況下,超越 MuZero 算法,也優(yōu)于 Rainbow 和 IQN 算法。

  • 在 ProcGen 基準(zhǔn)測試中,面對(duì)隨機(jī)生成的關(guān)卡和視覺干擾,Dreamer 算法在 5000 萬幀的預(yù)算內(nèi),超過了經(jīng)過調(diào)優(yōu)的 PPG 和 Rainbow 算法。

  • 在 DMLab 基準(zhǔn)測試?yán)?,它?1 億幀訓(xùn)練后,性能超過了 IMPALA 和 R2D2 + 智能體,數(shù)據(jù)效率大幅提升。

  • 在 Atari100k 基準(zhǔn)測試中,盡管訓(xùn)練預(yù)算僅為 40 萬幀,Dreamer 算法依然能超越其他方法。

  • 在 BSuite 基準(zhǔn)測試中,它同樣表現(xiàn)出色,在尺度穩(wěn)健性方面有很大改進(jìn)。

研究人員進(jìn)行了消融實(shí)驗(yàn),結(jié)果表明,所有的穩(wěn)健性技術(shù)都有助于提高算法性能。

研究人員還對(duì) Dreamer 算法的縮放屬性進(jìn)行了研究。

他們訓(xùn)練了不同規(guī)模的模型,參數(shù)從 12M 到 4M。結(jié)果發(fā)現(xiàn),擴(kuò)大模型規(guī)模不僅能提高任務(wù)性能,還能減少數(shù)據(jù)需求。

更多的梯度步數(shù)也能減少學(xué)習(xí)成功行為所需的交互次數(shù)。這表明 Dreamer 算法在計(jì)算資源增加時(shí),能夠穩(wěn)健地提升性能,為實(shí)際應(yīng)用提供了更靈活的選擇。

這篇論文是關(guān)于訓(xùn)練一個(gè)單一算法,期望其能在多樣化的強(qiáng)化學(xué)習(xí)任務(wù)中表現(xiàn)出色。

在《我的游戲》中尋找鉆石也許僅僅通向 AGI 之路的第一關(guān)。

AI 的下一個(gè)更大目標(biāo)是《我的世界》玩家面臨的終極挑戰(zhàn):擊殺末影龍,這個(gè)虛擬世界中最可怕的生物

參考資料:

  • https://www.nature.com/articles/d41586-025-01019-w#ref-CR1

  • https://www.nature.com/articles/s41586-025-08744-2

  • https://x.com/danijarh/status/1907511182598222095

本文來自微信公眾號(hào):新智元(ID:AI_era),原標(biāo)題《DeepMind 閉關(guān)修煉「我的世界」,自學(xué)成才挖鉆登 Nature!人類玩家瑟瑟發(fā)抖》

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:DeepMind我的世界,AI學(xué)習(xí)

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知