《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

量子位 2021/12/11 13:21:34 責(zé)編：長河

評(píng)論：

從 0 開始在《我的世界》（MineCraft）中挖出一塊鉆石，需要多長時(shí)間？對(duì)于熟悉游戲的玩家來說，可能只需要幾分鐘的時(shí)間：

▲ 圖源 Youtube@ItzJhief

然而對(duì)于 AI 來說，15 分鐘內(nèi)可能都挖不出 1 塊鉆石！

為了發(fā)掘 AI 的潛力，CMU、微軟、DeepMind 和 OpenAI 聯(lián)手在頂會(huì) NeurIPS 上舉辦了一個(gè)名叫 MineRL 的競賽，要求參賽隊(duì)伍在 4 天時(shí)間內(nèi)，訓(xùn)練出一個(gè)能在 15 分鐘內(nèi)挖出鉆石的 AI“礦工”。

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

從往屆表現(xiàn)來看，冠軍連 40 分都拿不到，甚至舉辦方給出的 AI Baselines 只能達(dá)到 2 分左右的水準(zhǔn)（滿分 100 分）。

今年，騰訊的絕悟 AI 卻以 76.97 分的絕對(duì)優(yōu)勢一舉奪魁，成功成為挑戰(zhàn)賽歷史上“挖礦最迅速”的 AI。（不過，這幾屆的所有 AI，都沒能達(dá)成 15min 內(nèi)挖出鉆石這一挑戰(zhàn)）

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

▲紅色為絕悟 AI 分?jǐn)?shù)

騰訊 AI Lab 是怎么拿到冠軍的？

“AI 礦工”為何難以挖出鉆石？

之所以 AI 難以在競賽中迅速挖出鉆石，主要有兩方面的原因。一方面，《我的世界》游戲本身對(duì) AI 有難度。

作為開放世界游戲，它的初始世界完全隨機(jī)生成，而迅速合成鉆石又需要比較復(fù)雜的步驟：既不能只用一種工具，也不能“一挖到底”。

通常來說，從 0 開始挖鉆石最快的方法，分為 7 個(gè)步驟。第一步，玩家在空手進(jìn)入《我的世界》中時(shí)，需要先找到樹上的木頭，用來獲取木塊：

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

第二步，將這些木塊用來合成工作臺(tái)：

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

第三步，在工作臺(tái)上合成木鎬，用來挖原石：

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

第四步，獲得原石之后，需要合成一個(gè)石鎬，用來快速挖鐵礦：

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

第五步，為了將鐵礦合成鐵錠，還需要做一個(gè)熔爐來燒鐵：

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

第六步，合成鐵鎬，用來挖出鉆石：

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

第七步，尋找鉆石，并用鐵鎬來挖出最終的鉆石：

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

看到這里，就知道挖礦對(duì)于 AI 來說，已經(jīng)很復(fù)雜了，不僅面臨大量決策，還需要考慮時(shí)間問題。

另一方面，為了增加難度，舉辦方還特意給“AI 礦工”們增加了不少限制。

禁止參賽者編寫規(guī)則、游戲環(huán)境將背包信息與動(dòng)作空間加密、不允許使用預(yù)訓(xùn)練模型、AI 與環(huán)境交互不超過 800 萬次、只能使用 6 核 CPU + 半張 NVIDIA K80 顯卡訓(xùn)練 4 天……

當(dāng)然，這樣做是為了讓各大高校的學(xué)生也有能力參與這次挑戰(zhàn)賽，不至于出現(xiàn)硬件上“軍備競賽”的問題。

面對(duì)來自游戲和舉辦方的“挑戰(zhàn)”，騰訊的絕悟 AI 是如何成為一名優(yōu)秀礦工的？

如何讓 AI 更快地挖礦？

首先，是整體訓(xùn)練策略的問題。

要想讓 AI 在短時(shí)間、少算力的情況下變得會(huì)挖礦，首先就要改變訓(xùn)練策略。

這種情況下，不可能再用強(qiáng)化學(xué)習(xí)對(duì) AI 進(jìn)行整體訓(xùn)練。

因此，騰訊 AI Lab 將強(qiáng)化學(xué)習(xí)進(jìn)行了“升級(jí)”，提出了一種基于分層強(qiáng)化學(xué)習(xí) （Hierarchical Reinforcement Learning）的方法。

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

簡單來說，就是將挖出鉆石的過程像人一樣分成幾個(gè)具體的步驟，每個(gè)步驟都有一個(gè)“小目標(biāo)”，讓 AI 在完成一個(gè)目標(biāo)后，能迅速地實(shí)施下一個(gè)目標(biāo)。

然后，就是三個(gè)細(xì)節(jié)上的問題了。

其一，開放地圖的理解問題。由于表示學(xué)習(xí)在《我的世界》這樣的 3D 場景中效果很差，騰訊 AI Lab 設(shè)計(jì)了一種基于動(dòng)作感知的算法，來捕捉每個(gè)動(dòng)作對(duì)環(huán)境的影響。

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

這種方法快速地提升了 AI 在開放世界中獲取資源的速度。

其二，策略選擇問題。在游戲進(jìn)行到一定階段后，AI 與人的思路會(huì)發(fā)生一些差異，僅憑人類數(shù)據(jù)訓(xùn)練，對(duì) AI 的提升作用有限。為此，騰訊 AI Lab 采用了自模仿學(xué)習(xí)的算法，從自己的實(shí)踐中獲得教訓(xùn)和經(jīng)驗(yàn)，來降低進(jìn)入危險(xiǎn)區(qū)域、做出錯(cuò)誤決策的概率。

其三，合成物品問題。合成物品對(duì)于人類來說非常簡單，然而 AI 卻總是不容易合成它，成功率一開始甚至只有 35% 左右。為此，騰訊 AI Lab 采用了動(dòng)作序列一致性過濾（Consistency Filtering）+ 基于投票的集成學(xué)習(xí)（Ensemble Learning）方法，最終將合成物品的成功率提升到 96%。

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

最終在評(píng)分中，絕悟 AI 的分?jǐn)?shù)達(dá)到了 76.97 分。

事實(shí)上，在游戲 AI 上一路向前的“絕悟”，已經(jīng)歷了數(shù)次進(jìn)化。從最初攻克 Atari 游戲開始，到后來的棋牌游戲 AI“絕藝”，掌握一手圍棋、象棋、麻將的絕活。再到現(xiàn)在的策略協(xié)作型 AI“絕悟”，從 MOBA、FPS 再到開放世界游戲《我的世界》，這個(gè)基于強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體正在變得愈發(fā)復(fù)雜。

這次的《我的世界》版絕悟 AI 論文也已經(jīng)放出，感興趣的小伙伴可以沖了~

《我的世界》版絕悟 AI 論文地址：

https://arxiv.org/abs/2112.04907

參考鏈接：

[1]https://www.youtube.com/watch?v=CnKJgA93hyY

[2]https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition#team

[3]https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition/leaderboards?challenge_round_id=956

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

《我的世界》中挖鉆石有多難：NeurIPS 挑戰(zhàn)賽沒有一個(gè) AI 能在 15 分鐘內(nèi)完成

“AI 礦工”為何難以挖出鉆石？

如何讓 AI 更快地挖礦？

相關(guān)文章

“AI 礦工”為何難以挖出鉆石？

如何讓 AI 更快地挖礦？