從 0 開始在《我的世界》 (MineCraft)中挖出一塊鉆石,需要多長時(shí)間?對于熟悉游戲的玩家來說,可能只需要幾分鐘的時(shí)間:

▲ 圖源 Youtube@ItzJhief
然而對于 AI 來說,15 分鐘內(nèi)可能都挖不出 1 塊鉆石!
為了發(fā)掘 AI 的潛力,CMU、微軟、DeepMind 和 OpenAI 聯(lián)手在頂會(huì) NeurIPS 上舉辦了一個(gè)名叫 MineRL 的競賽,要求參賽隊(duì)伍在 4 天時(shí)間內(nèi),訓(xùn)練出一個(gè)能在 15 分鐘內(nèi)挖出鉆石的 AI“礦工”。

從往屆表現(xiàn)來看,冠軍連 40 分都拿不到,甚至舉辦方給出的 AI Baselines 只能達(dá)到 2 分左右的水準(zhǔn)(滿分 100 分)。
今年,騰訊的絕悟 AI 卻以 76.97 分的絕對優(yōu)勢一舉奪魁,成功成為挑戰(zhàn)賽歷史上“挖礦最迅速”的 AI。(不過,這幾屆的所有 AI,都沒能達(dá)成 15min 內(nèi)挖出鉆石這一挑戰(zhàn))

▲紅色為絕悟 AI 分?jǐn)?shù)
騰訊 AI Lab 是怎么拿到冠軍的?
“AI 礦工”為何難以挖出鉆石?
之所以 AI 難以在競賽中迅速挖出鉆石,主要有兩方面的原因。一方面,《我的世界》游戲本身對 AI 有難度。
作為開放世界游戲,它的初始世界完全隨機(jī)生成,而迅速合成鉆石又需要比較復(fù)雜的步驟:既不能只用一種工具,也不能“一挖到底”。
通常來說,從 0 開始挖鉆石最快的方法,分為 7 個(gè)步驟。第一步,玩家在空手進(jìn)入《我的世界》中時(shí),需要先找到樹上的木頭,用來獲取木塊:

第二步,將這些木塊用來合成工作臺:

第三步,在工作臺上合成木鎬,用來挖原石:

第四步,獲得原石之后,需要合成一個(gè)石鎬,用來快速挖鐵礦:

第五步,為了將鐵礦合成鐵錠,還需要做一個(gè)熔爐來燒鐵:

第六步,合成鐵鎬,用來挖出鉆石:

第七步,尋找鉆石,并用鐵鎬來挖出最終的鉆石:

看到這里,就知道挖礦對于 AI 來說,已經(jīng)很復(fù)雜了,不僅面臨大量決策,還需要考慮時(shí)間問題。
另一方面,為了增加難度,舉辦方還特意給“AI 礦工”們增加了不少限制。
禁止參賽者編寫規(guī)則、游戲環(huán)境將背包信息與動(dòng)作空間加密、不允許使用預(yù)訓(xùn)練模型、AI 與環(huán)境交互不超過 800 萬次、只能使用 6 核 CPU + 半張 NVIDIA K80 顯卡訓(xùn)練 4 天……
當(dāng)然,這樣做是為了讓各大高校的學(xué)生也有能力參與這次挑戰(zhàn)賽,不至于出現(xiàn)硬件上“軍備競賽”的問題。
面對來自游戲和舉辦方的“挑戰(zhàn)”,騰訊的絕悟 AI 是如何成為一名優(yōu)秀礦工的?
如何讓 AI 更快地挖礦?
首先,是整體訓(xùn)練策略的問題。
要想讓 AI 在短時(shí)間、少算力的情況下變得會(huì)挖礦,首先就要改變訓(xùn)練策略。
這種情況下,不可能再用強(qiáng)化學(xué)習(xí)對 AI 進(jìn)行整體訓(xùn)練。
因此,騰訊 AI Lab 將強(qiáng)化學(xué)習(xí)進(jìn)行了“升級”,提出了一種基于分層強(qiáng)化學(xué)習(xí) (Hierarchical Reinforcement Learning)的方法。

簡單來說,就是將挖出鉆石的過程像人一樣分成幾個(gè)具體的步驟,每個(gè)步驟都有一個(gè)“小目標(biāo)”,讓 AI 在完成一個(gè)目標(biāo)后,能迅速地實(shí)施下一個(gè)目標(biāo)。
然后,就是三個(gè)細(xì)節(jié)上的問題了。
其一,開放地圖的理解問題。由于表示學(xué)習(xí)在《我的世界》這樣的 3D 場景中效果很差,騰訊 AI Lab 設(shè)計(jì)了一種基于動(dòng)作感知的算法,來捕捉每個(gè)動(dòng)作對環(huán)境的影響。

這種方法快速地提升了 AI 在開放世界中獲取資源的速度。
其二,策略選擇問題。在游戲進(jìn)行到一定階段后,AI 與人的思路會(huì)發(fā)生一些差異,僅憑人類數(shù)據(jù)訓(xùn)練,對 AI 的提升作用有限。為此,騰訊 AI Lab 采用了自模仿學(xué)習(xí)的算法,從自己的實(shí)踐中獲得教訓(xùn)和經(jīng)驗(yàn),來降低進(jìn)入危險(xiǎn)區(qū)域、做出錯(cuò)誤決策的概率。
其三,合成物品問題。合成物品對于人類來說非常簡單,然而 AI 卻總是不容易合成它,成功率一開始甚至只有 35% 左右。為此,騰訊 AI Lab 采用了動(dòng)作序列一致性過濾(Consistency Filtering)+ 基于投票的集成學(xué)習(xí)(Ensemble Learning)方法,最終將合成物品的成功率提升到 96%。

最終在評分中,絕悟 AI 的分?jǐn)?shù)達(dá)到了 76.97 分。
事實(shí)上,在游戲 AI 上一路向前的“絕悟”,已經(jīng)歷了數(shù)次進(jìn)化。從最初攻克 Atari 游戲開始,到后來的棋牌游戲 AI“絕藝”,掌握一手圍棋、象棋、麻將的絕活。再到現(xiàn)在的策略協(xié)作型 AI“絕悟”,從 MOBA、FPS 再到開放世界游戲《我的世界》,這個(gè)基于強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體正在變得愈發(fā)復(fù)雜。
這次的《我的世界》版絕悟 AI 論文也已經(jīng)放出,感興趣的小伙伴可以沖了~
《我的世界》版絕悟 AI 論文地址:
https://arxiv.org/abs/2112.04907
參考鏈接:
[1]https://www.youtube.com/watch?v=CnKJgA93hyY
[2]https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition#team
[3]https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition/leaderboards?challenge_round_id=956
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。