首頁(yè) > 智能時(shí)代>人工智能

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

新智元 2024/12/17 12:54:05 責(zé)編：汪淼

評(píng)論：

沒(méi)有外部數(shù)據(jù)，AI 自己也能進(jìn)化？

聽(tīng)起來(lái)有點(diǎn)嚇人，于是谷歌 DeepMind 的這項(xiàng)研究很快引起了廣泛關(guān)注。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

論文地址：https://arxiv.org/pdf/2411.16905

新的方法被命名為「蘇格拉底式學(xué)習(xí)」（Socratic Learning），能夠使 AI 系統(tǒng)自主遞歸增強(qiáng)，超越初始訓(xùn)練數(shù)據(jù)的限制。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

研究人員表示，只要滿足三個(gè)條件，在封閉系統(tǒng)中訓(xùn)練的智能體可以掌握任何所需的能力：

a）收到足夠信息量和一致的反饋；
b）經(jīng)驗(yàn) / 數(shù)據(jù)覆蓋范圍足夠廣泛；
c）有足夠的能力和資源。

本文考慮了假設(shè) c）不是瓶頸的情況下，在封閉系統(tǒng)中 a）和 b）會(huì)產(chǎn)生哪些限制。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

蘇格拉底式學(xué)習(xí)的核心是語(yǔ)言游戲（即結(jié)構(gòu)化的交互），智能體在其中交流、解決問(wèn)題并以分?jǐn)?shù)的形式接收反饋。

整個(gè)過(guò)程中，AI 在封閉的系統(tǒng)中自己玩游戲、生成數(shù)據(jù)、然后改進(jìn)自身的能力，無(wú)需人工輸入。如果游戲玩膩了，AI 還可以自己創(chuàng)建新游戲，解鎖更多抽象技能。

Socratic Learning 消除了固定架構(gòu)的局限，使 AI 的表現(xiàn)能夠遠(yuǎn)超其初始數(shù)據(jù)和知識(shí)，且僅受時(shí)間的限制。

邁向真正自主的 AI

考慮一個(gè)隨時(shí)間演變的封閉系統(tǒng)（無(wú)輸入、無(wú)輸出），如下圖所示。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

在系統(tǒng)中，有一個(gè)具有輸入和輸出的實(shí)體（智能體，agent），它也會(huì)隨著時(shí)間的推移而變化。系統(tǒng)外部有一個(gè)觀察者，負(fù)責(zé)評(píng)估智能體的性能。

由于系統(tǒng)是封閉的，觀察者的評(píng)估無(wú)法反饋到系統(tǒng)中。因此，智能體的學(xué)習(xí)反饋必須來(lái)自系統(tǒng)內(nèi)部，例如損失、獎(jiǎng)勵(lì)函數(shù)、偏好數(shù)據(jù)或批評(píng)者。

考慮藍(lán)色虛線的路徑，讓智能體輸出影響未來(lái)的智能體輸入，并且性能得到提高（自我改進(jìn)過(guò)程），如果輸入和輸出空間兼容，則這種自我提升是遞歸的。

自我提升過(guò)程的一個(gè)典型例子是自我博弈，系統(tǒng)讓智能體作為游戲的雙方，從生成一個(gè)無(wú)限的體驗(yàn)流，并帶有獲勝反饋，來(lái)指導(dǎo)學(xué)習(xí)的方向。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

反饋是其中的關(guān)鍵一環(huán)，AI 的真正意義是相對(duì)于外部觀察者的，但在封閉的系統(tǒng)中，反饋只能來(lái)自?xún)?nèi)部的智能體。

這對(duì)于系統(tǒng)來(lái)說(shuō)是一個(gè)挑戰(zhàn)：讓反饋與觀察者保持一致，并在整個(gè)過(guò)程中保持一致。

RL 的自我糾正能力在這里并不適用，可以自我糾正的是給定反饋的行為，而不是反饋本身。

蘇格拉底式學(xué)習(xí)

與輸出僅影響輸入分布的一般情況相比，遞歸的自我提升更具限制性，但中介作用更少，最常見(jiàn)的是將智能體輸出映射到輸入的環(huán)境實(shí)例化。

這種類(lèi)型的遞歸是許多開(kāi)放式流程的一個(gè)屬性，而開(kāi)放式改進(jìn)正是 ASI 的一個(gè)核心特征。

輸入和輸出空間兼容的一個(gè)例子是語(yǔ)言。人類(lèi)的廣泛行為都是由語(yǔ)言介導(dǎo)的，特別是在認(rèn)知領(lǐng)域。

語(yǔ)言的一個(gè)相關(guān)特征是它的可擴(kuò)展性，即可以在現(xiàn)有語(yǔ)言中開(kāi)發(fā)新的語(yǔ)言，比如在自然語(yǔ)言中開(kāi)發(fā)的形式數(shù)學(xué)或編程語(yǔ)言。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

綜上，本文選擇研究智能體在語(yǔ)言空間中遞歸自我提升的過(guò)程。蘇格拉底式學(xué)習(xí)，模仿了蘇格拉底通過(guò)提問(wèn)、對(duì)話和重復(fù)的語(yǔ)言互動(dòng)，來(lái)尋找或提煉知識(shí)的方法。

蘇格拉底并沒(méi)有去外界收集現(xiàn)實(shí)世界中的觀察結(jié)果，這也符合本文強(qiáng)調(diào)的封閉系統(tǒng)。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

局限性

在自我提升的三個(gè)必要條件中，覆蓋率和反饋原則上適用于蘇格拉底式學(xué)習(xí)，并且是不可簡(jiǎn)化的。

從長(zhǎng)遠(yuǎn)角度來(lái)看，如果計(jì)算和內(nèi)存保持指數(shù)級(jí)增長(zhǎng)，那么規(guī)模限制只是一個(gè)暫時(shí)的障礙。另一方面，即使是資源受限的場(chǎng)景，蘇格拉底式學(xué)習(xí)可能仍會(huì)產(chǎn)生有效的高級(jí)見(jiàn)解。

覆蓋率意味著蘇格拉底式學(xué)習(xí)系統(tǒng)必須不斷生成數(shù)據(jù)（語(yǔ)言），同時(shí)隨著時(shí)間的推移保持或擴(kuò)大多樣性。

生成對(duì)于 LLM 來(lái)說(shuō)是小菜一碟，難的是在遞歸過(guò)程中防止漂移、崩潰或者生成分布不夠廣泛。

反饋要求系統(tǒng)繼續(xù)產(chǎn)生關(guān)于智能體輸出的反饋，這在結(jié)構(gòu)上需要一個(gè)能夠評(píng)估語(yǔ)言的批評(píng)者，且應(yīng)與觀察者的評(píng)估指標(biāo)保持充分一致。

然而，語(yǔ)言空間中定義明確的指標(biāo)通常僅限于特定的任務(wù)，而 AI 反饋則需要更通用的機(jī)制，尤其是在允許輸入分布發(fā)生變化的情況下。

目前的 LLM 訓(xùn)練范式都沒(méi)有足以用于蘇格拉底式學(xué)習(xí)的反饋機(jī)制。比如下一個(gè)標(biāo)記預(yù)測(cè)損失，與下游使用情況不一致，并且無(wú)法推斷訓(xùn)練數(shù)據(jù)之外的情況。

根據(jù)定義，人類(lèi)的偏好是一致的，但無(wú)法在封閉系統(tǒng)的學(xué)習(xí)中使用。將人類(lèi)偏好緩存到學(xué)習(xí)的獎(jiǎng)勵(lì)模型中或許可行，但從長(zhǎng)遠(yuǎn)來(lái)看，可能會(huì)產(chǎn)生錯(cuò)位，并且在分布外的數(shù)據(jù)上效果也很弱。

換句話說(shuō)，純粹的蘇格拉底式學(xué)習(xí)是可能的，但需要通過(guò)強(qiáng)大且一致的批評(píng)者生成廣泛的數(shù)據(jù)。當(dāng)這些條件成立時(shí)，這種方法的上限就只取決于能夠提供的計(jì)算資源。

LANGUAGE GAMES ARE ALL YOU NEED

語(yǔ)言、學(xué)習(xí)和基礎(chǔ)是經(jīng)過(guò)充分研究的話題。其中一個(gè)特別有用的概念是哲學(xué)家 Wittgenstein 提出的「語(yǔ)言游戲」。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

對(duì)他來(lái)說(shuō)，捕捉意義的不是文字，而需要語(yǔ)言的互動(dòng)性質(zhì)才能做到這一點(diǎn)。

具體來(lái)說(shuō)，將語(yǔ)言游戲定義為交互協(xié)議（一組規(guī)則，可以用代碼表達(dá)），指定一個(gè)或多個(gè)智能體（玩家）的交互，這些智能體具有語(yǔ)言輸入和輸出，以及在游戲結(jié)束時(shí)每個(gè)玩家的標(biāo)量評(píng)分函數(shù)。

這樣定義的語(yǔ)言游戲解決了蘇格拉底式學(xué)習(xí)的兩個(gè)主要需求：為無(wú)限的交互式數(shù)據(jù)生成提供了一種可擴(kuò)展的機(jī)制，同時(shí)自動(dòng)提供反饋信號(hào)（分?jǐn)?shù)）。

從實(shí)用的角度來(lái)看，游戲也是一個(gè)很好的入門(mén)方式，因?yàn)槿祟?lèi)在創(chuàng)造和磨練大量游戲和玩家技能方面有著相當(dāng)多的記錄。

實(shí)際上，許多常見(jiàn)的 LLM 交互范式也能被很好地表示為語(yǔ)言游戲，例如辯論、角色扮演、心智理論、談判、越獄防御，或者是在封閉系統(tǒng)之外，來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí)。

Wittgenstein 曾表示，他堅(jiān)決反對(duì)語(yǔ)言具有單一的本質(zhì)或功能。

相比于單一的通用語(yǔ)言游戲，使用許多狹義但定義明確的語(yǔ)言游戲的優(yōu)勢(shì)在于：對(duì)于每個(gè)狹義的游戲，都可以設(shè)計(jì)一個(gè)可靠的分?jǐn)?shù)函數(shù)（或評(píng)論家），這對(duì)于通用游戲來(lái)說(shuō)非常困難。

從這個(gè)角度來(lái)看，蘇格拉底式學(xué)習(xí)的整個(gè)過(guò)程就是一個(gè)元游戲，一個(gè)安排了智能體玩和學(xué)習(xí)的語(yǔ)言游戲（一個(gè)「無(wú)限」的游戲）。

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

蘇格拉底因「腐蝕青年」而被判處死刑并被處決。這也意味著，蘇格拉底過(guò)程并不能保證與外部觀察者的意圖保持一致。

語(yǔ)言游戲作為一種機(jī)制也沒(méi)有回避這一點(diǎn)，但它所需要的不是在單個(gè)輸入和輸出的細(xì)粒度上對(duì)齊的批評(píng)家，而是一個(gè)可以判斷應(yīng)該玩哪些游戲的「元批評(píng)家」：根據(jù)是否對(duì)整體性能有貢獻(xiàn)來(lái)過(guò)濾游戲。

此外，游戲的有用性不需要先驗(yàn)評(píng)估，可以在玩了一段時(shí)間后事后判斷，畢竟事后檢測(cè)異?？赡鼙仍O(shè)計(jì)時(shí)阻止要容易得多。

那么問(wèn)題來(lái)了，如果從蘇格拉底和他的弟子開(kāi)始，數(shù)千年來(lái)一直不受干擾地思考和改進(jìn)，到現(xiàn)在會(huì)產(chǎn)生什么樣的文化產(chǎn)物、什么樣的知識(shí)、什么樣的智慧？

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

語(yǔ)言游戲讓 AI 自我進(jìn)化，谷歌 DeepMind 推出蘇格拉底式學(xué)習(xí)

邁向真正自主的 AI

蘇格拉底式學(xué)習(xí)

局限性

LANGUAGE GAMES ARE ALL YOU NEED

相關(guān)文章