首頁 > 智能時代>人工智能

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

量子位 2023/10/8 15:13:14 責編：遠洋

評論：

傳奇程序員卡馬克（John Carmack），與強化學習之父薩頓（Richard Sutton）強強聯(lián)手了，All in AGI。

2030 年向公眾展示通用人工智能的目標是可行的。

并且與主流方法不同，不依賴大模型范式，更追求實時的在線學習。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

兩人在薩頓任教的阿爾伯塔大學機器智能研究所（Amii）特別活動上宣布了這一消息。

薩頓會加入卡馬克的 AI 創(chuàng)業(yè)公司 Keen Technologies，同時保持在阿爾伯塔的教職。

兩人在活動中都承認，與擁有成百上千員工的大公司相比，Keen Technologies 的團隊規(guī)模很小。

目前還在剛起步階段，公司整個技術團隊都到了現(xiàn)場 —— 只有站著的這 4 個人。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

其融資規(guī)模 2000 萬美元，與 OpenAI、Anthropic 這樣動輒幾十億的也沒法比。

但他們相信，最終 AGI 的源代碼是一個人就能編寫的量級，可能只有幾萬行。

而且當前 AI 領域正處在杠桿效應最大的特殊時刻，小團隊也有機會做出大貢獻。

傳奇程序員與強化學習之父

卡馬克的傳奇經歷，從開發(fā)世界第一款 3D 游戲，到轉型造火箭，再到加入 Oculus 成為后來 Meta VR 關鍵人物的故事都已被人熟知。

后來他與 AI 結緣，還和 OpenAI 有關。

他曾在另一場訪談中透露，Sam Altman 曾邀他加入 OpenAI，認為他能在系統(tǒng)優(yōu)化方面發(fā)揮重要作用。

但卡馬克當時認為自己對機器學習范式的現(xiàn)代 AI 沒有任何了解，也就沒有答應。

這卻成了他開始了解 AI 的一個契機。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

他向 OpenAI 的首席科學家 Ilya Sutskever 要了一個入門必讀清單，從頭開始自學，先對傳統(tǒng)機器學習算法有了基本的了解。

等有了空閑，打算繼續(xù)涉足深度學習的時候，他來了個一周編程挑戰(zhàn)：

打印幾篇 LeCun 的經典論文，在斷網情況下動手實踐，從推反向傳播公式開始。

一周過去后，他帶著用 C++ 手搓的卷積神經網絡結束閉關，沒有借助 Python 上的現(xiàn)代深度學習框架。

只能說佩服大神了。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

此時他的主業(yè)還是在 Facebook（后改名 Meta）旗下 Oculus 研究 VR，帶領團隊推出了 Ouclus Go 和 Quest 等產品。

不過這個過程中，他與公司管理層之間也逐漸產生矛盾和分歧，認為公司內部效率低下，也曾公開發(fā)表不滿。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

2019 年，他辭去 Oculus CTO 職位轉而擔任“顧問 CTO”，開始把更多精力轉向 AI。

2022 年 8 月，他宣布新 AI 創(chuàng)業(yè)公司 Keen Technologies 宣布融資 2000 萬美元，投資者包括紅杉資本，GitHub 前 CEO Nat Friedman 等。

后續(xù)他也透露，其實區(qū)區(qū) 2000 萬美元，自己就拿得出手。

但是從別人那里拿錢能給他一種危機和緊迫感，有更強烈的決心把事情做好。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

2022 年底，他正式離開 Meta，并將 VR 視為已經過去的一個人生階段，接下來完全轉向 AI。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

除了這條明面上的主線之外，卡馬克與 AI 還有一些莫名的緣分。

當年他的 3D 游戲激發(fā)了對圖形計算的需求，GPU 也是從游戲領域開始發(fā)展壯大。

到如今正是 GPU 的算力支持了 AI 的爆發(fā)，他談到這些時仍為自己的貢獻感到自豪。

……

今天的另一位主角薩頓也同樣是位傳奇人物。

他被譽為強化學習之父，為強化時間差異學習和策略梯度等方法做出重要貢獻，也是強化學習標準教科書的合著者。

2017 年他以杰出科學家身份加入 DeepMind，參與了 AlphaGo 系列研究，他的學生 David Silver 則是 AlphaGo 主要負責人之一。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

薩頓寫過一篇著名短文 The Bitter Lesson，認為試圖把人類經驗教給 AI 是行不通的，至今為止所有突破都是依靠算力提升，繼續(xù)利用算力的規(guī)模效應才是正確道路。

兩人正式交流之前，卡馬克就曾表達過對這篇文章的關注和認同。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

但兩人真正直接交流，是薩頓主動聯(lián)系的。

幾個月前，卡馬克宣布 AGI 創(chuàng)業(yè)公司融資之后，收到了薩頓的郵件。

薩頓想要問他他在研究的道路上應該走純學術、商業(yè)化還是非盈利組織路線的問題。

但在后續(xù)郵件交流中，兩人發(fā)現(xiàn)在 AI 研究方向和理念上存在驚人的一致性，漸漸確立了合作關系。

具體來說，兩人達成了 4 個共識：

都認為當前 AGI 發(fā)展被限制在很窄的幾個方向上，過多依賴大數據和大算力而忽視了創(chuàng)新
都認為太早商業(yè)化會阻礙 AGI 的發(fā)展
都認為最終 AGI 不會太復雜，一個人就能掌握全部原理，甚至一個人就能寫出主要的代碼。
都認為 2030 年出現(xiàn) AGI 原型是一個可行的目標。

不只依賴大模型，小團隊也有機會

很大膽的目標，現(xiàn)場觀眾也是這么認為的。

面對“小團隊如何搞定這么宏大的目標”的提問，卡馬克認為實現(xiàn) AGI 所需的數據量和算力需求可能沒有想象中那么大。

把人類一整年眼中所見拍成每秒 30 幀的視頻，可以裝在拇指大小的 U 盤里。
而 1 歲兒童只擁有這么多經驗數據，已經展現(xiàn)出明顯的智能。
如果算法對了，就不需要用整個互聯(lián)網的數據讓 AGI 去學習。

對于算力需求，他也是用這種直覺式的思維去考慮：人腦的計算能力也有限，遠遠達不到一個大型算力集群的程度。

比一個服務器節(jié)點（node）要大，也比一個機柜（rack）要大，但最大也就再高出一個數量級。

而且隨著時間推移，算法會更加高效，所需的算力還會持續(xù)下降。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

如果說卡馬克在 3D 游戲、火箭和 VR，這些看似不搭邊的工作領域上有什么共同點，那就是對大型實時反饋系統(tǒng)的優(yōu)化。

這也是當初 Sam Altman 邀請他加入 OpenAI 時看中的地方。

他設想中的 AGI 架構應該是模塊化和分布式的，而不是一個巨大的集中模型。

學習也應該是持續(xù)的在線學習，而不是現(xiàn)在的預訓練之后大部分參數就不再更新。

我的底線是，如果一個系統(tǒng)不能以 30hz 的頻率運行，也就是訓練時 33 毫秒左右更新一次，我就不會用它。

他進一步表示，作為能自己寫原始 Cuda 代碼和能自己管理網絡通信的底層系統(tǒng)程序員，可能會去做一些其他人根本不會考慮的工作。

甚至不僅局限于現(xiàn)有的深度學習框架，會嘗試更高效的網絡架構和計算方法。

總體目標是模擬一個具有內在動機和持續(xù)學習能力的虛擬智能體，在虛擬環(huán)境中持續(xù)學習。

不要機器人，因為制造火箭的經歷讓他認為打交道的物理對象越少越好。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

與卡馬克剛涉足 AGI 不久相比，薩頓在這個問題上已經花費了幾十年，他有更具體的研究計劃。

雖然這次活動上沒有說太多，但主體部分已經以“阿爾伯塔計劃”的形式寫在一篇 arXiv 論文里。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

阿爾伯塔計劃提出了一個統(tǒng)一的智能體框架，強調普遍經驗而不是特殊的訓練集，關注時間一致性，優(yōu)先考慮能隨算力產生規(guī)模效應的方法，以及多智能體交互。

還提出了一個分為 12 步的路線圖。

前 6 步專注于設計 model-free 的持續(xù)學習方法，后 6 步引入環(huán)境模型和規(guī)劃。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

其中最后一步稱為智能增強（Intelligence Amplification），一個智能體可以根據一些通用原則，利用它所學到的知識來放大和增強另一個智能體的行動、感知和認知。

薩頓認為這種增強是充分發(fā)揮人工智能潛力的重要組成部分。

在這個過程中，確定評估 AI 進步的指標非常重要但也十分困難，團隊正在探索不同的發(fā)展。

另外，卡馬克一直是開源的倡導者，但在 AGI 的問題上他表示會保持一定開放性，但不會全部公開算法細節(jié)。

作為一個小團隊，卡馬克認為需要保持開拓精神，關注長遠發(fā)展而不是短期利益，

不會過早考慮商業(yè)化，沒有像 ChatGPT 這樣可以公開發(fā)布的中間形態(tài)。

對于 2030 年能做到什么地步，卡馬克認為“有可以向公眾展示的 AGI”，薩頓的表述是“AI 原型可以顯示出生命跡象（signs of life）”。

2030 成關鍵節(jié)點

2030 與 AGI，并不是第一次同時出現(xiàn)。

頂尖 AI 團隊不約而同都把 2030 年前后作為實現(xiàn) AGI 的關鍵節(jié)點。

比如 OpenAI，在拿出 20% 總算力成立超級智能對齊部門的公告里寫著，我們相信超級智能在這個十年段到來。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

甚至投資界也出現(xiàn)類似的觀點，孫正義剛剛在軟銀世界企業(yè)大會上也拿出來這樣一張 PPT。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

除了 OpenAI 和 Keen Technologies，致力于開發(fā) AGI 的組織并不多。

OpenAI 最大的競爭對手，剛剛拿 40 億美元融資的 Anthropic，其 CEO Dario Amodei 在最近一次訪談中提到，兩三年內 AI 能表現(xiàn)得像一個受過良好教育的人類。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

Transformer 作者 Vaswani 與 Palmer 離開谷歌時，創(chuàng)辦了 AdeptAI，目標也是打造通用智能。

不過目前兩人今年初突然離開這家公司，聯(lián)合創(chuàng)始人中只留下一位 David Luan（最右）。

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

兩位 Transformer 作者另外創(chuàng)辦了一家 Essential AI，這家公司的愿景就沒那么“仰望星空”了，是比較務實的大模型商業(yè)化。

國內方面明確喊出 AGI 目標的同樣也不多，主要有 MiniMax 和楊植麟新創(chuàng)辦的月之暗面。

參考鏈接：

[1]https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/
[2]https://www.youtube.com/watch?v=uTMtGT1RjlY
[3]https://arxiv.org/abs/2208.11173

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：機器學習，強化學習，AGI

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

傳奇程序員與強化學習之父

不只依賴大模型，小團隊也有機會

2030 成關鍵節(jié)點

相關文章

強化學習之父入局 AGI 創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，放話不依賴大模型

不只依賴大模型，小團隊也有機會