沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

新智元 2024/12/18 15:03:03 責(zé)編：清源

評(píng)論：

OpenAI 最近奉上了滿血版的 o1 Pro，這一全新系列的模型究竟有多強(qiáng)？它能否指明 AI 發(fā)展的未來方向？沃頓商學(xué)院教授在 3 個(gè)月的前一篇博客就中給出了「神預(yù)言」一般的答案。

o1 preview 問世 3 個(gè)月后，滿血版的 o1 Pro 終于在上周以每月 200 美元的身價(jià)正式上線，阿爾特曼號(hào)稱其為「當(dāng)今世界上最智能的模型」。

所以，這個(gè)正式的 o1 Pro 究竟強(qiáng)大到了什么程度？

可以肯定的是，它遠(yuǎn)遠(yuǎn)不是一個(gè)走到 AGI 終點(diǎn)的滅霸，但這是 scaling law 之后的又一個(gè)里程碑嗎？代表著未來 LLM 的發(fā)展方向嗎？能像 OpenAI 研究院 Jason Wei 所說的，足以成為一個(gè)「?jìng)髌妗箚幔?/p>

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

就在 o1 Pro 發(fā)布的當(dāng)口，沃頓商學(xué)院副教授、GenAI 實(shí)驗(yàn)室聯(lián)合主任 Ethan Mollick 提起了這篇自己 3 個(gè)月前寫就的博客，可以說既是模型發(fā)布前的「神預(yù)言」，也是一盆有理有據(jù)、恰到好處的「冷水」。

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

Ethan Mollick 表示，早在 9 月份我們第一次見到 o1 preview 時(shí)，他就寫下了這篇博客文章，詳解這個(gè)模型對(duì)當(dāng)下和未來都意味著什么。模型的質(zhì)量很重要，但更為重要的是，了解模型對(duì)人工智能未來的潛在意義。

下面，我們就把這篇文章當(dāng)成時(shí)間傳送門，將 3 個(gè)月前橫空出世的 o1 preview 和處在性價(jià)比漩渦中的 o1 Pro 放在一起比較，或許可以給當(dāng)下提供更多啟發(fā)。

「草莓」大顯身手

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

一段時(shí)間之前，我已經(jīng)接觸到了傳聞沸沸揚(yáng)揚(yáng)的被稱為「草莓」的增強(qiáng)版推理系統(tǒng)，現(xiàn)在 OpenAI 將其發(fā)布了，我也終于可以分享一些想法。

這個(gè)模型的確讓人驚訝，但能力仍然有限，但最重要的是，它的出現(xiàn)指明了 AI 的發(fā)展方向。

新模型被稱為 o1-preview（此處 Mollick 狠狠吐槽 OpenAI 等一眾 AI 公司在命名上非常糟糕），讓 AI 在解決問題之前先「思考」一個(gè)問題，因此能夠解決需要規(guī)劃和迭代的困難問題。

根據(jù)這張我們都熟悉的基準(zhǔn)結(jié)果圖，o1-preview 在數(shù)學(xué)和科學(xué)領(lǐng)域尤為強(qiáng)悍，對(duì)于極其困難的物理問題，甚至可以擊敗博士級(jí)別的人類專家。

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

但需要明確的是，o1-preview 并不是在所有方面都有提升，比如在寫作方面就沒有比 GPT-4o 更強(qiáng)；但對(duì)于需要計(jì)劃的任務(wù)來說，變化就相當(dāng)大了。

由于很難評(píng)估所有這些復(fù)雜任務(wù)的輸出，因此要展示「Strawberry」模型的提升（以及一些限制），也許最簡(jiǎn)單直觀的方法就是游戲 —— 比如填字游戲（crossword puzzle）。

不要小瞧了填字游戲，這是一個(gè)下限很低但上限也很高的項(xiàng)目，最難的填字游戲完全可以達(dá)到地獄模式，而且非?？简?yàn)邏輯推理能力。

電影《模仿游戲》中就有這樣的情節(jié)：二戰(zhàn)期間，AI 之父 Alan Turing 擔(dān)任英國(guó)密碼破譯項(xiàng)目 Enigma 的負(fù)責(zé)人，為了招攬全國(guó)在數(shù)學(xué)和密碼學(xué)方面的才俊，他就在報(bào)紙上登出了一個(gè)填字游戲作為報(bào)名測(cè)試，甚至最后一關(guān)的現(xiàn)場(chǎng)考核也是要求 a 在規(guī)定時(shí)間內(nèi)做出填字游戲題。

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

電影《模仿游戲》劇照

由于 o1 preview 還無法從圖片中讀取文字，因此 Mollick 只能自己手動(dòng)打出來喂給模型。如下圖所示，這是一個(gè)相當(dāng)具有挑戰(zhàn)性的難題，而且，Mollick 只挑選了 18 條線索中的 8 條提供給 o1。

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

填字游戲?qū)τ?LLM 來說尤其困難，因?yàn)樾枰鉀Q：嘗試并否決掉許多相互關(guān)聯(lián)的答案 —— 這是之前的大模型無法做到的，因?yàn)樗麄円淮沃荒茉诖鸢钢刑砑右粋€(gè) token / 單詞。

如下圖所示，如果給 Claude 提供相應(yīng)的線索，它首先給出序號(hào) 1 的答案（它猜測(cè)是 STAR，但這個(gè)答案是錯(cuò)誤的），然后在此基礎(chǔ)上嘗試解答其余部分。

然而，由于第一顆扣子就扣錯(cuò)了，Claude 永遠(yuǎn)都無法接近正確答案。如果沒有規(guī)劃流程，它就只能向前沖，并不知道自己前進(jìn)的方向是對(duì)是錯(cuò)。

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

Claude 的嘗試

但面對(duì)相同的問題時(shí)，「草莓」時(shí)會(huì)怎么做呢？

首先，它會(huì)開始「思考」，這個(gè)過程持續(xù)了整整 108 秒（但大多數(shù)問題都能在更短的時(shí)間內(nèi)解決）。

而且，o1 思考時(shí)并不是一聲不吭，而是會(huì)「自言自語」，輸出自己的「思維鏈」讓你看到它的想法。下面是其中的一個(gè)示例（還有更多內(nèi)容未展示出來），而且這些想法非常有啟發(fā)性，值得你花點(diǎn)時(shí)間閱讀。

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

在這個(gè)過程中，「草莓」反復(fù)迭代，不斷創(chuàng)造想法并否決其中不可行的部分，結(jié)果做得很好，令人印象深刻。

但值得注意的是，o1-preview 似乎仍然基于 GPT-4o，而且有時(shí)對(duì)于語言的理解過于拘泥于字面意思。

比如，下圖右側(cè)中 1 Down 的答案是「Galaxy cluster」，這顯然并不是指真正的星系，而是 Samsung Galaxy 手機(jī) ——「APPS」。

AI 并沒有猜到這層意思，因此不斷嘗試各種星系團(tuán)的名稱，然而確定 Down 1 是 COMA（是一個(gè)真實(shí)的星系團(tuán)），可想而知，其余的結(jié)果也不正確。雖然不完全符合規(guī)則，但也相當(dāng)有創(chuàng)意。

但公平來講，Mollick 本人也沒有猜到這層意思。如果把「Down 1 是 APPS」這個(gè)線索提供給 o1，可以看到模型又開始在接下來的 1 分鐘內(nèi)快速迭代想法（下圖左側(cè)），并正確推理出了 Across 1 的答案是「ACTS」。

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

這里是 o1 在一條線索的基礎(chǔ)上給出的最終答案，完全正確，而且解決了硬引用，盡管它幻想出了一條不存在的新線索。相比之下，身為名牌大學(xué)副教授的 Ethan Mollick 甚至都沒能接近這個(gè)正確答案。

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

至此我們可以發(fā)現(xiàn)，o1-preview 做了一些沒有 Strawberry 就不可能完成的事情，但它仍然不是完美無缺的：錯(cuò)誤和幻覺仍然會(huì)發(fā)生，而且仍然受限于底層模型 GPT-4o 的「智能」的限制。

雖然 Claude 有很多優(yōu)點(diǎn)，但相比之下，o1 在復(fù)雜規(guī)劃或解題方面遠(yuǎn)遠(yuǎn)勝出，代表了這些領(lǐng)域的巨大飛躍。

從協(xié)同智能到...

o1-preview 意味著我們正面臨人工智能范式的改變?！敢?guī)劃」是智能體的一種表現(xiàn)形式，人工智能可以在沒有人類幫助的情況下自行得出結(jié)論并解決問題。

可以從上面的例子中看到，AI 完成了太多繁重的思考工作，并產(chǎn)生了完整的結(jié)果，人類作為合作伙伴的角色反而被削弱了，整個(gè)過程的主體是 AI 完成了自己的工作并給出答案。

當(dāng)然，我們可以篩選推理思維鏈的輸出來發(fā)現(xiàn) AI 犯了哪些錯(cuò)誤，但 Ethan Mollick 的感覺是，他作為布置任務(wù)的人，和 AI 的輸出內(nèi)容之間沒有什么聯(lián)系，也沒有在引導(dǎo)解決方案的走向上發(fā)揮重要作用。這不一定是壞事，但和之前不同。

隨著這些系統(tǒng)不斷升級(jí)并逐漸接近真正的自主智能體，我們需要弄清如何與其保持人類在保持同步 —— 既能捕獲錯(cuò)誤，又要及時(shí)察覺到我們?cè)噲D解決的問題。

o1-preview 正在緩緩拉開帷幕，解鎖我們尚未見到的 AI 能力，盡管它目前還存在局限性。這給我們留下了一個(gè)關(guān)鍵問題：隨著 AI 的發(fā)展，我們?nèi)绾芜M(jìn)化人類與人工智能的合作？這是 o1-preview 目前還無法解決的問題。

參考資料：

https://x.com/emollick/status/1864857524840616345

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題

「草莓」大顯身手

從協(xié)同智能到...

沃頓商學(xué)院教授發(fā)文解析 o1：能力仍有短板，「人機(jī)協(xié)同智能」或成 AGI 最重要難題