在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

沃頓商學(xué)院教授發(fā)文解析 o1:能力仍有短板,「人機(jī)協(xié)同智能」或成 AGI 最重要難題

新智元 2024/12/18 15:03:03 責(zé)編:清源

OpenAI 最近奉上了滿血版的 o1 Pro,這一全新系列的模型究竟有多強(qiáng)?它能否指明 AI 發(fā)展的未來方向?沃頓商學(xué)院教授在 3 個(gè)月的前一篇博客就中給出了「神預(yù)言」一般的答案。

o1 preview 問世 3 個(gè)月后,滿血版的 o1 Pro 終于在上周以每月 200 美元的身價(jià)正式上線,阿爾特曼號(hào)稱其為「當(dāng)今世界上最智能的模型」。

所以,這個(gè)正式的 o1 Pro 究竟強(qiáng)大到了什么程度?

可以肯定的是,它遠(yuǎn)遠(yuǎn)不是一個(gè)走到 AGI 終點(diǎn)的滅霸,但這是 scaling law 之后的又一個(gè)里程碑嗎?代表著未來 LLM 的發(fā)展方向嗎?能像 OpenAI 研究院 Jason Wei 所說的,足以成為一個(gè)「?jìng)髌妗箚幔?/p>

就在 o1 Pro 發(fā)布的當(dāng)口,沃頓商學(xué)院副教授、GenAI 實(shí)驗(yàn)室聯(lián)合主任 Ethan Mollick 提起了這篇自己 3 個(gè)月前寫就的博客,可以說既是模型發(fā)布前的「神預(yù)言」,也是一盆有理有據(jù)、恰到好處的「冷水」。

Ethan Mollick 表示,早在 9 月份我們第一次見到 o1 preview 時(shí),他就寫下了這篇博客文章,詳解這個(gè)模型對(duì)當(dāng)下和未來都意味著什么。模型的質(zhì)量很重要,但更為重要的是,了解模型對(duì)人工智能未來的潛在意義。

下面,我們就把這篇文章當(dāng)成時(shí)間傳送門,將 3 個(gè)月前橫空出世的 o1 preview 和處在性價(jià)比漩渦中的 o1 Pro 放在一起比較,或許可以給當(dāng)下提供更多啟發(fā)。

「草莓」大顯身手

一段時(shí)間之前,我已經(jīng)接觸到了傳聞沸沸揚(yáng)揚(yáng)的被稱為「草莓」的增強(qiáng)版推理系統(tǒng),現(xiàn)在 OpenAI 將其發(fā)布了,我也終于可以分享一些想法。

這個(gè)模型的確讓人驚訝,但能力仍然有限,但最重要的是,它的出現(xiàn)指明了 AI 的發(fā)展方向。

新模型被稱為 o1-preview(此處 Mollick 狠狠吐槽 OpenAI 等一眾 AI 公司在命名上非常糟糕),讓 AI 在解決問題之前先「思考」一個(gè)問題,因此能夠解決需要規(guī)劃和迭代的困難問題。

根據(jù)這張我們都熟悉的基準(zhǔn)結(jié)果圖,o1-preview 在數(shù)學(xué)和科學(xué)領(lǐng)域尤為強(qiáng)悍,對(duì)于極其困難的物理問題,甚至可以擊敗博士級(jí)別的人類專家。

但需要明確的是,o1-preview 并不是在所有方面都有提升,比如在寫作方面就沒有比 GPT-4o 更強(qiáng);但對(duì)于需要計(jì)劃的任務(wù)來說,變化就相當(dāng)大了。

由于很難評(píng)估所有這些復(fù)雜任務(wù)的輸出,因此要展示「Strawberry」模型的提升(以及一些限制),也許最簡(jiǎn)單直觀的方法就是游戲 —— 比如填字游戲(crossword puzzle)。

不要小瞧了填字游戲,這是一個(gè)下限很低但上限也很高的項(xiàng)目,最難的填字游戲完全可以達(dá)到地獄模式,而且非??简?yàn)邏輯推理能力。

電影《模仿游戲》中就有這樣的情節(jié):二戰(zhàn)期間,AI 之父 Alan Turing 擔(dān)任英國(guó)密碼破譯項(xiàng)目 Enigma 的負(fù)責(zé)人,為了招攬全國(guó)在數(shù)學(xué)和密碼學(xué)方面的才俊,他就在報(bào)紙上登出了一個(gè)填字游戲作為報(bào)名測(cè)試,甚至最后一關(guān)的現(xiàn)場(chǎng)考核也是要求 a 在規(guī)定時(shí)間內(nèi)做出填字游戲題。

電影《模仿游戲》劇照

由于 o1 preview 還無法從圖片中讀取文字,因此 Mollick 只能自己手動(dòng)打出來喂給模型。如下圖所示,這是一個(gè)相當(dāng)具有挑戰(zhàn)性的難題,而且,Mollick 只挑選了 18 條線索中的 8 條提供給 o1。

填字游戲?qū)τ?LLM 來說尤其困難,因?yàn)樾枰鉀Q:嘗試并否決掉許多相互關(guān)聯(lián)的答案 —— 這是之前的大模型無法做到的,因?yàn)樗麄円淮沃荒茉诖鸢钢刑砑右粋€(gè) token / 單詞。

如下圖所示,如果給 Claude 提供相應(yīng)的線索,它首先給出序號(hào) 1 的答案(它猜測(cè)是 STAR,但這個(gè)答案是錯(cuò)誤的),然后在此基礎(chǔ)上嘗試解答其余部分。

然而,由于第一顆扣子就扣錯(cuò)了,Claude 永遠(yuǎn)都無法接近正確答案。如果沒有規(guī)劃流程,它就只能向前沖,并不知道自己前進(jìn)的方向是對(duì)是錯(cuò)。

Claude 的嘗試

但面對(duì)相同的問題時(shí),「草莓」時(shí)會(huì)怎么做呢?

首先,它會(huì)開始「思考」,這個(gè)過程持續(xù)了整整 108 秒(但大多數(shù)問題都能在更短的時(shí)間內(nèi)解決)。

而且,o1 思考時(shí)并不是一聲不吭,而是會(huì)「自言自語」,輸出自己的「思維鏈」讓你看到它的想法。下面是其中的一個(gè)示例(還有更多內(nèi)容未展示出來),而且這些想法非常有啟發(fā)性,值得你花點(diǎn)時(shí)間閱讀。

在這個(gè)過程中,「草莓」反復(fù)迭代,不斷創(chuàng)造想法并否決其中不可行的部分,結(jié)果做得很好,令人印象深刻。

但值得注意的是,o1-preview 似乎仍然基于 GPT-4o,而且有時(shí)對(duì)于語言的理解過于拘泥于字面意思。

比如,下圖右側(cè)中 1 Down 的答案是「Galaxy cluster」,這顯然并不是指真正的星系,而是 Samsung Galaxy 手機(jī) ——「APPS」。

AI 并沒有猜到這層意思,因此不斷嘗試各種星系團(tuán)的名稱,然而確定 Down 1 是 COMA(是一個(gè)真實(shí)的星系團(tuán)),可想而知,其余的結(jié)果也不正確。雖然不完全符合規(guī)則,但也相當(dāng)有創(chuàng)意。

但公平來講,Mollick 本人也沒有猜到這層意思。如果把「Down 1 是 APPS」這個(gè)線索提供給 o1,可以看到模型又開始在接下來的 1 分鐘內(nèi)快速迭代想法(下圖左側(cè)),并正確推理出了 Across 1 的答案是「ACTS」。

這里是 o1 在一條線索的基礎(chǔ)上給出的最終答案,完全正確,而且解決了硬引用,盡管它幻想出了一條不存在的新線索。相比之下,身為名牌大學(xué)副教授的 Ethan Mollick 甚至都沒能接近這個(gè)正確答案。

至此我們可以發(fā)現(xiàn),o1-preview 做了一些沒有 Strawberry 就不可能完成的事情,但它仍然不是完美無缺的:錯(cuò)誤和幻覺仍然會(huì)發(fā)生,而且仍然受限于底層模型 GPT-4o 的「智能」的限制。

雖然 Claude 有很多優(yōu)點(diǎn),但相比之下,o1 在復(fù)雜規(guī)劃或解題方面遠(yuǎn)遠(yuǎn)勝出,代表了這些領(lǐng)域的巨大飛躍。

從協(xié)同智能到...

o1-preview 意味著我們正面臨人工智能范式的改變?!敢?guī)劃」是智能體的一種表現(xiàn)形式,人工智能可以在沒有人類幫助的情況下自行得出結(jié)論并解決問題。

可以從上面的例子中看到,AI 完成了太多繁重的思考工作,并產(chǎn)生了完整的結(jié)果,人類作為合作伙伴的角色反而被削弱了,整個(gè)過程的主體是 AI 完成了自己的工作并給出答案。

當(dāng)然,我們可以篩選推理思維鏈的輸出來發(fā)現(xiàn) AI 犯了哪些錯(cuò)誤,但 Ethan Mollick 的感覺是,他作為布置任務(wù)的人,和 AI 的輸出內(nèi)容之間沒有什么聯(lián)系,也沒有在引導(dǎo)解決方案的走向上發(fā)揮重要作用。這不一定是壞事,但和之前不同。

隨著這些系統(tǒng)不斷升級(jí)并逐漸接近真正的自主智能體,我們需要弄清如何與其保持人類在保持同步 —— 既能捕獲錯(cuò)誤,又要及時(shí)察覺到我們?cè)噲D解決的問題。

o1-preview 正在緩緩拉開帷幕,解鎖我們尚未見到的 AI 能力,盡管它目前還存在局限性。這給我們留下了一個(gè)關(guān)鍵問題:隨著 AI 的發(fā)展,我們?nèi)绾芜M(jìn)化人類與人工智能的合作?這是 o1-preview 目前還無法解決的問題。

參考資料:

  • https://x.com/emollick/status/1864857524840616345

本文來自微信公眾號(hào):新智元(ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知