在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

o1 模型完整思維鏈成 OpenAI 頭號(hào)禁忌,問(wèn)多了等著封號(hào)吧

量子位 2024/9/14 12:50:33 責(zé)編:汪淼

警告!不要在 ChatGPT 里問(wèn)最新 o1 模型是怎么思考的 ——

只要嘗試幾次,OpenAI 就會(huì)發(fā)郵件威脅撤銷你的使用資格。

請(qǐng)停止此活動(dòng),確保您使用 ChatGPT 時(shí)符合我們的使用條款。違反此條款的行為可能導(dǎo)致失去 OpenAI o1 訪問(wèn)權(quán)限。

大模型新范式 o1 橫空出世不到 24 小時(shí),就已經(jīng)有不少用戶反饋收到這封警告郵件,引起眾人不滿。

有人反饋只要提示詞里帶“reasoning trace”、“show your chain of thought”等關(guān)鍵詞就會(huì)收到警告。

甚至完全避免出現(xiàn)關(guān)鍵詞,使用其他手段誘導(dǎo)模型繞過(guò)限制都會(huì)被檢測(cè)到。

也有人聲稱自己真的被封號(hào)了,為期一周。

這些用戶都在試圖套話 o1,讓他復(fù)述出完整的內(nèi)部思維過(guò)程,也就是全部原始 reasoning tokens。

目前,大家在 ChatGPT 界面通過(guò)展開(kāi)按鈕能看到的,只是一份對(duì)原始思維過(guò)程的摘要。

實(shí)際上,在 o1 發(fā)布時(shí) OpenAI 就給出了隱藏模型完整思維過(guò)程的理由。

總結(jié)一下:OpenAI 內(nèi)部需要監(jiān)測(cè)模型的思維過(guò)程,因此不能在這些原始 tokens 中加入安全限制,也就不方便讓用戶看到。

不過(guò)這個(gè)理由并不是所有人都認(rèn)可。

有人指出,o1 思維過(guò)程就是其他模型最好的訓(xùn)練數(shù)據(jù),所以 OpenAI 不想這些寶貴數(shù)據(jù)被別的公司扒走。

也有人認(rèn)為這說(shuō)明 o1 真的沒(méi)有什么護(hù)城河,一旦思維過(guò)程暴露就很容易被別人復(fù)制。

以及“這是讓我們只需盲目相信 AI 的答案,不用做出任何解釋嗎?”

對(duì)于 o1 模型背后的技術(shù)原理,這次透露的相當(dāng)少,有效信息幾乎只有“用了強(qiáng)化學(xué)習(xí)”。

總之,OpenAI 是越來(lái)越不 Open 了。

o1 就是草莓,但并非 GPT-5

目前可以確定 o1 就是 OpenAI 炒作很久了的“草莓”,或者說(shuō)是用了“草莓”所代表的方法。

但他可以算作下一代模型 GPT-5 么,還是只是 GPT-4.X?

越來(lái)越多的人開(kāi)始懷疑,它只是基于 GPT-4o 做的工程調(diào)整。

知名爆料賬號(hào) Flowers(原 Flowers from the future)稱,OpenAI 員工內(nèi)部把 o1 稱作“帶推理的 4o”。

并且他聲稱很多 OpenAI 員工默默點(diǎn)贊了這條爆料,上面的截圖也正是來(lái)自 OpenAI 員工。

但馬斯克前一陣把推特改版成除了樓主以外其他人無(wú)法看到誰(shuí)點(diǎn)贊了什么,所以目前還無(wú)法證實(shí)這條消息。

在 OpenAI 開(kāi)發(fā)者賬號(hào)剛剛舉辦的“有問(wèn)必答”(Ask Me Anything)活動(dòng)中,F(xiàn)lowers 也做了追問(wèn)。

OpenAI 員工在這里回答了很多問(wèn)題,但回避了這個(gè)點(diǎn)贊很多排在前面的問(wèn)題。

甚至阿爾特曼本曼剛剛又出來(lái)當(dāng)謎語(yǔ)人,暗示“草莓”已經(jīng)告一段落,下一款代號(hào)“獵戶座”O(jiān)rion 的新模型還在路上。

此前有消息稱“獵戶座”是 OpenAI 的下一代新旗艦?zāi)P?,由“草莓”也就?o1 生成的合成數(shù)據(jù)訓(xùn)練。

而獵戶座正是阿爾特曼口中“冬季星座”的代表之一。

說(shuō)回到已發(fā)布的 o1,圍繞它的另一種批評(píng)聲音是“不符合科研規(guī)范”

例如沒(méi)有引用之前推理時(shí)間計(jì)算的相關(guān)工作,同時(shí)也缺乏與其他公司最先進(jìn)模型的比較

針對(duì)前一點(diǎn),有人指出 OpenAI 已經(jīng)不再是一個(gè)研究實(shí)驗(yàn)室,應(yīng)該被視為一家商業(yè)公司了。

有時(shí)他們?nèi)詴?huì)假裝自己是個(gè)研究實(shí)驗(yàn)室,目的是招募想要做研究工作的人才。

不過(guò)針對(duì)后一點(diǎn),既然 API 發(fā)布了,要不要與其他前沿模型比較就由不得你了,很多第三方 Benchmark 已陸續(xù)跑出結(jié)果。

在 Keras 之父舉辦的 100 萬(wàn)美金 AGI Prize 比賽中,o1-preview 和 o1-mini 兩個(gè)版本在公開(kāi)測(cè)試集上都超過(guò)了自家 GPT-4o。

但 o1-preview 與隔壁 Claude 3.5-Sonnet 只是打了個(gè)平手。

在 o1 著重宣傳的代碼能力上,開(kāi)源結(jié)對(duì)編程工具 aider 團(tuán)隊(duì)運(yùn)行了測(cè)試,o1 系列也沒(méi)有取得明顯優(yōu)勢(shì)。

對(duì)于整個(gè)代碼重寫任務(wù),o1-preiview 取得 79.7 分,Claude-3.5-Sonnet 取得 75.2 分,o1 領(lǐng)先 4.5 分。

但對(duì)于更實(shí)用的代碼編輯任務(wù),o1-preview 反而落后于 Claude-3.5-Sonnet,有 2.2 分的差距。

另外 aider 團(tuán)隊(duì)提示,如果目前想用 o1 系列替代 Claude 編程,成本上要高很多。

與 OpenAI 有合作關(guān)系的“AI 程序員”Devin 團(tuán)隊(duì),已經(jīng)提前拿到了 o1 訪問(wèn)資格。

在他們的測(cè)試中,由 o1 系列驅(qū)動(dòng) Devin 基礎(chǔ)版本,與 GPT-4o 相比獲得非常大的提升。

不過(guò)相比已發(fā)布的 Devin 生產(chǎn)版本還是有較大差距,主要是由于 Devin 生產(chǎn)版本在專有數(shù)據(jù)上進(jìn)行了訓(xùn)練。

另外根據(jù) Devin 團(tuán)隊(duì)分享,o1 在得出正確的解決方案之前通常會(huì)回溯并考慮不同的選項(xiàng),并且不太可能出現(xiàn)幻覺(jué)或自信地錯(cuò)誤。

使用 o1-preview 時(shí),Devin 更有可能正確診斷 bug 的根本原因,而不是解決問(wèn)題的癥狀。

在更重視數(shù)學(xué)和邏輯推理的 Livebench 榜單中,o1-preview 在代碼單項(xiàng)落后的情況下,總分上超過(guò) Claude-3.5-Sonnet 并拉開(kāi)明顯差距

Livebench 團(tuán)隊(duì)分享這還只是初步結(jié)果,因?yàn)楹芏鄿y(cè)試中還內(nèi)置了“請(qǐng)一步一步地思考”等提示詞技巧,這并不是使用 o1 的最佳方法。

在中文大模型綜合測(cè)評(píng)基準(zhǔn) SuperCLUE 的中文復(fù)雜任務(wù)高階推理測(cè)試中,o1-preview 的推理能力也大幅領(lǐng)先

最后總結(jié)一下,使用 o1 模型還需要注意的一些地方:

  • 成本非常高,1 百萬(wàn)輸出 tokens 就要 60 美元,價(jià)格一夜回到 GPT-3 時(shí)代

  • 隱藏的 resoning tokens 也是算在輸出 tokens 中,看不到,但是要付費(fèi)

  • 大多數(shù)任務(wù)最好先使用 GPT-4o,發(fā)現(xiàn)不夠用了再切換 o1,以節(jié)省成本

  • 代碼任務(wù)仍然優(yōu)先使用 Claude-3.5-Sonnet

總之圍繞 OpenAI 新模型 o1,開(kāi)發(fā)者社區(qū)還有很多疑問(wèn)。

o1 開(kāi)啟了 AI 高階推理的新范式,但它本身還不算完善,如何發(fā)揮他的最大價(jià)值還有待探索。

在此背景下,OpenAI 舉辦的“有問(wèn)必答”活動(dòng),在 4 個(gè)小時(shí)內(nèi)就收到上百條提問(wèn)。

下面附上對(duì)整場(chǎng)活動(dòng)內(nèi)容的精選和總結(jié)。

OpenAI 員工“有問(wèn)必答”

首先對(duì)于這個(gè)突然發(fā)布的新模型,很多人好奇為什么 OpenAI 給它取了 o1 這樣一個(gè)名字?

這是因?yàn)樵?OpenAI 看了,o1 代表了 AI 能力的一個(gè)新的層級(jí),因此對(duì)“計(jì)數(shù)器”進(jìn)行了重置,而 o 則代表 OpenAI。

就像 o1 發(fā)布時(shí)阿爾特曼說(shuō)的,可以進(jìn)行復(fù)雜推理的 o1,是一個(gè)新范式的開(kāi)始。

對(duì)于其中 preview 和 mini 兩個(gè)版本號(hào),OpenAI 科學(xué)家也確認(rèn)了網(wǎng)友的一些猜測(cè) ——

preview 是一個(gè)臨時(shí)版本,正式版將在未來(lái)上線(實(shí)際上 preview 版本是 o1 的一個(gè)早期 checkpoint);而 mini 版不保證近期之內(nèi)會(huì)有更新。

配合 OpenAI 成員 Kevin Lu 之前發(fā)布的這張圖來(lái)看,就更加清晰明了了。

與 preview 相比,mini 在某些任務(wù)上表現(xiàn)出色,尤其是與代碼相關(guān)的任務(wù),還可以探索更多的思維鏈,但世界知識(shí)相對(duì)少些。

對(duì)此,OpenAI 科學(xué)家趙盛佳的解釋是,mini 是一個(gè)高度專門化的模型,只關(guān)注少部分的能力,所以可以更深入。

也算是揭曉了之前阿爾特曼在這個(gè)問(wèn)題上打的一個(gè)啞謎。

關(guān)于 o1 的運(yùn)作方式,OpenAI 科學(xué)家 Noam Brown 也明確表示,并非是像部分網(wǎng)友認(rèn)為的模型 + CoT 組成的“系統(tǒng)”,而是一個(gè)已經(jīng)被訓(xùn)練得原生具備生成思維鏈能力的模型。

不過(guò)推理過(guò)程中的思維鏈會(huì)被隱藏,并且官方已經(jīng)明確了沒(méi)有向用戶展示有關(guān) token 的計(jì)劃。對(duì)此 OpenAI 透露的為數(shù)不多的消息是,CoT 的相關(guān) token 是總結(jié)性的,且不保證完全和推理過(guò)程匹配。

除了推理模式,在這次問(wèn)答活動(dòng)中還能夠得知,o1 與 GPT-4o 相比可以處理更長(zhǎng)的文本,而且未來(lái)還會(huì)繼續(xù)增加。

表現(xiàn)上,在 OpenAI 內(nèi)部的測(cè)試中,o1 顯現(xiàn)出了哲學(xué)推理能力,可以思考諸如“生命是什么?”之類的哲學(xué)問(wèn)題。

研究人員還使用 o1 創(chuàng)建了一個(gè) GitHub 機(jī)器人,能夠?qū)⒋a ping 給所有者以供審核。

當(dāng)然對(duì)于一些非推理性質(zhì)的任務(wù),比如創(chuàng)意寫作,o1 的表現(xiàn)相比 GPT-4o 提升并不明顯,甚至有時(shí)還要略遜一籌。

另外綜合一些提問(wèn)來(lái)看,對(duì)于網(wǎng)友們關(guān)心的一些未上線功能,OpenAI 表示正在或有計(jì)劃研究,但沒(méi)有明確的上線時(shí)間:

  • 暫不支持工具調(diào)用,但函數(shù)調(diào)用、代碼解釋器都在未來(lái)計(jì)劃之中

  • 未來(lái) API 更新將加入結(jié)構(gòu)化輸出、系統(tǒng)提示詞、提示詞緩存功能

  • 微調(diào)也已在計(jì)劃中

  • API 用戶將可以自行設(shè)定對(duì)推理時(shí)間和 token 消耗的限制

  • o1 具有多模態(tài)能力,瞄準(zhǔn)的是 MMMU 等數(shù)據(jù)集上的 SOTA,之后將實(shí)裝

性能上,OpenAI 也正在著手降低延遲和推理所需時(shí)間。

最后是人們,尤其是 API 用戶關(guān)心的價(jià)格問(wèn)題,畢竟考慮到將推理過(guò)程計(jì)入輸出 token,o1 的定價(jià)還是比較高的。

OpenAI 表示“將遵循每 1-2 年降價(jià)的趨勢(shì)”,并且在使用量限制變得更寬松時(shí),批量 API 定價(jià)也會(huì)上線。

網(wǎng)頁(yè) / App 端的 Plus 用戶,目前則是要受到每周 preview30 條 + mini50 條消息的限制。

不過(guò)好消息是,就在今天凌晨,由于人們對(duì) o1 實(shí)在太熱情,導(dǎo)致很多人很快就把額度用完,所以 OpenAI 特例把額度重置了一次

那么你對(duì) o1 還有哪些疑問(wèn)或期待?歡迎評(píng)論區(qū)交流。

參考鏈接:

  • [1]https://x.com/SmokeAwayyy/status/1834641370486915417

  • [2]https://x.com/flowersslop/status/1834416138400276714

  • [3]https://arcprize.org/blog/openai-o1-results-arc-prize

  • [4]https://livebench.ai

  • [5]https://mp.weixin.qq.com/s/XrgkD4T2XwXhGWuPkYtLMw

  • [6]https://x.com/OpenAIDevs/status/1834608585151594537

  • [7]https://x.com/btibor91/status/1834686946846597281

本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:夢(mèng)晨、克雷西,原標(biāo)題《o1 完整思維鏈成 OpenAI 頭號(hào)禁忌!問(wèn)多了等著封號(hào)吧》

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,o1模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知