首頁 > 智能時代>人工智能

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

量子位 2024/9/14 12:50:33 責(zé)編：汪淼

評論：

警告！不要在 ChatGPT 里問最新 o1 模型是怎么思考的 ——

只要嘗試幾次，OpenAI 就會發(fā)郵件威脅撤銷你的使用資格。

請停止此活動，確保您使用 ChatGPT 時符合我們的使用條款。違反此條款的行為可能導(dǎo)致失去 OpenAI o1 訪問權(quán)限。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

大模型新范式 o1 橫空出世不到 24 小時，就已經(jīng)有不少用戶反饋收到這封警告郵件，引起眾人不滿。

有人反饋只要提示詞里帶“reasoning trace”、“show your chain of thought”等關(guān)鍵詞就會收到警告。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

甚至完全避免出現(xiàn)關(guān)鍵詞，使用其他手段誘導(dǎo)模型繞過限制都會被檢測到。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

也有人聲稱自己真的被封號了，為期一周。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

這些用戶都在試圖套話 o1，讓他復(fù)述出完整的內(nèi)部思維過程，也就是全部原始 reasoning tokens。

目前，大家在 ChatGPT 界面通過展開按鈕能看到的，只是一份對原始思維過程的摘要。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

實際上，在 o1 發(fā)布時 OpenAI 就給出了隱藏模型完整思維過程的理由。

總結(jié)一下：OpenAI 內(nèi)部需要監(jiān)測模型的思維過程，因此不能在這些原始 tokens 中加入安全限制，也就不方便讓用戶看到。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

不過這個理由并不是所有人都認(rèn)可。

有人指出，o1 思維過程就是其他模型最好的訓(xùn)練數(shù)據(jù)，所以 OpenAI 不想這些寶貴數(shù)據(jù)被別的公司扒走。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

也有人認(rèn)為這說明 o1 真的沒有什么護(hù)城河，一旦思維過程暴露就很容易被別人復(fù)制。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

以及“這是讓我們只需盲目相信 AI 的答案，不用做出任何解釋嗎？”

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

對于 o1 模型背后的技術(shù)原理，這次透露的相當(dāng)少，有效信息幾乎只有“用了強(qiáng)化學(xué)習(xí)”。

總之，OpenAI 是越來越不 Open 了。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

o1 就是草莓，但并非 GPT-5

目前可以確定 o1 就是 OpenAI 炒作很久了的“草莓”，或者說是用了“草莓”所代表的方法。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

但他可以算作下一代模型 GPT-5 么，還是只是 GPT-4.X？

越來越多的人開始懷疑，它只是基于 GPT-4o 做的工程調(diào)整。

知名爆料賬號 Flowers（原 Flowers from the future）稱，OpenAI 員工內(nèi)部把 o1 稱作“帶推理的 4o”。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

并且他聲稱很多 OpenAI 員工默默點贊了這條爆料，上面的截圖也正是來自 OpenAI 員工。

但馬斯克前一陣把推特改版成除了樓主以外其他人無法看到誰點贊了什么，所以目前還無法證實這條消息。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

在 OpenAI 開發(fā)者賬號剛剛舉辦的“有問必答”（Ask Me Anything）活動中，F(xiàn)lowers 也做了追問。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

OpenAI 員工在這里回答了很多問題，但回避了這個點贊很多排在前面的問題。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

甚至阿爾特曼本曼剛剛又出來當(dāng)謎語人，暗示“草莓”已經(jīng)告一段落，下一款代號“獵戶座”O(jiān)rion 的新模型還在路上。

此前有消息稱“獵戶座”是 OpenAI 的下一代新旗艦?zāi)Ｐ?，由“草莓”也就?o1 生成的合成數(shù)據(jù)訓(xùn)練。

而獵戶座正是阿爾特曼口中“冬季星座”的代表之一。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

說回到已發(fā)布的 o1，圍繞它的另一種批評聲音是“不符合科研規(guī)范”。

例如沒有引用之前推理時間計算的相關(guān)工作，同時也缺乏與其他公司最先進(jìn)模型的比較。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

針對前一點，有人指出 OpenAI 已經(jīng)不再是一個研究實驗室，應(yīng)該被視為一家商業(yè)公司了。

有時他們?nèi)詴傺b自己是個研究實驗室，目的是招募想要做研究工作的人才。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

不過針對后一點，既然 API 發(fā)布了，要不要與其他前沿模型比較就由不得你了，很多第三方 Benchmark 已陸續(xù)跑出結(jié)果。

在 Keras 之父舉辦的 100 萬美金 AGI Prize 比賽中，o1-preview 和 o1-mini 兩個版本在公開測試集上都超過了自家 GPT-4o。

但 o1-preview 與隔壁 Claude 3.5-Sonnet 只是打了個平手。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

在 o1 著重宣傳的代碼能力上，開源結(jié)對編程工具 aider 團(tuán)隊運行了測試，o1 系列也沒有取得明顯優(yōu)勢。

對于整個代碼重寫任務(wù)，o1-preiview 取得 79.7 分，Claude-3.5-Sonnet 取得 75.2 分，o1 領(lǐng)先 4.5 分。

但對于更實用的代碼編輯任務(wù)，o1-preview 反而落后于 Claude-3.5-Sonnet，有 2.2 分的差距。

另外 aider 團(tuán)隊提示，如果目前想用 o1 系列替代 Claude 編程，成本上要高很多。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

與 OpenAI 有合作關(guān)系的“AI 程序員”Devin 團(tuán)隊，已經(jīng)提前拿到了 o1 訪問資格。

在他們的測試中，由 o1 系列驅(qū)動 Devin 基礎(chǔ)版本，與 GPT-4o 相比獲得非常大的提升。

不過相比已發(fā)布的 Devin 生產(chǎn)版本還是有較大差距，主要是由于 Devin 生產(chǎn)版本在專有數(shù)據(jù)上進(jìn)行了訓(xùn)練。

另外根據(jù) Devin 團(tuán)隊分享，o1 在得出正確的解決方案之前通常會回溯并考慮不同的選項，并且不太可能出現(xiàn)幻覺或自信地錯誤。

使用 o1-preview 時，Devin 更有可能正確診斷 bug 的根本原因，而不是解決問題的癥狀。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

在更重視數(shù)學(xué)和邏輯推理的 Livebench 榜單中，o1-preview 在代碼單項落后的情況下，總分上超過 Claude-3.5-Sonnet 并拉開明顯差距。

Livebench 團(tuán)隊分享這還只是初步結(jié)果，因為很多測試中還內(nèi)置了“請一步一步地思考”等提示詞技巧，這并不是使用 o1 的最佳方法。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

在中文大模型綜合測評基準(zhǔn) SuperCLUE 的中文復(fù)雜任務(wù)高階推理測試中，o1-preview 的推理能力也大幅領(lǐng)先。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

最后總結(jié)一下，使用 o1 模型還需要注意的一些地方：

成本非常高，1 百萬輸出 tokens 就要 60 美元，價格一夜回到 GPT-3 時代
隱藏的 resoning tokens 也是算在輸出 tokens 中，看不到，但是要付費
大多數(shù)任務(wù)最好先使用 GPT-4o，發(fā)現(xiàn)不夠用了再切換 o1，以節(jié)省成本
代碼任務(wù)仍然優(yōu)先使用 Claude-3.5-Sonnet

總之圍繞 OpenAI 新模型 o1，開發(fā)者社區(qū)還有很多疑問。

o1 開啟了 AI 高階推理的新范式，但它本身還不算完善，如何發(fā)揮他的最大價值還有待探索。

在此背景下，OpenAI 舉辦的“有問必答”活動，在 4 個小時內(nèi)就收到上百條提問。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

下面附上對整場活動內(nèi)容的精選和總結(jié)。

OpenAI 員工“有問必答”

首先對于這個突然發(fā)布的新模型，很多人好奇為什么 OpenAI 給它取了 o1 這樣一個名字？

這是因為在 OpenAI 看了，o1 代表了 AI 能力的一個新的層級，因此對“計數(shù)器”進(jìn)行了重置，而 o 則代表 OpenAI。

就像 o1 發(fā)布時阿爾特曼說的，可以進(jìn)行復(fù)雜推理的 o1，是一個新范式的開始。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

對于其中 preview 和 mini 兩個版本號，OpenAI 科學(xué)家也確認(rèn)了網(wǎng)友的一些猜測 ——

preview 是一個臨時版本，正式版將在未來上線（實際上 preview 版本是 o1 的一個早期 checkpoint）；而 mini 版不保證近期之內(nèi)會有更新。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

配合 OpenAI 成員 Kevin Lu 之前發(fā)布的這張圖來看，就更加清晰明了了。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

與 preview 相比，mini 在某些任務(wù)上表現(xiàn)出色，尤其是與代碼相關(guān)的任務(wù)，還可以探索更多的思維鏈，但世界知識相對少些。

對此，OpenAI 科學(xué)家趙盛佳的解釋是，mini 是一個高度專門化的模型，只關(guān)注少部分的能力，所以可以更深入。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

也算是揭曉了之前阿爾特曼在這個問題上打的一個啞謎。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

關(guān)于 o1 的運作方式，OpenAI 科學(xué)家 Noam Brown 也明確表示，并非是像部分網(wǎng)友認(rèn)為的模型 + CoT 組成的“系統(tǒng)”，而是一個已經(jīng)被訓(xùn)練得原生具備生成思維鏈能力的模型。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

不過推理過程中的思維鏈會被隱藏，并且官方已經(jīng)明確了沒有向用戶展示有關(guān) token 的計劃。對此 OpenAI 透露的為數(shù)不多的消息是，CoT 的相關(guān) token 是總結(jié)性的，且不保證完全和推理過程匹配。

除了推理模式，在這次問答活動中還能夠得知，o1 與 GPT-4o 相比可以處理更長的文本，而且未來還會繼續(xù)增加。

表現(xiàn)上，在 OpenAI 內(nèi)部的測試中，o1 顯現(xiàn)出了哲學(xué)推理能力，可以思考諸如“生命是什么？”之類的哲學(xué)問題。

研究人員還使用 o1 創(chuàng)建了一個 GitHub 機(jī)器人，能夠?qū)⒋a ping 給所有者以供審核。

當(dāng)然對于一些非推理性質(zhì)的任務(wù)，比如創(chuàng)意寫作，o1 的表現(xiàn)相比 GPT-4o 提升并不明顯，甚至有時還要略遜一籌。

另外綜合一些提問來看，對于網(wǎng)友們關(guān)心的一些未上線功能，OpenAI 表示正在或有計劃研究，但沒有明確的上線時間：

暫不支持工具調(diào)用，但函數(shù)調(diào)用、代碼解釋器都在未來計劃之中
未來 API 更新將加入結(jié)構(gòu)化輸出、系統(tǒng)提示詞、提示詞緩存功能
微調(diào)也已在計劃中
API 用戶將可以自行設(shè)定對推理時間和 token 消耗的限制
o1 具有多模態(tài)能力，瞄準(zhǔn)的是 MMMU 等數(shù)據(jù)集上的 SOTA，之后將實裝

性能上，OpenAI 也正在著手降低延遲和推理所需時間。

最后是人們，尤其是 API 用戶關(guān)心的價格問題，畢竟考慮到將推理過程計入輸出 token，o1 的定價還是比較高的。

OpenAI 表示“將遵循每 1-2 年降價的趨勢”，并且在使用量限制變得更寬松時，批量 API 定價也會上線。

網(wǎng)頁 / App 端的 Plus 用戶，目前則是要受到每周 preview30 條 + mini50 條消息的限制。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

不過好消息是，就在今天凌晨，由于人們對 o1 實在太熱情，導(dǎo)致很多人很快就把額度用完，所以 OpenAI 特例把額度重置了一次。

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

那么你對 o1 還有哪些疑問或期待？歡迎評論區(qū)交流。

參考鏈接：

[1]https://x.com/SmokeAwayyy/status/1834641370486915417
[2]https://x.com/flowersslop/status/1834416138400276714
[3]https://arcprize.org/blog/openai-o1-results-arc-prize
[4]https://livebench.ai
[5]https://mp.weixin.qq.com/s/XrgkD4T2XwXhGWuPkYtLMw
[6]https://x.com/OpenAIDevs/status/1834608585151594537
[7]https://x.com/btibor91/status/1834686946846597281

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨、克雷西，原標(biāo)題《o1 完整思維鏈成 OpenAI 頭號禁忌！問多了等著封號吧》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

o1 模型完整思維鏈成 OpenAI 頭號禁忌，問多了等著封號吧

o1 就是草莓，但并非 GPT-5

OpenAI 員工“有問必答”

相關(guān)文章