斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

新智元 2025/1/31 16:59:47 責(zé)編：清源

評(píng)論：

斯坦福大學(xué)最近的一項(xiàng)研究發(fā)現(xiàn)，盡管 o1-preview 在數(shù)學(xué)、代碼等領(lǐng)域能力逆天，但只要對(duì)數(shù)學(xué)競(jìng)賽的題目稍修改，模型解答的準(zhǔn)確率竟會(huì)立刻下降 30%。

在數(shù)學(xué)競(jìng)賽的領(lǐng)域里，普特南數(shù)學(xué)競(jìng)賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發(fā)起，自 1938 年首屆舉辦以來(lái)，歷經(jīng) 66 年的歲月沉淀，已然成為全球大學(xué)生數(shù)學(xué)精英們一較高下的頂級(jí)賽場(chǎng)。

美國(guó)數(shù)學(xué)會(huì)的精心主辦，加上哈佛大學(xué)、多倫多大學(xué)等名校學(xué)子的踴躍參與，讓這項(xiàng)賽事的桂冠成為無(wú)數(shù)學(xué)子夢(mèng)寐以求的殊榮，其權(quán)威性和挑戰(zhàn)性，那是得到了全球?qū)W界的公認(rèn)。

而最近，來(lái)自斯坦福的一項(xiàng)研究，卻讓大家驚掉了下巴：僅僅對(duì)題目中的變量、常量等要素稍作修改，大模型「尖子生」o1-preview 模型的準(zhǔn)確率就立刻大幅下降，降幅高達(dá) 30%！

斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

原文鏈接：https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

這就好比一位武林高手，平時(shí)在熟悉的招式里威風(fēng)八面，一旦對(duì)手換個(gè)路數(shù)，就立馬亂了陣腳。這不禁讓人好奇，這些難住最強(qiáng)推理模型的變體題，到底藏著怎樣的玄機(jī)？

北美最難數(shù)學(xué)競(jìng)賽題「變臉」，AI 有點(diǎn)懵

OpenAI 的 o1-preview 模型自出道以來(lái)，憑借超強(qiáng)的推理能力，在各個(gè)領(lǐng)域大殺四方。

就拿編程來(lái)說(shuō)，在 Codeforces 編程競(jìng)賽這個(gè)「高手如云」的賽場(chǎng)上，它的 Elo 評(píng)分高達(dá) 1807，把 93% 的競(jìng)爭(zhēng)對(duì)手都遠(yuǎn)遠(yuǎn)甩在身后，寫起代碼來(lái)又快又準(zhǔn)，就像一位經(jīng)驗(yàn)老道的程序員。

在數(shù)學(xué)領(lǐng)域更是展現(xiàn)出了驚人的實(shí)力。2024 年的美國(guó)數(shù)學(xué)邀請(qǐng)賽（AIME）題目集上，o1-preview 的正確率高達(dá) 83%，相當(dāng)于全美參賽選手 top500 的水平。

斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

醫(yī)學(xué)診斷方面，哈佛醫(yī)學(xué)院和斯坦福大學(xué)組成的科研團(tuán)隊(duì)曾對(duì) o1-preview 進(jìn)行過(guò)全方位的「考核」，結(jié)果令人驚嘆：在生成診斷意見、診斷臨床推理和管理推理這些關(guān)鍵任務(wù)上，它甚至超越了人類醫(yī)生。面對(duì)復(fù)雜的病例，它能快速分析癥狀、病史等信息，并給出準(zhǔn)確的診斷建議。

然而，就是這樣一個(gè)在多領(lǐng)域「開掛」的模型，在面對(duì)普特南數(shù)學(xué)競(jìng)賽題的變體時(shí)，卻仿佛迷失了方向。

在原始題目上，o1-preview 本能達(dá)到 41.95% 的準(zhǔn)確率，而一旦題目中的變量、常量被修改，準(zhǔn)確率就像坐了滑梯一樣，直線下降約 30%。

斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

這巨大的反差，背后其實(shí)有著深層次的原因。普特南競(jìng)賽題本就以超高的難度、獨(dú)特的出題思路著稱，原始題目和變體題目之間，雖然看似只有細(xì)微的差別，但這些改變往往涉及到數(shù)學(xué)概念的深層次運(yùn)用和邏輯結(jié)構(gòu)的巧妙變換。

o1-preview 模型在訓(xùn)練過(guò)程中，可能更多是對(duì)常見的數(shù)學(xué)題型、編程模式、醫(yī)學(xué)案例進(jìn)行學(xué)習(xí)和優(yōu)化，對(duì)于這種專門設(shè)計(jì)、極度刁鉆的變體題，缺乏足夠的「應(yīng)對(duì)經(jīng)驗(yàn)」，難以迅速抓住問(wèn)題的關(guān)鍵，從而導(dǎo)致準(zhǔn)確率大幅下滑。

Putnam-AXIOM 基準(zhǔn)，AI 數(shù)學(xué)能力的「試金石」

為了更準(zhǔn)確深入地評(píng)估 AI 大模型的數(shù)學(xué)能力，研究團(tuán)隊(duì)精心打造了 Putnam-AXIOM Original 基準(zhǔn)，收納了來(lái)自歷年普特南數(shù)學(xué)競(jìng)賽（Putnam）的 236 個(gè)數(shù)學(xué)問(wèn)題，從復(fù)雜的代數(shù)變換到精妙的幾何證明，從抽象的數(shù)論難題到變幻莫測(cè)的組合數(shù)學(xué)謎題，無(wú)一不是對(duì)人類智慧極限的挑戰(zhàn)。

但這項(xiàng)基準(zhǔn)的價(jià)值遠(yuǎn)不止于收錄原題，更厲害的是，研究者們?cè)O(shè)計(jì)了一套巧妙的程序化修改機(jī)制，可以對(duì)問(wèn)題中的變量、常量等關(guān)鍵要素進(jìn)行修改，從而生成無(wú)限多個(gè)全新且難度相當(dāng)?shù)膯?wèn)題。

斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

比如說(shuō)，把一個(gè)幾何問(wèn)題中的邊長(zhǎng)數(shù)值進(jìn)行變換，或者改變函數(shù)題中的參數(shù)取值范圍，這些看似微小的調(diào)整，卻能讓整個(gè)問(wèn)題的解法路徑大不相同。

而且，這些新生成的題目從未在互聯(lián)網(wǎng)上出現(xiàn)過(guò)，因此也不可能泄露到任何模型的訓(xùn)練數(shù)據(jù)集中，完全杜絕了 AI 靠「死記硬背」答案來(lái)作弊的可能，真正做到了對(duì) AI 數(shù)學(xué)推理能力的精準(zhǔn)探測(cè)。

在這個(gè)新設(shè)計(jì)的基準(zhǔn)上，研究人員大范圍選擇了各種模型進(jìn)行測(cè)試，包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o，Anthropic 的旗艦?zāi)Ｐ?Claude-3.5 Sonnet，Llama、Qwen 的等有影響力的開源模型，以及 Gemma、Mistral、DeepSeek、Numina 等以數(shù)學(xué)能力聞名的開源模型。

首先，將 Putnam-AXIOM 基準(zhǔn)中的 236 道原題輸入給各個(gè)模型，記錄它們的解題時(shí)間、推理步驟以及最終答案，算出準(zhǔn)確率。接著，把經(jīng)過(guò)程序化修改后的變體題拋給這些模型，同樣嚴(yán)格記錄解題過(guò)程中各項(xiàng)數(shù)據(jù)。

在原始題目上，o1-preview 模型以 41.95% 的準(zhǔn)確率暫居榜首，可一旦切換到變體題，它的準(zhǔn)確率就「跳水」到了 11.95% 左右，足足下降了 30 個(gè)百分點(diǎn)。

其他模型的準(zhǔn)確率滑坡也相當(dāng)顯著，但值得注意的是，Gemma 和 Mistral 系列模型中的某些型號(hào)在變體題上的準(zhǔn)確率不降反升。

斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

這些數(shù)據(jù)背后，反映出的問(wèn)題相當(dāng)深刻。一方面，當(dāng)前的 AI 模型，哪怕是最頂尖的，在面對(duì)數(shù)學(xué)問(wèn)題的靈活變化時(shí)適應(yīng)性較差。它們可能對(duì)大規(guī)模數(shù)據(jù)訓(xùn)練出來(lái)的固定模式有一定依賴，一旦題目超出了熟悉的套路就會(huì)出現(xiàn)顯著滑坡。

另一方面，普特南競(jìng)賽題的變體設(shè)計(jì)，精準(zhǔn)地?fù)糁辛?AI 的「軟肋」，這也為未來(lái) AI 模型的訓(xùn)練和提升指明了另一種方向。

參考資料：

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）原文標(biāo)題：《斯坦福揭秘 o1-preview 軟肋！數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

北美最難數(shù)學(xué)競(jìng)賽題「變臉」，AI 有點(diǎn)懵

Putnam-AXIOM 基準(zhǔn)，AI 數(shù)學(xué)能力的「試金石」

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

北美最難數(shù)學(xué)競(jìng)賽題「變臉」，AI 有點(diǎn)懵

Putnam-AXIOM 基準(zhǔn)，AI 數(shù)學(xué)能力的「試金石」

相關(guān)文章

斯坦福揭秘 o1-preview 軟肋：數(shù)學(xué)競(jìng)賽題稍作修改，準(zhǔn)確率驟降 30%

北美最難數(shù)學(xué)競(jìng)賽題「變臉」，AI 有點(diǎn)懵

Putnam-AXIOM 基準(zhǔn)，AI 數(shù)學(xué)能力的「試金石」