在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

斯坦福揭秘 o1-preview 軟肋:數(shù)學(xué)競(jìng)賽題稍作修改,準(zhǔn)確率驟降 30%

新智元 2025/1/31 16:59:47 責(zé)編:清源

斯坦福大學(xué)最近的一項(xiàng)研究發(fā)現(xiàn),盡管 o1-preview 在數(shù)學(xué)、代碼等領(lǐng)域能力逆天,但只要對(duì)數(shù)學(xué)競(jìng)賽的題目稍修改,模型解答的準(zhǔn)確率竟會(huì)立刻下降 30%。

在數(shù)學(xué)競(jìng)賽的領(lǐng)域里,普特南數(shù)學(xué)競(jìng)賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發(fā)起,自 1938 年首屆舉辦以來(lái),歷經(jīng) 66 年的歲月沉淀,已然成為全球大學(xué)生數(shù)學(xué)精英們一較高下的頂級(jí)賽場(chǎng)。

美國(guó)數(shù)學(xué)會(huì)的精心主辦,加上哈佛大學(xué)、多倫多大學(xué)等名校學(xué)子的踴躍參與,讓這項(xiàng)賽事的桂冠成為無(wú)數(shù)學(xué)子夢(mèng)寐以求的殊榮,其權(quán)威性和挑戰(zhàn)性,那是得到了全球?qū)W界的公認(rèn)。

而最近,來(lái)自斯坦福的一項(xiàng)研究,卻讓大家驚掉了下巴:僅僅對(duì)題目中的變量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的準(zhǔn)確率就立刻大幅下降,降幅高達(dá) 30%!

原文鏈接:https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

這就好比一位武林高手,平時(shí)在熟悉的招式里威風(fēng)八面,一旦對(duì)手換個(gè)路數(shù),就立馬亂了陣腳。這不禁讓人好奇,這些難住最強(qiáng)推理模型的變體題,到底藏著怎樣的玄機(jī)?

北美最難數(shù)學(xué)競(jìng)賽題「變臉」,AI 有點(diǎn)懵

OpenAI 的 o1-preview 模型自出道以來(lái),憑借超強(qiáng)的推理能力,在各個(gè)領(lǐng)域大殺四方。

就拿編程來(lái)說(shuō),在 Codeforces 編程競(jìng)賽這個(gè)「高手如云」的賽場(chǎng)上,它的 Elo 評(píng)分高達(dá) 1807,把 93% 的競(jìng)爭(zhēng)對(duì)手都遠(yuǎn)遠(yuǎn)甩在身后,寫起代碼來(lái)又快又準(zhǔn),就像一位經(jīng)驗(yàn)老道的程序員。

在數(shù)學(xué)領(lǐng)域更是展現(xiàn)出了驚人的實(shí)力。2024 年的美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)題目集上,o1-preview 的正確率高達(dá) 83%,相當(dāng)于全美參賽選手 top500 的水平。

醫(yī)學(xué)診斷方面,哈佛醫(yī)學(xué)院和斯坦福大學(xué)組成的科研團(tuán)隊(duì)曾對(duì) o1-preview 進(jìn)行過(guò)全方位的 「考核」,結(jié)果令人驚嘆:在生成診斷意見、診斷臨床推理和管理推理這些關(guān)鍵任務(wù)上,它甚至超越了人類醫(yī)生。面對(duì)復(fù)雜的病例,它能快速分析癥狀、病史等信息,并給出準(zhǔn)確的診斷建議。

然而,就是這樣一個(gè)在多領(lǐng)域「開掛」的模型,在面對(duì)普特南數(shù)學(xué)競(jìng)賽題的變體時(shí),卻仿佛迷失了方向。

在原始題目上,o1-preview 本能達(dá)到 41.95% 的準(zhǔn)確率,而一旦題目中的變量、常量被修改,準(zhǔn)確率就像坐了滑梯一樣,直線下降約 30%。

這巨大的反差,背后其實(shí)有著深層次的原因。普特南競(jìng)賽題本就以超高的難度、獨(dú)特的出題思路著稱,原始題目和變體題目之間,雖然看似只有細(xì)微的差別,但這些改變往往涉及到數(shù)學(xué)概念的深層次運(yùn)用和邏輯結(jié)構(gòu)的巧妙變換。

o1-preview 模型在訓(xùn)練過(guò)程中,可能更多是對(duì)常見的數(shù)學(xué)題型、編程模式、醫(yī)學(xué)案例進(jìn)行學(xué)習(xí)和優(yōu)化,對(duì)于這種專門設(shè)計(jì)、極度刁鉆的變體題,缺乏足夠的「應(yīng)對(duì)經(jīng)驗(yàn)」,難以迅速抓住問(wèn)題的關(guān)鍵,從而導(dǎo)致準(zhǔn)確率大幅下滑。

Putnam-AXIOM 基準(zhǔn),AI 數(shù)學(xué)能力的「試金石」

為了更準(zhǔn)確深入地評(píng)估 AI 大模型的數(shù)學(xué)能力,研究團(tuán)隊(duì)精心打造了 Putnam-AXIOM Original 基準(zhǔn),收納了來(lái)自歷年普特南數(shù)學(xué)競(jìng)賽(Putnam)的 236 個(gè)數(shù)學(xué)問(wèn)題,從復(fù)雜的代數(shù)變換到精妙的幾何證明,從抽象的數(shù)論難題到變幻莫測(cè)的組合數(shù)學(xué)謎題,無(wú)一不是對(duì)人類智慧極限的挑戰(zhàn)。

但這項(xiàng)基準(zhǔn)的價(jià)值遠(yuǎn)不止于收錄原題,更厲害的是,研究者們?cè)O(shè)計(jì)了一套巧妙的程序化修改機(jī)制,可以對(duì)問(wèn)題中的變量、常量等關(guān)鍵要素進(jìn)行修改,從而生成無(wú)限多個(gè)全新且難度相當(dāng)?shù)膯?wèn)題。

比如說(shuō),把一個(gè)幾何問(wèn)題中的邊長(zhǎng)數(shù)值進(jìn)行變換,或者改變函數(shù)題中的參數(shù)取值范圍,這些看似微小的調(diào)整,卻能讓整個(gè)問(wèn)題的解法路徑大不相同。

而且,這些新生成的題目從未在互聯(lián)網(wǎng)上出現(xiàn)過(guò),因此也不可能泄露到任何模型的訓(xùn)練數(shù)據(jù)集中,完全杜絕了 AI 靠 「死記硬背」答案來(lái)作弊的可能,真正做到了對(duì) AI 數(shù)學(xué)推理能力的精準(zhǔn)探測(cè)。

在這個(gè)新設(shè)計(jì)的基準(zhǔn)上,研究人員大范圍選擇了各種模型進(jìn)行測(cè)試,包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o,Anthropic 的旗艦?zāi)P?Claude-3.5 Sonnet,Llama、Qwen 的等有影響力的開源模型,以及 Gemma、Mistral、DeepSeek、Numina 等以數(shù)學(xué)能力聞名的開源模型。

首先,將 Putnam-AXIOM 基準(zhǔn)中的 236 道原題輸入給各個(gè)模型,記錄它們的解題時(shí)間、推理步驟以及最終答案,算出準(zhǔn)確率。接著,把經(jīng)過(guò)程序化修改后的變體題拋給這些模型,同樣嚴(yán)格記錄解題過(guò)程中各項(xiàng)數(shù)據(jù)。

在原始題目上,o1-preview 模型以 41.95% 的準(zhǔn)確率暫居榜首,可一旦切換到變體題,它的準(zhǔn)確率就「跳水」到了 11.95% 左右,足足下降了 30 個(gè)百分點(diǎn)。

其他模型的準(zhǔn)確率滑坡也相當(dāng)顯著,但值得注意的是,Gemma 和 Mistral 系列模型中的某些型號(hào)在變體題上的準(zhǔn)確率不降反升。

這些數(shù)據(jù)背后,反映出的問(wèn)題相當(dāng)深刻。一方面,當(dāng)前的 AI 模型,哪怕是最頂尖的,在面對(duì)數(shù)學(xué)問(wèn)題的靈活變化時(shí)適應(yīng)性較差。它們可能對(duì)大規(guī)模數(shù)據(jù)訓(xùn)練出來(lái)的固定模式有一定依賴,一旦題目超出了熟悉的套路就會(huì)出現(xiàn)顯著滑坡。

另一方面,普特南競(jìng)賽題的變體設(shè)計(jì),精準(zhǔn)地?fù)糁辛?AI 的「軟肋」,這也為未來(lái) AI 模型的訓(xùn)練和提升指明了另一種方向。

參考資料:

  • https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

本文來(lái)自微信公眾號(hào):新智元(ID:AI_era) 原文標(biāo)題:《斯坦福揭秘 o1-preview 軟肋!數(shù)學(xué)競(jìng)賽題稍作修改,準(zhǔn)確率驟降 30%》

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,o1

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知