牛津大學(xué)研究：當(dāng)前基準(zhǔn)測(cè)試普遍夸大了 AI 模型的性能

2025/11/6 17:55:47 來(lái)源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

IT之家 11 月 6 日消息，一項(xiàng)新研究稱(chēng)，當(dāng)前用于評(píng)估人工智能（AI）系統(tǒng)能力的方法普遍存在夸大 AI 性能的問(wèn)題，且缺乏科學(xué)嚴(yán)謹(jǐn)性。

據(jù)IT之家了解，該研究由牛津大學(xué)互聯(lián)網(wǎng)研究所（Oxford Internet Institute）牽頭，并聯(lián)合來(lái)自其他機(jī)構(gòu)的 30 多位研究人員共同完成。研究團(tuán)隊(duì)對(duì) 445 項(xiàng)主流 AI 測(cè)試（即“基準(zhǔn)測(cè)試”，benchmarks）進(jìn)行了系統(tǒng)分析，這些測(cè)試通常用于衡量 AI 模型在各種主題領(lǐng)域的表現(xiàn)。

AI 開(kāi)發(fā)者和研究人員常借助這些基準(zhǔn)測(cè)試來(lái)評(píng)估模型能力，并以此宣稱(chēng)技術(shù)進(jìn)步，從軟件工程能力到抽象推理能力等。然而，本周二發(fā)布的這篇論文指出，這些被視為基礎(chǔ)的測(cè)試可能并不可靠，并對(duì)大量基準(zhǔn)測(cè)試結(jié)果的有效性提出質(zhì)疑。

根據(jù)研究，大量頂級(jí)基準(zhǔn)測(cè)試未能明確定義其測(cè)試目標(biāo)，且重復(fù)使用已有基準(zhǔn)的數(shù)據(jù)和測(cè)試方法，并且很少采用可靠的統(tǒng)計(jì)方法來(lái)比較不同模型之間的結(jié)果。

牛津大學(xué)互聯(lián)網(wǎng)研究所高級(jí)研究員、該研究的共同第一作者亞當(dāng)?馬赫迪（Adam Mahdi）表示，這些基準(zhǔn)測(cè)試可能具有驚人的誤導(dǎo)性。他告訴 NBC 新聞：“當(dāng)我們要求 AI 模型執(zhí)行某些任務(wù)時(shí)，實(shí)際上往往測(cè)量的是完全不同于我們最初意圖測(cè)量的概念?！?/p>

另一位共同第一作者、牛津大學(xué)互聯(lián)網(wǎng)研究所研究員安德魯?比恩（Andrew Bean）也表示，即便是聲譽(yù)良好的基準(zhǔn)測(cè)試也常常被盲目信任，理應(yīng)接受更嚴(yán)格的審視。他表示：“當(dāng)你聽(tīng)到‘某個(gè)模型達(dá)到博士水平的智能’這類(lèi)說(shuō)法時(shí)，一定要持保留態(tài)度。我們并不確定這些測(cè)量是否真的做得很好?！?/p>

研究中分析的部分基準(zhǔn)測(cè)試衡量特定技能，如俄語(yǔ)或阿拉伯語(yǔ)能力；另一些則衡量更通用的能力，如空間推理或持續(xù)學(xué)習(xí)能力。

作者們關(guān)注的核心問(wèn)題在于：某一基準(zhǔn)測(cè)試是否真正有效衡量了其所聲稱(chēng)要測(cè)量的現(xiàn)實(shí)世界現(xiàn)象 —— 研究者稱(chēng)之為“構(gòu)念效度”（construct validity）。例如，一項(xiàng)被研究審查的基準(zhǔn)測(cè)試并非通過(guò)無(wú)休止的問(wèn)題來(lái)評(píng)估模型的俄語(yǔ)表達(dá)能力，而是通過(guò)九項(xiàng)不同任務(wù)（如利用俄語(yǔ)維基百科信息回答是非題）來(lái)衡量模型表現(xiàn)。

然而，研究發(fā)現(xiàn)，約一半的基準(zhǔn)測(cè)試未能清晰界定其所聲稱(chēng)要測(cè)量的概念，這使其能否提供關(guān)于 AI 模型的有用信息受到嚴(yán)重質(zhì)疑。

研究以“小學(xué)數(shù)學(xué) 8K”（Grade School Math 8K，簡(jiǎn)稱(chēng) GSM8K）這一常見(jiàn) AI 基準(zhǔn)測(cè)試為例。該測(cè)試通過(guò)一組基礎(chǔ)數(shù)學(xué)題評(píng)估模型表現(xiàn)。外界常引用 GSM8K 排行榜來(lái)證明 AI 模型在基礎(chǔ)數(shù)學(xué)推理方面能力出眾，其官方文檔也稱(chēng)其“有助于探查大語(yǔ)言模型的非形式化推理能力”。

但研究作者馬赫迪指出，在 GSM8K 等基準(zhǔn)測(cè)試中答對(duì)問(wèn)題，并不一定意味著模型真正進(jìn)行了數(shù)學(xué)推理。他表示：“當(dāng)你問(wèn)一年級(jí)學(xué)生 2 加 5 等于幾，他們回答 7，沒(méi)錯(cuò)，這是正確答案。但你能據(jù)此斷定五年級(jí)學(xué)生僅憑會(huì)做加法就掌握了數(shù)學(xué)推理或算術(shù)推理嗎？或許可以，但我認(rèn)為答案很可能是否定的。”

比恩承認(rèn)，像“推理”這類(lèi)模糊概念的測(cè)量必然依賴(lài)對(duì)任務(wù)子集的評(píng)估，而這種選擇不可避免地存在缺陷。他說(shuō)道：“這些評(píng)估包含許多動(dòng)態(tài)因素，要兼顧所有方面需要平衡。但本研究呼吁基準(zhǔn)測(cè)試必須清晰界定其測(cè)量目標(biāo)?！?/p>

他補(bǔ)充道：“對(duì)于‘無(wú)害性’或‘推理’這類(lèi)概念，人們常常只是隨便選一個(gè)接近該范疇、便于測(cè)量的東西，就說(shuō)‘好了，我已經(jīng)測(cè)出來(lái)了’。”

在這篇新論文中，作者提出了八項(xiàng)具體建議，并提供了一份檢查清單，旨在使基準(zhǔn)測(cè)試標(biāo)準(zhǔn)系統(tǒng)化，提升其透明度與可信度。建議的改進(jìn)措施包括：明確界定所評(píng)估行為的具體范圍；構(gòu)建更能代表整體能力的任務(wù)組合；以及通過(guò)統(tǒng)計(jì)分析比較模型表現(xiàn)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

牛津大學(xué)研究：當(dāng)前基準(zhǔn)測(cè)試普遍夸大了 AI 模型的性能

相關(guān)文章