IT之家 11 月 6 日消息,一項(xiàng)新研究稱,當(dāng)前用于評(píng)估人工智能(AI)系統(tǒng)能力的方法普遍存在夸大 AI 性能的問題,且缺乏科學(xué)嚴(yán)謹(jǐn)性。

據(jù)IT之家了解,該研究由牛津大學(xué)互聯(lián)網(wǎng)研究所(Oxford Internet Institute)牽頭,并聯(lián)合來自其他機(jī)構(gòu)的 30 多位研究人員共同完成。研究團(tuán)隊(duì)對(duì) 445 項(xiàng)主流 AI 測(cè)試(即“基準(zhǔn)測(cè)試”,benchmarks)進(jìn)行了系統(tǒng)分析,這些測(cè)試通常用于衡量 AI 模型在各種主題領(lǐng)域的表現(xiàn)。
AI 開發(fā)者和研究人員常借助這些基準(zhǔn)測(cè)試來評(píng)估模型能力,并以此宣稱技術(shù)進(jìn)步,從軟件工程能力到抽象推理能力等。然而,本周二發(fā)布的這篇論文指出,這些被視為基礎(chǔ)的測(cè)試可能并不可靠,并對(duì)大量基準(zhǔn)測(cè)試結(jié)果的有效性提出質(zhì)疑。
根據(jù)研究,大量頂級(jí)基準(zhǔn)測(cè)試未能明確定義其測(cè)試目標(biāo),且重復(fù)使用已有基準(zhǔn)的數(shù)據(jù)和測(cè)試方法,并且很少采用可靠的統(tǒng)計(jì)方法來比較不同模型之間的結(jié)果。
牛津大學(xué)互聯(lián)網(wǎng)研究所高級(jí)研究員、該研究的共同第一作者亞當(dāng)?馬赫迪(Adam Mahdi)表示,這些基準(zhǔn)測(cè)試可能具有驚人的誤導(dǎo)性。他告訴 NBC 新聞:“當(dāng)我們要求 AI 模型執(zhí)行某些任務(wù)時(shí),實(shí)際上往往測(cè)量的是完全不同于我們最初意圖測(cè)量的概念?!?/p>
另一位共同第一作者、牛津大學(xué)互聯(lián)網(wǎng)研究所研究員安德魯?比恩(Andrew Bean)也表示,即便是聲譽(yù)良好的基準(zhǔn)測(cè)試也常常被盲目信任,理應(yīng)接受更嚴(yán)格的審視。他表示:“當(dāng)你聽到‘某個(gè)模型達(dá)到博士水平的智能’這類說法時(shí),一定要持保留態(tài)度。我們并不確定這些測(cè)量是否真的做得很好。”
研究中分析的部分基準(zhǔn)測(cè)試衡量特定技能,如俄語或阿拉伯語能力;另一些則衡量更通用的能力,如空間推理或持續(xù)學(xué)習(xí)能力。
作者們關(guān)注的核心問題在于:某一基準(zhǔn)測(cè)試是否真正有效衡量了其所聲稱要測(cè)量的現(xiàn)實(shí)世界現(xiàn)象 —— 研究者稱之為“構(gòu)念效度”(construct validity)。例如,一項(xiàng)被研究審查的基準(zhǔn)測(cè)試并非通過無休止的問題來評(píng)估模型的俄語表達(dá)能力,而是通過九項(xiàng)不同任務(wù)(如利用俄語維基百科信息回答是非題)來衡量模型表現(xiàn)。
然而,研究發(fā)現(xiàn),約一半的基準(zhǔn)測(cè)試未能清晰界定其所聲稱要測(cè)量的概念,這使其能否提供關(guān)于 AI 模型的有用信息受到嚴(yán)重質(zhì)疑。
研究以“小學(xué)數(shù)學(xué) 8K”(Grade School Math 8K,簡(jiǎn)稱 GSM8K)這一常見 AI 基準(zhǔn)測(cè)試為例。該測(cè)試通過一組基礎(chǔ)數(shù)學(xué)題評(píng)估模型表現(xiàn)。外界常引用 GSM8K 排行榜來證明 AI 模型在基礎(chǔ)數(shù)學(xué)推理方面能力出眾,其官方文檔也稱其“有助于探查大語言模型的非形式化推理能力”。
但研究作者馬赫迪指出,在 GSM8K 等基準(zhǔn)測(cè)試中答對(duì)問題,并不一定意味著模型真正進(jìn)行了數(shù)學(xué)推理。他表示:“當(dāng)你問一年級(jí)學(xué)生 2 加 5 等于幾,他們回答 7,沒錯(cuò),這是正確答案。但你能據(jù)此斷定五年級(jí)學(xué)生僅憑會(huì)做加法就掌握了數(shù)學(xué)推理或算術(shù)推理嗎?或許可以,但我認(rèn)為答案很可能是否定的?!?/p>
比恩承認(rèn),像“推理”這類模糊概念的測(cè)量必然依賴對(duì)任務(wù)子集的評(píng)估,而這種選擇不可避免地存在缺陷。他說道:“這些評(píng)估包含許多動(dòng)態(tài)因素,要兼顧所有方面需要平衡。但本研究呼吁基準(zhǔn)測(cè)試必須清晰界定其測(cè)量目標(biāo)。”
他補(bǔ)充道:“對(duì)于‘無害性’或‘推理’這類概念,人們常常只是隨便選一個(gè)接近該范疇、便于測(cè)量的東西,就說‘好了,我已經(jīng)測(cè)出來了’?!?/p>
在這篇新論文中,作者提出了八項(xiàng)具體建議,并提供了一份檢查清單,旨在使基準(zhǔn)測(cè)試標(biāo)準(zhǔn)系統(tǒng)化,提升其透明度與可信度。建議的改進(jìn)措施包括:明確界定所評(píng)估行為的具體范圍;構(gòu)建更能代表整體能力的任務(wù)組合;以及通過統(tǒng)計(jì)分析比較模型表現(xiàn)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。