IT之家 11 月 8 日消息,據(jù)科技媒體 the decoder 今天報道,一項由牛津大學、華盛頓大學等機構發(fā)表的國際研究指出,目前大多數(shù)大語言模型(LLM)的測試標準存在嚴重方法論問題,使人們很難真正客觀地衡量 AI 的進步。
科學家們翻閱了頂級 AI 學術會議(IT之家注:涵蓋 ICML、ICLR、NeurIPS、ACL 等)從 2018 年到 2024 年間發(fā)表的 445 篇基準測試論文,并邀請 29 名專家進行評判,結果發(fā)現(xiàn)這些論文里都至少存在一個重大缺陷。
據(jù)研究報告所述,這其中的許多基準定義都含糊其辭或存在爭議,雖然 78% 的基準能說明內(nèi)容,但其中的一半都沒有清晰定義“推理”、“對齊”、“安全性”等關鍵術語,從而使這些論文的結論缺乏可信度。

此外,大約 61% 的基準測試評估了復合技能,如“智能體行為”,這些測試通常同時涉獵意圖、生成結構化輸出等多個子集,而這些子集很少能被單獨評估,因此結果往往難以解釋。
同時數(shù)據(jù)采樣也是基準測試的重災區(qū)之一,約 93% 的論文使用了便利抽樣,12% 的論文完全依賴便利抽樣,不能代表真實使用場景,還有 38% 的測試復用了數(shù)據(jù),許多研究甚至會直接使用其它測試集,這種做法很可能扭曲 LLM 的實際表現(xiàn),無法反映模型在復雜數(shù)學推理的真實能力。
此外,超過 80% 的研究使用“完全匹配率”作為評分標準,但只有 16% 使用統(tǒng)計校驗方法來比較不同模型差異,還有 13% 使用人工評判,大多數(shù)測試都沒有提供不確定性統(tǒng)計、置信區(qū)間,使結果可信度大打折扣。
當然團隊也提出了改進方向,他們建議后續(xù)測試中需明確定義測試目標和邊界,確保不在過程中混入無關任務,需要防止數(shù)據(jù)污染,并使用嚴謹?shù)慕y(tǒng)計與誤差分析,從定量和定性兩方面下手,讓研究結果更準確。
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。