科學家發(fā)現(xiàn)多數(shù)大語言模型測試標準存在缺陷，無法客觀給出評分

2025/11/8 21:30:57 來源：IT之家作者：潞源（實習） 責編：潞源

評論：

IT之家 11 月 8 日消息，據(jù)科技媒體 the decoder 今天報道，一項由牛津大學、華盛頓大學等機構發(fā)表的國際研究指出，目前大多數(shù)大語言模型（LLM）的測試標準存在嚴重方法論問題，使人們很難真正客觀地衡量 AI 的進步。

科學家們翻閱了頂級 AI 學術會議（IT之家注：涵蓋 ICML、ICLR、NeurIPS、ACL 等）從 2018 年到 2024 年間發(fā)表的 445 篇基準測試論文，并邀請 29 名專家進行評判，結果發(fā)現(xiàn)這些論文里都至少存在一個重大缺陷。

據(jù)研究報告所述，這其中的許多基準定義都含糊其辭或存在爭議，雖然 78% 的基準能說明內(nèi)容，但其中的一半都沒有清晰定義“推理”、“對齊”、“安全性”等關鍵術語，從而使這些論文的結論缺乏可信度。

科學家發(fā)現(xiàn)多數(shù)大語言模型測試標準存在缺陷，無法客觀給出評分

此外，大約 61% 的基準測試評估了復合技能，如“智能體行為”，這些測試通常同時涉獵意圖、生成結構化輸出等多個子集，而這些子集很少能被單獨評估，因此結果往往難以解釋。

同時數(shù)據(jù)采樣也是基準測試的重災區(qū)之一，約 93% 的論文使用了便利抽樣，12% 的論文完全依賴便利抽樣，不能代表真實使用場景，還有 38% 的測試復用了數(shù)據(jù)，許多研究甚至會直接使用其它測試集，這種做法很可能扭曲 LLM 的實際表現(xiàn)，無法反映模型在復雜數(shù)學推理的真實能力。

此外，超過 80% 的研究使用“完全匹配率”作為評分標準，但只有 16% 使用統(tǒng)計校驗方法來比較不同模型差異，還有 13% 使用人工評判，大多數(shù)測試都沒有提供不確定性統(tǒng)計、置信區(qū)間，使結果可信度大打折扣。

當然團隊也提出了改進方向，他們建議后續(xù)測試中需明確定義測試目標和邊界，確保不在過程中混入無關任務，需要防止數(shù)據(jù)污染，并使用嚴謹?shù)慕y(tǒng)計與誤差分析，從定量和定性兩方面下手，讓研究結果更準確。

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：大語言模型

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

科學家發(fā)現(xiàn)多數(shù)大語言模型測試標準存在缺陷，無法客觀給出評分

相關文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

科學家發(fā)現(xiàn)多數(shù)大語言模型測試標準存在缺陷，無法客觀給出評分

相關文章

科學家發(fā)現(xiàn)多數(shù)大語言模型測試標準存在缺陷，無法客觀給出評分