在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

科學家發(fā)現(xiàn)多數(shù)大語言模型測試標準存在缺陷,無法客觀給出評分

2025/11/8 21:30:57 來源:IT之家 作者:潞源(實習) 責編:潞源

IT之家 11 月 8 日消息,據(jù)科技媒體 the decoder 今天報道,一項由牛津大學、華盛頓大學等機構發(fā)表的國際研究指出,目前大多數(shù)大語言模型(LLM)的測試標準存在嚴重方法論問題,使人們很難真正客觀地衡量 AI 的進步。

科學家們翻閱了頂級 AI 學術會議(IT之家注:涵蓋 ICML、ICLR、NeurIPS、ACL 等)從 2018 年到 2024 年間發(fā)表的 445 篇基準測試論文,并邀請 29 名專家進行評判,結果發(fā)現(xiàn)這些論文里都至少存在一個重大缺陷。

據(jù)研究報告所述,這其中的許多基準定義都含糊其辭或存在爭議,雖然 78% 的基準能說明內(nèi)容,但其中的一半都沒有清晰定義“推理”、“對齊”、“安全性”等關鍵術語,從而使這些論文的結論缺乏可信度。

此外,大約 61% 的基準測試評估了復合技能,如“智能體行為”,這些測試通常同時涉獵意圖、生成結構化輸出等多個子集,而這些子集很少能被單獨評估,因此結果往往難以解釋。

同時數(shù)據(jù)采樣也是基準測試的重災區(qū)之一,約 93% 的論文使用了便利抽樣,12% 的論文完全依賴便利抽樣,不能代表真實使用場景,還有 38% 的測試復用了數(shù)據(jù),許多研究甚至會直接使用其它測試集,這種做法很可能扭曲 LLM 的實際表現(xiàn),無法反映模型在復雜數(shù)學推理的真實能力。

此外,超過 80% 的研究使用“完全匹配率”作為評分標準,但只有 16% 使用統(tǒng)計校驗方法來比較不同模型差異,還有 13% 使用人工評判,大多數(shù)測試都沒有提供不確定性統(tǒng)計、置信區(qū)間,使結果可信度大打折扣。

當然團隊也提出了改進方向,他們建議后續(xù)測試中需明確定義測試目標和邊界,確保不在過程中混入無關任務,需要防止數(shù)據(jù)污染,并使用嚴謹?shù)慕y(tǒng)計與誤差分析,從定量和定性兩方面下手,讓研究結果更準確。

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:大語言模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知