IT之家 6 月 6 日消息,據(jù)外媒 Futurism 今天(6 日)晚間報(bào)道,北卡羅來納大學(xué)教堂山分校和美國東北大學(xué)研究人員的一項(xiàng)新研究發(fā)現(xiàn),主流 AI 模型在分析職業(yè)體育比賽時(shí)表現(xiàn)很差。這項(xiàng)研究目標(biāo)是考察熱門 AI 模型在感知、推理、模擬和自主行動(dòng)能力四個(gè)方面的表現(xiàn),現(xiàn)有測試方法很難準(zhǔn)確評(píng)估這些能力。不過需要注意的是,其尚未經(jīng)過同行評(píng)審。
為測試 AI 在這些方面究竟能做到何種程度,研究人員把職業(yè)體育比賽做成了一套新基準(zhǔn)。新測試名為“戰(zhàn)略視頻智能”,簡稱 SVI-bench,數(shù)據(jù)包括 35000 小時(shí)籃球、足球和冰球比賽畫面、1500 萬條帶標(biāo)注的比賽回合、15000 小時(shí)職業(yè)分析、23000 份賽后報(bào)道,以及 10.3 萬條統(tǒng)計(jì)記錄。
AI 表現(xiàn)相對(duì)最好的是“看懂畫面”這一步,也就是判斷比賽某個(gè)時(shí)刻由哪名球員做了什么動(dòng)作。但即便是最基礎(chǔ)的感知任務(wù),AI 也談不上可靠。ChatGPT、谷歌 Gemini 和千問等模型的平均識(shí)別準(zhǔn)確率大約為 74%。報(bào)道指出,放在體育解說場景里,這個(gè)水平恐怕連少年棒球賽的義務(wù)解說員都保不住位置。
到了因果推理環(huán)節(jié),模型表現(xiàn)進(jìn)一步下滑。研究人員要求 AI 解釋一組戰(zhàn)術(shù)或一個(gè)回合為什么會(huì)以某種方式發(fā)生,平均成功率只有約 40%。
例如,研究人員讓模型判斷 NBA 太陽隊(duì)球員科迪 · 馬丁一記三分球的異常之處。此次進(jìn)球他先打到籃板頂部,隨后才落入籃筐,但 ChatGPT 給出的答案是,這是“他本場比賽命中的第一個(gè)三分球”。
模擬能力同樣糟糕。研究人員要求 AI 根據(jù)球員運(yùn)動(dòng)軌跡尋找證據(jù),并預(yù)測球員接下來會(huì)移動(dòng)到哪里。結(jié)果顯示,即便表現(xiàn)最好的模型,在判斷球員下一步動(dòng)作時(shí)也接近隨機(jī)猜測,一旦預(yù)測范圍延長到朝球門或籃筐移動(dòng)的更長路線,模型表現(xiàn)還會(huì)繼續(xù)變差。
IT之家從報(bào)道中獲悉,美國東北大學(xué)計(jì)算機(jī)科學(xué)研究人員、研究共同作者洛倫佐 · 托雷薩尼在大學(xué)新聞稿中表示,AI“無法告訴你事情為什么會(huì)發(fā)生,也無法告訴你接下來會(huì)發(fā)生什么”。
研究人員還測試了模型的自主分析能力,相當(dāng)于要求 AI 像人類體育主播一樣,結(jié)合賽后數(shù)據(jù)和趨勢作出復(fù)雜判斷。結(jié)果顯示,模型在這一項(xiàng)上的準(zhǔn)確率只有 5%。
托雷薩尼表示,一名優(yōu)秀體育解說員做的不只是描述畫面。他們會(huì)解釋一套戰(zhàn)術(shù)為什么有效,預(yù)判接下來會(huì)發(fā)生什么,還會(huì)判斷哪些瞬間真正重要。但研究顯示,AI 已經(jīng)相當(dāng)擅長描述畫面,但在其他能力上全面失守。
托雷薩尼總結(jié)稱:“同樣的能力差距會(huì)出現(xiàn)在任何一類工作中。真正的價(jià)值并不在于描述眼前可見的東西,而在于理解事件為什么這樣發(fā)展、預(yù)判接下來會(huì)發(fā)生什么、判斷什么重要,并提出下一步應(yīng)該怎么做?!?/p>
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。