IT之家 4 月 2 日消息,美國(guó)加州大學(xué)圣地亞哥分校發(fā)布了一項(xiàng)研究成果,宣稱首次提供了“人工智能系統(tǒng)能夠通過(guò)標(biāo)準(zhǔn)三方圖靈測(cè)試的實(shí)證證據(jù)”。

圖靈測(cè)試由英國(guó)數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家阿蘭?圖靈于 1950 年提出,他稱之為“模仿游戲”。圖靈設(shè)想,如果一名提問(wèn)者在通過(guò)文本交流時(shí)無(wú)法區(qū)分對(duì)方是機(jī)器還是人類(lèi),那么這個(gè)機(jī)器可能具備類(lèi)似人類(lèi)的智能。在三方圖靈測(cè)試中,提問(wèn)者需與一名人類(lèi)和一臺(tái)機(jī)器進(jìn)行對(duì)話,并準(zhǔn)確辨識(shí)出人類(lèi)身份。

據(jù)IT之家了解,該研究測(cè)試了三款人工智能模型:OpenAI 的 GPT-4.5、Meta 的 Llama 3.1 405B 以及 OpenAI 的 GPT-4o。實(shí)驗(yàn)中,人類(lèi)參與者通過(guò)分屏界面與一名人類(lèi)和一臺(tái) AI 系統(tǒng)進(jìn)行五分鐘的測(cè)試對(duì)話。每輪結(jié)束后,提問(wèn)者需判斷哪一方是人類(lèi)。
研究人員在兩種條件下評(píng)估了這些 AI 模型的表現(xiàn):一種是基礎(chǔ)指令(NO-PERSONA)模式,另一種是增強(qiáng)型 PERSONA 模式,后者引導(dǎo) AI 模擬特定的人類(lèi)行為特征。結(jié)果顯示,在 PERSONA 模式下,GPT-4.5 的勝率為 73%,表明提問(wèn)者常常將其誤認(rèn)為是人類(lèi);Llama 3.1-405B 的勝率約為 56%;而在 NO-PERSONA 模式下,GPT-4o 的勝率僅為 21%。
在對(duì)話中,提問(wèn)者主要進(jìn)行日常閑聊,61% 的互動(dòng)涉及詢問(wèn)日常生活和個(gè)人細(xì)節(jié),50% 的互動(dòng)則深入探討社會(huì)和情感層面,如觀點(diǎn)、情感、幽默感和個(gè)人經(jīng)歷。
研究報(bào)告指出:“如果提問(wèn)者無(wú)法可靠地區(qū)分人類(lèi)與機(jī)器,那么該機(jī)器即被認(rèn)為通過(guò)了圖靈測(cè)試?;谶@一邏輯,GPT-4.5 和 Llama 3.1-405B 在啟用 PERSONA 模式時(shí)均通過(guò)了圖靈測(cè)試?!?/strong>
研究作者認(rèn)為,這些 AI 系統(tǒng)有望在依賴簡(jiǎn)短對(duì)話的經(jīng)濟(jì)角色中無(wú)縫補(bǔ)充甚至取代人類(lèi)勞動(dòng)力。他們進(jìn)一步表示:“更廣泛地說(shuō),這些系統(tǒng)可能成為難以區(qū)分的替代品,適用于從在線陌生人對(duì)話到與朋友、同事乃至浪漫伴侶的交流等各種社交場(chǎng)景?!?/p>
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。