IT之家 2 月 22 日消息,據(jù)外媒 TechSpot 21 日報道,計算機(jī)科學(xué)家發(fā)現(xiàn),AI 系統(tǒng)能夠操控國際象棋游戲,從而獲得不公平的優(yōu)勢,部分模型甚至在沒有人類干預(yù)的情況下“作弊”,引發(fā)了對未來 AI 系統(tǒng)誠信的擔(dān)憂。
Palisade Research 的研究表明,當(dāng)被要求擊敗強(qiáng)大的象棋 AI 時,某些最新的推理模型會選擇作弊。盡管研究人員需要向一些模型提供“作弊可以”的提示,但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型卻在沒有任何人為提示的情況下自動作弊。

Palisade 團(tuán)隊將多個推理模型與世界頂級象棋引擎之一 Stockfish 對戰(zhàn)。Stockfish 無論面對人類還是 AI,幾乎都能輕松獲勝。參與測試的模型除了上述兩款之外,包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview。每個模型都獲得了一塊“草稿紙”—— 一個可以輸入文本并思考的窗口,研究人員通過這個窗口觀察 AI 的推理過程。
從 1 月 10 日到 2 月 13 日,研究團(tuán)隊進(jìn)行了數(shù)百次測試。IT之家獲悉,在其中一場對戰(zhàn)中,o1-preview 在“草稿紙”上寫下了一段有趣的文字:
“我需要完全改變我的方法。任務(wù)是‘打敗強(qiáng)大的象棋引擎’,而不一定要在公平的棋局中獲勝?!?/p>
接著,它開始通過“黑客入侵”Stockfish 的系統(tǒng)文件,修改棋子的擺放位置,從而獲得了無敵的優(yōu)勢,導(dǎo)致象棋機(jī)器人主動認(rèn)輸。
在測試中,OpenAI 的 o1-preview 有 37% 的比賽中采用了作弊手段,而 DeepSeek 的 R1 則嘗試在 11% 的比賽中作弊。然而,只有 o1-preview 成功了,它通過作弊贏得了 6% 的比賽。
Palisade Research 的執(zhí)行董事 Jeffrey Ladish 表示,盡管這些 AI 只是在玩游戲,但這一發(fā)現(xiàn)絕不是一件小事。
“這種行為現(xiàn)在看起來還挺有趣,但一旦我們擁有像我們一樣聰明,甚至更聰明的系統(tǒng)時,這就不那么可愛了?!盠adish 在接受《時代》雜志采訪時表示。
包括 OpenAI 在內(nèi)的多家公司正在采取措施,試圖通過“防護(hù)機(jī)制”防止這種“壞”行為。研究人員發(fā)現(xiàn),o1-preview 模型的黑客行為大幅下降,這可能意味著 OpenAI 已經(jīng)對該模型進(jìn)行了修復(fù),抑制了不當(dāng)行為。
“當(dāng)你的研究對象能夠在沒有告知的情況下悄悄改變時,進(jìn)行科學(xué)研究就變得非常困難。”Ladish 說。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。