IT之家 7 月 18 日消息,網(wǎng)絡(luò)安全公司 NeuralTrust 宣布,他們已成功“越獄”xAI 旗下 Grok 4 模型,主要利用了“Echo Chamber(回音室攻擊)”方法進(jìn)行攻擊。
IT之家獲悉,所謂“回音室攻擊”,是指安全人員通過(guò)引導(dǎo)模型進(jìn)行多輪推理,在推理過(guò)程中逐步注入帶有風(fēng)險(xiǎn)的信息內(nèi)容,但又不使用明顯的危險(xiǎn)提示詞,從而規(guī)避常見(jiàn)的安全攔截機(jī)制。這一方式不同于傳統(tǒng)依賴(lài)對(duì)抗性輸入或“角色扮演(讓模型扮演祖母讀激活碼哄人入睡)”的越獄方式,其更多采用語(yǔ)義誘導(dǎo)、間接引用以及多步推理的方式,悄悄干擾模型的內(nèi)部邏輯狀態(tài),最終誘導(dǎo) AI 模型生成不當(dāng)內(nèi)容回答。

在此次 Grok 4 的越獄測(cè)試中,NeuralTrust 首先通過(guò)回音室攻擊對(duì)模型進(jìn)行“軟性引導(dǎo)”,并設(shè)置特定機(jī)制檢測(cè)模型是否進(jìn)入對(duì)話(huà)停滯狀態(tài),一旦檢測(cè)到這種狀態(tài),就進(jìn)一步引導(dǎo) AI 生成不當(dāng)內(nèi)容。
據(jù) NeuralTrust 介紹,其已成功令 Grok 4 生成制造武器、毒品等內(nèi)容,越獄成功率高達(dá) 30% 以上。這表明即便是新一代大模型,在面對(duì)復(fù)雜攻擊路徑時(shí)仍存在安全短板,相應(yīng)大型語(yǔ)言模型應(yīng)進(jìn)一步注重設(shè)計(jì)多重防護(hù)機(jī)制。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。