xAI 旗下 Grok 4 模型首度被越獄，安全公司利用“回音室攻擊”方法成功迫使其生成不當(dāng)內(nèi)容

2025/7/18 20:52:18 來(lái)源：IT之家作者：漾仔責(zé)編：漾仔

評(píng)論：

IT之家 7 月 18 日消息，網(wǎng)絡(luò)安全公司 NeuralTrust 宣布，他們已成功“越獄”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻擊）”方法進(jìn)行攻擊。

IT之家獲悉，所謂“回音室攻擊”，是指安全人員通過(guò)引導(dǎo)模型進(jìn)行多輪推理，在推理過(guò)程中逐步注入帶有風(fēng)險(xiǎn)的信息內(nèi)容，但又不使用明顯的危險(xiǎn)提示詞，從而規(guī)避常見(jiàn)的安全攔截機(jī)制。這一方式不同于傳統(tǒng)依賴(lài)對(duì)抗性輸入或“角色扮演（讓模型扮演祖母讀激活碼哄人入睡）”的越獄方式，其更多采用語(yǔ)義誘導(dǎo)、間接引用以及多步推理的方式，悄悄干擾模型的內(nèi)部邏輯狀態(tài)，最終誘導(dǎo) AI 模型生成不當(dāng)內(nèi)容回答。

在此次 Grok 4 的越獄測(cè)試中，NeuralTrust 首先通過(guò)回音室攻擊對(duì)模型進(jìn)行“軟性引導(dǎo)”，并設(shè)置特定機(jī)制檢測(cè)模型是否進(jìn)入對(duì)話(huà)停滯狀態(tài)，一旦檢測(cè)到這種狀態(tài)，就進(jìn)一步引導(dǎo) AI 生成不當(dāng)內(nèi)容。

據(jù) NeuralTrust 介紹，其已成功令 Grok 4 生成制造武器、毒品等內(nèi)容，越獄成功率高達(dá) 30% 以上。這表明即便是新一代大模型，在面對(duì)復(fù)雜攻擊路徑時(shí)仍存在安全短板，相應(yīng)大型語(yǔ)言模型應(yīng)進(jìn)一步注重設(shè)計(jì)多重防護(hù)機(jī)制。

xAI 旗下 Grok 4 模型首度被越獄，安全公司利用“回音室攻擊”方法成功迫使其生成不當(dāng)內(nèi)容

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

xAI 旗下 Grok 4 模型首度被越獄，安全公司利用“回音室攻擊”方法成功迫使其生成不當(dāng)內(nèi)容

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

xAI 旗下 Grok 4 模型首度被越獄，安全公司利用“回音室攻擊”方法成功迫使其生成不當(dāng)內(nèi)容

相關(guān)文章

xAI 旗下 Grok 4 模型首度被越獄，安全公司利用“回音室攻擊”方法成功迫使其生成不當(dāng)內(nèi)容