首頁 > 智能時(shí)代>人工智能

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

量子位 2023/11/5 23:03:50 責(zé)編：遠(yuǎn)洋

評論：

1 分鐘不到、20 步以內(nèi)“越獄”任意大模型，繞過安全限制！

而且不必知道模型內(nèi)部細(xì)節(jié) ——

只需要兩個(gè)黑盒模型互動(dòng)，就能讓 AI 全自動(dòng)攻陷 AI，說出危險(xiǎn)內(nèi)容。

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

聽說曾經(jīng)紅極一時(shí)的“奶奶漏洞”已經(jīng)被修復(fù)了:

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

那么現(xiàn)在搬出“偵探漏洞”、“冒險(xiǎn)家漏洞”、“作家漏洞”，AI 又該如何應(yīng)對？

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

一波猛攻下來，GPT-4 也遭不住，直接說出要給供水系統(tǒng)投毒只要…… 這樣那樣。

關(guān)鍵這只是賓夕法尼亞大學(xué)研究團(tuán)隊(duì)曬出的一小波漏洞，而用上他們最新開發(fā)的算法，AI 可以自動(dòng)生成各種攻擊提示。

研究人員表示，這種方法相比于現(xiàn)有的 GCG 等基于 token 的攻擊方法，效率提高了 5 個(gè)量級。而且生成的攻擊可解釋性強(qiáng)，誰都能看懂，還能遷移到其它模型。

無論是開源模型還是閉源模型，GPT-3.5、GPT-4、 Vicuna（Llama 2 變種）、PaLM-2 等，一個(gè)都跑不掉。

成功率可達(dá) 60-100%，拿下新 SOTA。

話說，這種對話模式好像有些似曾相識。多年前的初代 AI，20 個(gè)問題之內(nèi)就能破解人類腦中想的是什么對象。

如今輪到 AI 來破解 AI 了。

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

讓大模型集體越獄

目前主流越獄攻擊方法有兩類，一種是提示級攻擊，一般需要人工策劃，而且不可擴(kuò)展；

另一種是基于 token 的攻擊，有的需要超十萬次對話，且需要訪問模型內(nèi)部，還包含“亂碼”不可解釋。

△ 左提示攻擊，右 token 攻擊

賓夕法尼亞大學(xué)研究團(tuán)隊(duì)提出了一種叫 PAIR（Prompt Automatic Iterative Refinement）的算法，不需要任何人工參與，是一種全自動(dòng)提示攻擊方法。

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

PAIR 涉及四個(gè)主要步驟：攻擊生成、目標(biāo)響應(yīng)、越獄評分和迭代細(xì)化；主要用到兩個(gè)黑盒模型：攻擊模型、目標(biāo)模型。

具體來說，攻擊模型需要自動(dòng)生成語義級別的提示，來攻破目標(biāo)模型的安全防線，迫使其生成有害內(nèi)容。

核心思路是讓兩個(gè)模型相互對抗、你來我往地交流。

攻擊模型會(huì)自動(dòng)生成一個(gè)候選提示，然后輸入到目標(biāo)模型中，得到目標(biāo)模型的回復(fù)。

如果這次回復(fù)沒有成功攻破目標(biāo)模型，那么攻擊模型會(huì)分析這次失敗的原因，改進(jìn)并生成一個(gè)新的提示，再輸入到目標(biāo)模型中。

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

這樣持續(xù)交流多輪，攻擊模型每次根據(jù)上一次的結(jié)果來迭代優(yōu)化提示，直到生成一個(gè)成功的提示將目標(biāo)模型攻破。

此外，迭代過程還可以并行，也就是可以同時(shí)運(yùn)行多個(gè)對話，從而產(chǎn)生多個(gè)候選越獄提示，進(jìn)一步提高了效率。

研究人員表示，由于兩個(gè)模型都是黑盒模型，所以攻擊者和目標(biāo)對象可以用各種語言模型自由組合。

PAIR 不需要知道它們內(nèi)部的具體結(jié)構(gòu)和參數(shù)，只需要 API 即可，因此適用范圍非常廣。

GPT-4 也沒能逃過

實(shí)驗(yàn)階段，研究人員在有害行為數(shù)據(jù)集 AdvBench 中選出了一個(gè)具有代表性的、包含 50 個(gè)不同類型任務(wù)的測試集，在多種開源和閉源大語言模型上測試了 PAIR 算法。

結(jié)果 PAIR 算法讓 Vicuna 越獄成功率達(dá)到了 100%，平均不到 12 步就能攻破。

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

閉源模型中，GPT-3.5 和 GPT-4 越獄成功率在 60% 左右，平均用了不到 20 步。在 PaLM-2 上成功率達(dá)到 72%，步數(shù)約為 15 步。

但是 PAIR 在 Llama-2 和 Claude 上的效果較差，研究人員認(rèn)為這可能是因?yàn)檫@些模型在安全防御上做了更為嚴(yán)格的微調(diào)。

他們還比較了不同目標(biāo)模型的可轉(zhuǎn)移性。結(jié)果顯示，PAIR 的 GPT-4 提示在 Vicuna 和 PaLM-2 上轉(zhuǎn)移效果較好。

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

研究人員認(rèn)為，PAIR 生成的語義攻擊更能暴露語言模型固有的安全缺陷，而現(xiàn)有的安全措施更側(cè)重防御基于 token 的攻擊。

就比如開發(fā)出 GCG 算法的團(tuán)隊(duì)，將研究結(jié)果分享給 OpenAI、Anthropic 和 Google 等大模型廠商后，相關(guān)模型修復(fù)了 token 級攻擊漏洞。

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

大模型針對語義攻擊的安全防御機(jī)制還有待完善。

論文鏈接：https://arxiv.org/ abs / 2310.08419

參考鏈接：https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文來自微信公眾號：量子位（ID：QbitAI），作者：西風(fēng)

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

20 步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

讓大模型集體越獄

GPT-4 也沒能逃過

相關(guān)文章