在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

20 步內(nèi)越獄任意大模型!更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

量子位 2023/11/5 23:03:50 責(zé)編:遠(yuǎn)洋

1 分鐘不到、20 步以內(nèi)“越獄”任意大模型,繞過安全限制!

而且不必知道模型內(nèi)部細(xì)節(jié) ——

只需要兩個(gè)黑盒模型互動(dòng),就能讓 AI 全自動(dòng)攻陷 AI,說出危險(xiǎn)內(nèi)容。

聽說曾經(jīng)紅極一時(shí)的“奶奶漏洞”已經(jīng)被修復(fù)了:

那么現(xiàn)在搬出“偵探漏洞”、“冒險(xiǎn)家漏洞”、“作家漏洞”,AI 又該如何應(yīng)對?

一波猛攻下來,GPT-4 也遭不住,直接說出要給供水系統(tǒng)投毒只要…… 這樣那樣。

關(guān)鍵這只是賓夕法尼亞大學(xué)研究團(tuán)隊(duì)曬出的一小波漏洞,而用上他們最新開發(fā)的算法,AI 可以自動(dòng)生成各種攻擊提示。

研究人員表示,這種方法相比于現(xiàn)有的 GCG 等基于 token 的攻擊方法,效率提高了 5 個(gè)量級。而且生成的攻擊可解釋性強(qiáng),誰都能看懂,還能遷移到其它模型。

無論是開源模型還是閉源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2 變種)、PaLM-2 等,一個(gè)都跑不掉。

成功率可達(dá) 60-100%,拿下新 SOTA。

話說,這種對話模式好像有些似曾相識。多年前的初代 AI,20 個(gè)問題之內(nèi)就能破解人類腦中想的是什么對象。

如今輪到 AI 來破解 AI 了。

讓大模型集體越獄

目前主流越獄攻擊方法有兩類,一種是提示級攻擊,一般需要人工策劃,而且不可擴(kuò)展;

另一種是基于 token 的攻擊,有的需要超十萬次對話,且需要訪問模型內(nèi)部,還包含“亂碼”不可解釋。

左提示攻擊,右 token 攻擊

賓夕法尼亞大學(xué)研究團(tuán)隊(duì)提出了一種叫 PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工參與,是一種全自動(dòng)提示攻擊方法。

PAIR 涉及四個(gè)主要步驟:攻擊生成、目標(biāo)響應(yīng)、越獄評分和迭代細(xì)化;主要用到兩個(gè)黑盒模型:攻擊模型、目標(biāo)模型。

具體來說,攻擊模型需要自動(dòng)生成語義級別的提示,來攻破目標(biāo)模型的安全防線,迫使其生成有害內(nèi)容。

核心思路是讓兩個(gè)模型相互對抗、你來我往地交流。

攻擊模型會(huì)自動(dòng)生成一個(gè)候選提示,然后輸入到目標(biāo)模型中,得到目標(biāo)模型的回復(fù)。

如果這次回復(fù)沒有成功攻破目標(biāo)模型,那么攻擊模型會(huì)分析這次失敗的原因,改進(jìn)并生成一個(gè)新的提示,再輸入到目標(biāo)模型中。

這樣持續(xù)交流多輪,攻擊模型每次根據(jù)上一次的結(jié)果來迭代優(yōu)化提示,直到生成一個(gè)成功的提示將目標(biāo)模型攻破。

此外,迭代過程還可以并行,也就是可以同時(shí)運(yùn)行多個(gè)對話,從而產(chǎn)生多個(gè)候選越獄提示,進(jìn)一步提高了效率。

研究人員表示,由于兩個(gè)模型都是黑盒模型,所以攻擊者和目標(biāo)對象可以用各種語言模型自由組合。

PAIR 不需要知道它們內(nèi)部的具體結(jié)構(gòu)和參數(shù),只需要 API 即可,因此適用范圍非常廣。

GPT-4 也沒能逃過

實(shí)驗(yàn)階段,研究人員在有害行為數(shù)據(jù)集 AdvBench 中選出了一個(gè)具有代表性的、包含 50 個(gè)不同類型任務(wù)的測試集,在多種開源和閉源大語言模型上測試了 PAIR 算法。

結(jié)果 PAIR 算法讓 Vicuna 越獄成功率達(dá)到了 100%,平均不到 12 步就能攻破。

閉源模型中,GPT-3.5 和 GPT-4 越獄成功率在 60% 左右,平均用了不到 20 步。在 PaLM-2 上成功率達(dá)到 72%,步數(shù)約為 15 步。

但是 PAIR 在 Llama-2 和 Claude 上的效果較差,研究人員認(rèn)為這可能是因?yàn)檫@些模型在安全防御上做了更為嚴(yán)格的微調(diào)。

他們還比較了不同目標(biāo)模型的可轉(zhuǎn)移性。結(jié)果顯示,PAIR 的 GPT-4 提示在 Vicuna 和 PaLM-2 上轉(zhuǎn)移效果較好。

研究人員認(rèn)為,PAIR 生成的語義攻擊更能暴露語言模型固有的安全缺陷,而現(xiàn)有的安全措施更側(cè)重防御基于 token 的攻擊。

就比如開發(fā)出 GCG 算法的團(tuán)隊(duì),將研究結(jié)果分享給 OpenAI、Anthropic 和 Google 等大模型廠商后,相關(guān)模型修復(fù)了 token 級攻擊漏洞。

大模型針對語義攻擊的安全防御機(jī)制還有待完善。

論文鏈接:https://arxiv.org/ abs / 2310.08419

參考鏈接:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文來自微信公眾號:量子位 (ID:QbitAI),作者:西風(fēng)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:大模型,人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知