研究：用詩歌就能讓 AI 說違禁內(nèi)容，成功率達 62%

2025/12/1 7:51:55 來源：IT之家作者：遠洋責編：遠洋

評論：

感謝IT之家網(wǎng)友補藥吖的線索投遞！

IT之家 12 月 1 日消息，事實證明，只需一點創(chuàng)意，便足以繞過人工智能聊天機器人的安全防護機制。在伊卡洛實驗室（Icaro Lab）最新發(fā)表的一項題為《對抗性詩歌：一種通用的單輪大語言模型越獄機制》的研究中，研究人員通過將提示詞以詩歌形式表達，成功繞過了多種大語言模型（LLM）的安全限制。

該研究指出，“詩歌形式可作為一種通用型越獄操作符”，實驗結(jié)果顯示，整體上有 62% 的成功率誘使模型生成被禁止的內(nèi)容，包括涉及制造核武器、兒童性虐待材料以及自殺或自殘等相關信息。

IT之家注意到，研究測試了多款主流大語言模型，包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多個模型。研究人員進一步列出了各模型的具體成功率：Google Gemini、DeepSeek 和 MistralAI 在測試中始終會提供違規(guī)回答，而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 則最不容易突破其自身設定的限制。

盡管該研究并未公開研究人員所使用的具體“越獄詩歌”原文，但研究團隊向 Wired 雜志表示，這些詩句“過于危險，不宜向公眾披露”。不過，論文中確實包含了一個經(jīng)過弱化處理的示例，用以說明繞過 AI 聊天機器人安全機制的簡易程度。研究人員強調(diào)：“這可能比人們想象的要容易得多，而這正是我們保持謹慎的原因所在?！?/p>

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：AI，人工智能

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

研究：用詩歌就能讓 AI 說違禁內(nèi)容，成功率達 62%

相關文章