Anthropic 開源 AI 安全分析框架 Petri，利用 Agent 代理人測試主流模型潛在不對齊風(fēng)險

2025/10/14 13:30:04 來源：IT之家作者：漾仔責(zé)編：漾仔

評論：

IT之家 10 月 14 日消息，Anthropic 于 10 月 6 日宣布開源全新的模型安全分析框架 Petri，該框架可調(diào)用自動化稽核 AI Agent，與目標(biāo)模型進(jìn)行多輪互動，以探索并檢測模型在各種高風(fēng)險情境下的潛在弱點。

Anthropic 表示，隨著 AI 模型能力與應(yīng)用范圍持續(xù)擴(kuò)張，相應(yīng)模型的風(fēng)險性也急劇增加，如今人工分析已無法應(yīng)對 AI 模型龐大的行為組合空間。因此，該公司在過去一年內(nèi)開發(fā)出“自動化稽核 AI Agent”Petri。其內(nèi)置 111 種高風(fēng)險場景指令，可用于評估模型的情境感知、策略規(guī)劃及自我防護(hù)能力，并已驗證其有效性。此次開源 Petri，正是將這套系統(tǒng)化工具提供給業(yè)界使用。

根據(jù)介紹，Petri 可通過稽核 AI Angent 與評審模型的多輪交互測試，對目標(biāo)模型在多個維度上進(jìn)行評分與風(fēng)險標(biāo)注，內(nèi)置的測試指令涵蓋“欺騙用戶”、“諂媚”、“配合有害請求”、“自我保護(hù)”、“權(quán)力追求”、“獎勵規(guī)避”等典型高風(fēng)險情境，以檢驗?zāi)Ｐ驮趶?fù)雜互動中的表現(xiàn)。

目前，Anthropic 已利用 Petri 對市面上 14 個前沿大型語言模型進(jìn)行測試，包括 Claude Sonnet 4 / 4.5 與 Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等，測試結(jié)果顯示，各模型在 111 項高風(fēng)險情境下均表現(xiàn)出不同程度的不對齊風(fēng)險行為。

其中，Claude Sonnet 4.5 與 GPT-5 風(fēng)險最低、安全性最佳，在“拒絕配合有害請求”與“避免諂媚”兩項指標(biāo)上表現(xiàn)優(yōu)異；而 Gemini 2.5 Pro、Grok-4 與 Kimi K2 在“欺騙用戶”維度上的得分偏高，顯示其存在較強的主動欺騙傾向。

不過 Anthropic 也指出，Petri 目前仍受限于模擬環(huán)境真實性、AI Agent 能力上限與評審維度主觀性等問題，尚無法成為業(yè)界標(biāo)準(zhǔn)。但即便只是初步量化，Petri 仍可幫助模型開發(fā)者識別安全隱患、改進(jìn)不對齊風(fēng)險，為 AI 安全研究提供可重復(fù)、可擴(kuò)展的評測工具。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Anthropic 開源 AI 安全分析框架 Petri，利用 Agent 代理人測試主流模型潛在不對齊風(fēng)險

相關(guān)文章