IT之家 10 月 14 日消息,Anthropic 于 10 月 6 日宣布開源全新的模型安全分析框架 Petri,該框架可調(diào)用自動化稽核 AI Agent,與目標(biāo)模型進(jìn)行多輪互動,以探索并檢測模型在各種高風(fēng)險情境下的潛在弱點。
Anthropic 表示,隨著 AI 模型能力與應(yīng)用范圍持續(xù)擴(kuò)張,相應(yīng)模型的風(fēng)險性也急劇增加,如今人工分析已無法應(yīng)對 AI 模型龐大的行為組合空間。因此,該公司在過去一年內(nèi)開發(fā)出“自動化稽核 AI Agent”Petri。其內(nèi)置 111 種高風(fēng)險場景指令,可用于評估模型的情境感知、策略規(guī)劃及自我防護(hù)能力,并已驗證其有效性。此次開源 Petri,正是將這套系統(tǒng)化工具提供給業(yè)界使用。
根據(jù)介紹,Petri 可通過稽核 AI Angent 與評審模型的多輪交互測試,對目標(biāo)模型在多個維度上進(jìn)行評分與風(fēng)險標(biāo)注,內(nèi)置的測試指令涵蓋“欺騙用戶”、“諂媚”、“配合有害請求”、“自我保護(hù)”、“權(quán)力追求”、“獎勵規(guī)避”等典型高風(fēng)險情境,以檢驗?zāi)P驮趶?fù)雜互動中的表現(xiàn)。
目前,Anthropic 已利用 Petri 對市面上 14 個前沿大型語言模型進(jìn)行測試,包括 Claude Sonnet 4 / 4.5 與 Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等,測試結(jié)果顯示,各模型在 111 項高風(fēng)險情境下均表現(xiàn)出不同程度的不對齊風(fēng)險行為。
其中,Claude Sonnet 4.5 與 GPT-5 風(fēng)險最低、安全性最佳,在“拒絕配合有害請求”與“避免諂媚”兩項指標(biāo)上表現(xiàn)優(yōu)異;而 Gemini 2.5 Pro、Grok-4 與 Kimi K2 在“欺騙用戶”維度上的得分偏高,顯示其存在較強的主動欺騙傾向。
不過 Anthropic 也指出,Petri 目前仍受限于模擬環(huán)境真實性、AI Agent 能力上限與評審維度主觀性等問題,尚無法成為業(yè)界標(biāo)準(zhǔn)。但即便只是初步量化,Petri 仍可幫助模型開發(fā)者識別安全隱患、改進(jìn)不對齊風(fēng)險,為 AI 安全研究提供可重復(fù)、可擴(kuò)展的評測工具。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。