Meta 開源 LlamaFirewall 防護工具，助力構建安全 AI 智能體

2025/5/9 14:00:21 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 5 月 9 日消息，Meta AI 公司最新推出 LlamaFirewall，應對 AI 智能體不斷演變的威脅格局，為生產環(huán)境中的 AI 智能體提供系統(tǒng)級安全保護。

隨著大型語言模型（LLMs）嵌入 AI 智能體并被廣泛應用于高權限場景，安全隱患隨之增加。這些智能體可以讀取郵件、生成代碼、調用 API，一旦被惡意利用，后果不堪設想。

傳統(tǒng)的安全機制，如聊天機器人內容審核或硬編碼模型限制，已無法滿足具備廣泛能力的 AI 智能體需求。Meta AI 針對提示注入攻擊、智能體行為與用戶目標不一致、以及不安全的代碼生成三大核心挑戰(zhàn)，開發(fā)了 LlamaFirewall。

IT之家援引博文介紹，LlamaFirewall 采用分層框架，包含三個專門的防護模塊：

PromptGuard 2 是一個基于 BERT 架構的分類器，能實時檢測越獄行為和提示注入，支持多語言輸入，其 86M 參數模型性能強勁，22M 輕量版本則適合低延遲部署。
AlignmentCheck 是一種實驗性審計工具，通過分析智能體內部推理軌跡，確保行為與用戶目標一致，特別擅長檢測間接提示注入。
CodeShield 則是一個靜態(tài)分析引擎，檢查 LLM 生成代碼中的不安全模式，支持多種編程語言，能在代碼提交或執(zhí)行前捕獲 SQL 注入等常見漏洞。

Meta 在 AgentDojo 基準測試中評估了 LlamaFirewall，模擬了 97 個任務領域的提示注入攻擊。

結果顯示，PromptGuard 2（86M）將攻擊成功率（ASR）從 17.6% 降至 7.5%，任務實用性損失極小；AlignmentCheck 進一步將 ASR 降至 2.9%；整體系統(tǒng)將 ASR 降低 90% 至 1.75%，實用性略降至 42.7%。CodeShield 在不安全代碼數據集上也表現出色，精準度達 96%，召回率（recall） 79%，響應時間適合生產環(huán)境實時使用。

Meta 開源 LlamaFirewall 防護工具，助力構建安全 AI 智能體

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：Meta，AI，智能體

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Meta 開源 LlamaFirewall 防護工具，助力構建安全 AI 智能體

相關文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Meta 開源 LlamaFirewall 防護工具，助力構建安全 AI 智能體

相關文章

Meta 開源 LlamaFirewall 防護工具，助力構建安全 AI 智能體