微軟發(fā)布 ASSERT 開源框架：讓開發(fā)者更高效地評測 AI 智能體和應(yīng)用行為

2026/6/3 3:10:43 來源：IT之家作者：問舟責(zé)編：問舟

評論：

IT之家 6 月 3 日消息，微軟今日宣布推出開源框架 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自適應(yīng)規(guī)范驅(qū)動(dòng)評分），旨在將自然語言寫成的行為規(guī)范直接轉(zhuǎn)換為可執(zhí)行的評估流程。

據(jù)介紹，ASSERT 能夠從產(chǎn)品需求、政策文件或系統(tǒng)提示等文本出發(fā)，自動(dòng)生成測試場景、數(shù)據(jù)集、評估指標(biāo)和計(jì)分卡，并針對目標(biāo)模型、應(yīng)用或智能體運(yùn)行測試。

該框架建立在這樣一個(gè)前提之上：行為規(guī)范本身應(yīng)當(dāng)成為評估的核心輸入，而非僅僅作為背景參考。ASSERT 將這一過程系統(tǒng)化為四個(gè)階段：

首先，將寬泛的行為描述細(xì)化為明確的概念規(guī)范，進(jìn)而轉(zhuǎn)換為可編輯的許可與不許可行為分類體系；
隨后，基于開發(fā)者指定的維度（如任務(wù)類型、角色、工具可用性等）生成分層測試用例，涵蓋單輪提示、多輪場景以及善意交互和對抗性探測；
接著，對目標(biāo)系統(tǒng)運(yùn)行這些用例并記錄完整軌跡，包括工具調(diào)用、中間決策等；
最后，對照行為分類和策略立場對每個(gè)軌跡進(jìn)行評分，輸出通過與否標(biāo)簽、判斷理由、策略引用以及作出該裁決的具體回合或動(dòng)作。

微軟發(fā)布 ASSERT 開源框架：讓開發(fā)者更高效地評測 AI 智能體和應(yīng)用行為

為了驗(yàn)證 ASSERT 的有效性，微軟團(tuán)隊(duì)開展了兩項(xiàng)覆蓋率研究和人工評審對比。

第一項(xiàng)覆蓋率研究顯示，相比直接從意圖生成的評估集，ASSERT 在多項(xiàng)行為（IT之家注：如社會(huì)評分、拍馬屁行為、任務(wù)遵循、工具使用規(guī)范、不安全健康建議）上生成的測試集覆蓋更廣，暴露出更多值得檢查的案例，區(qū)分強(qiáng)弱系統(tǒng)的能力更強(qiáng)，同時(shí)顯現(xiàn)出更多獨(dú)特的失敗模式。

第二項(xiàng)驗(yàn)證通過對比 LLM 判定器與人工審核，顯示兩者一致率通常在 80%–90%，而人工標(biāo)注者之間一致率約為 90%，表明 LLM 判定器能夠捕捉大部分目標(biāo)信號，但在策略細(xì)微差別或高度專業(yè)領(lǐng)域仍需謹(jǐn)慎。

微軟發(fā)布 ASSERT 開源框架：讓開發(fā)者更高效地評測 AI 智能體和應(yīng)用行為

微軟指出，ASSERT 最適用于行為定義明確、約束清晰的場景。豐富的工具、政策和邊界描述有助于生成更精確的測試用例。開發(fā)者不應(yīng)將匯總評分視為最終結(jié)論，更多情況下，收集的失敗案例和操作軌跡對改進(jìn)系統(tǒng)和評估方法更有價(jià)值。ASSERT 并不能替代人工判斷、遙測數(shù)據(jù)或領(lǐng)域?qū)＜以u審，而應(yīng)將其作為使評估更快速、更明確和更易于迭代的一種方式。

參考資料：

代碼庫：https://github.com/responsibleai/ASSERT
項(xiàng)目網(wǎng)站：aka.ms/ASSERT
實(shí)例：travel-planning agent

微軟 Build 2026 開發(fā)者大會(huì)專題

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟發(fā)布 ASSERT 開源框架：讓開發(fā)者更高效地評測 AI 智能體和應(yīng)用行為

相關(guān)文章