IT之家 6 月 3 日消息,微軟今日宣布推出開源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自適應(yīng)規(guī)范驅(qū)動(dòng)評分),旨在將自然語言寫成的行為規(guī)范直接轉(zhuǎn)換為可執(zhí)行的評估流程。
據(jù)介紹,ASSERT 能夠從產(chǎn)品需求、政策文件或系統(tǒng)提示等文本出發(fā),自動(dòng)生成測試場景、數(shù)據(jù)集、評估指標(biāo)和計(jì)分卡,并針對目標(biāo)模型、應(yīng)用或智能體運(yùn)行測試。

該框架建立在這樣一個(gè)前提之上:行為規(guī)范本身應(yīng)當(dāng)成為評估的核心輸入,而非僅僅作為背景參考。ASSERT 將這一過程系統(tǒng)化為四個(gè)階段:
首先,將寬泛的行為描述細(xì)化為明確的概念規(guī)范,進(jìn)而轉(zhuǎn)換為可編輯的許可與不許可行為分類體系;
隨后,基于開發(fā)者指定的維度(如任務(wù)類型、角色、工具可用性等)生成分層測試用例,涵蓋單輪提示、多輪場景以及善意交互和對抗性探測;
接著,對目標(biāo)系統(tǒng)運(yùn)行這些用例并記錄完整軌跡,包括工具調(diào)用、中間決策等;
最后,對照行為分類和策略立場對每個(gè)軌跡進(jìn)行評分,輸出通過與否標(biāo)簽、判斷理由、策略引用以及作出該裁決的具體回合或動(dòng)作。

為了驗(yàn)證 ASSERT 的有效性,微軟團(tuán)隊(duì)開展了兩項(xiàng)覆蓋率研究和人工評審對比。
第一項(xiàng)覆蓋率研究顯示,相比直接從意圖生成的評估集,ASSERT 在多項(xiàng)行為(IT之家注:如社會(huì)評分、拍馬屁行為、任務(wù)遵循、工具使用規(guī)范、不安全健康建議)上生成的測試集覆蓋更廣,暴露出更多值得檢查的案例,區(qū)分強(qiáng)弱系統(tǒng)的能力更強(qiáng),同時(shí)顯現(xiàn)出更多獨(dú)特的失敗模式。
第二項(xiàng)驗(yàn)證通過對比 LLM 判定器與人工審核,顯示兩者一致率通常在 80%–90%,而人工標(biāo)注者之間一致率約為 90%,表明 LLM 判定器能夠捕捉大部分目標(biāo)信號,但在策略細(xì)微差別或高度專業(yè)領(lǐng)域仍需謹(jǐn)慎。

微軟指出,ASSERT 最適用于行為定義明確、約束清晰的場景。豐富的工具、政策和邊界描述有助于生成更精確的測試用例。開發(fā)者不應(yīng)將匯總評分視為最終結(jié)論,更多情況下,收集的失敗案例和操作軌跡對改進(jìn)系統(tǒng)和評估方法更有價(jià)值。ASSERT 并不能替代人工判斷、遙測數(shù)據(jù)或領(lǐng)域?qū)<以u審,而應(yīng)將其作為使評估更快速、更明確和更易于迭代的一種方式。
參考資料:
項(xiàng)目網(wǎng)站:aka.ms/ASSERT
實(shí)例:travel-planning agent
微軟 Build 2026 開發(fā)者大會(huì)專題
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。