微软推出开源框架 ASSERT，用自然语言定义 AI 行为边界实现自动化评估

6 月 3, 2026 #ASSERT, #微软Build 2026

ITCOW牛新网 6月3日消息，微软在 Build 2026 大会上发布了名为 ASSERT（自适应规范驱动评分）的开源框架。该工具的核心设计理念是将产品需求、政策文件或系统提示等自然语言文本，直接转化为可执行的评估流程。这意味着开发者无需再手动编写繁琐的测试脚本，只需输入对 AI 行为的文字描述，系统即可自动生成测试场景、数据集及评分标准，并针对目标模型或智能体进行运行测试。

微软开源框架 ASSERT

据ITCOW牛新网了解，ASSERT 将整个评估过程系统化为四个关键阶段。首先是概念细化，即将宽泛的行为描述拆解为明确的可接受与不可接受行为分类；其次是场景生成，基于任务类型、角色等维度创建涵盖单轮对话、多轮交互及对抗性探测的分层测试用例；接着是轨迹记录，在目标系统运行这些用例并完整记录工具调用与中间决策；最后是自动评分，对照预设策略对每个轨迹进行裁决，输出是否通过、判断理由及具体引用条款。这种结构化的流程使得 AI 的行为偏差无处遁形。

微软开源框架 ASSERT

为了验证该框架的可靠性，微软团队进行了两项核心研究。覆盖率研究显示，相比传统意图生成的评估集，ASSERT 在检测社会评分偏见、阿谀奉承行为、不安全建议等方面覆盖面更广，能暴露更多独特的失败模式。在人工评审对比中，ASSERT 内置的 LLM 判定器与人工审核的一致率达到了 80%–90%，接近人工标注者之间 90% 的一致率，证明了其在捕捉目标信号方面的有效性。目前，该框架已在 GitHub 开源，并提供了旅行规划智能体等实例供开发者参考。

相关文章

捷克政府批准草案拟2027年9月起全面禁止幼园及小学生用手机

法国议会委员会敲定社媒禁令：15岁以下未成年人全平台禁用，高中校园禁智能手机

微软 Win11 多通道预览版更新：开始菜单大改，文件资源管理器中键秒开新标签

更多资讯

北京将共享电动自行车纳入监管：未满16周岁禁用

2026年 7月 21日

捷克政府批准草案拟2027年9月起全面禁止幼园及小学生用手机

2026年 7月 21日

法国议会委员会敲定社媒禁令：15岁以下未成年人全平台禁用，高中校园禁智能手机

2026年 7月 21日

人工智能头条关注

阿里千问发布 Qwen‑Image‑3.0 图像生成模型：支持 12 国语言原生渲染

2026年 7月 21日