评估器
在 Agent 研发过程中,传统的评估手段(如正则匹配、关键词检索、计算 Rouge/BLEU 分数)已无法有效度量具备推理能力和工具使用能力的复杂智能体。AgentLoop 的评估器(Evaluator)是一个 AI 原生的质量度量工具,其本质是一个专用的智能评判官(Agent Judge)。
优势
与传统的评估方案相比,Agent Judge 具备真正的智能体属性:
自主推理:能够理解复杂的业务上下文,捕捉语义层面的细微差别。
能力挂载:拥有"手脚"(Skills & MCP),可执行代码验证结果或检索外部事实。
黑盒透明:通过思维链(CoT)轨迹,完整还原裁判的打分逻辑。
结构化输出:产出标准化的数据,直接驱动自动化 A/B 测试与数据集迭代。
预置评估器
AgentLoop 针对 Agent 开发中的核心质量维度,预置了一套经过深度优化的评估器,帮助您快速建立质量防线。
质量与事实维度
评估器名称 | 说明 |
Agent 正确性 | 评估回答是否在客观事实或业务逻辑上正确 |
Agent 幻觉检测 | 专项识别模型编造信息的情况,拦截虚假内容 |
Agent 回答证据支持度 | 专为 RAG 场景设计,核查回答是否严谨地基于检索到的上下文 |
任务与行动维度
评估器名称 | 说明 |
Agent 任务完成度 | 聚焦终态,评估用户的原始目标是否被完整闭环解决 |
Agent 工具选择合理性 | 审计决策过程,评估工具选择是否最优、参数传递是否精准 |
效率与成本维度
评估器名称 | 说明 |
Agent 执行步骤效率 | 通过审计推理轨迹(Trace)识别冗余步骤,帮助在保证质量的前提下降低 Token 成本并缩短响应耗时 |
创建自定义评估器
当预置评估器无法满足特定业务场景时,您可以通过以下步骤构建自定义评估器。
第一步:基础信息
配置项 | 说明 |
名称与标识 | 必填,定义评估器的全局唯一标识,用于 API 调用和系统索引 |
显示名称(可选) | 选填,面向用户展示的友好名称(如“电商合规初审裁判”)。若不填写,系统将默认显示评估器名称。 |
描述信息 | 详细说明该评估器的用途、适用场景及评判偏好。一份详尽的描述有助于团队成员复用该资产。 |
标签 | 输入标签名后按回车添加。通过标签可以按维度(如“安全性”、“RAG”、“财务部”)对评估器进行分类管理,实现秒级检索。 |
第二步:配置 Prompt 与能力
这是评估器的核心配置区。
编辑 Prompt
评估 Prompt 本质上是您为 Agent Judge 制定的“标准作业程序(SOP)”。为了确保裁判打分的客观性与稳定性,一个专业的评估指令一般包含以下五个核心要素:
要素 | 说明 | 备注 |
角色 | 明确告知裁判其专业身份及评估的核心目标。 | 示例: “你是一位深耕金融行业的风控合规专家。你的任务是根据给定的合规准则,对客服 Agent 的回答进行风险审计。” |
评估维度 | 说明评估指标具体由哪些子项构成,防止裁判仅凭“感觉”打分。 | 示例:
|
评分标准 | 明确评分制式(如 5 分制、3 分制、二进制 Pass/Fail、扣分制或加分制)及其对应的业务含义。 | 示例:采用 5 分制。
|
评分清单 | 这是裁判的执行手册,规定了不同分值应如何与评估维度相结合。 | 示例:
|
上下文变量注入 | 通过 {{变量名}} 语法引用系统内置数据,将裁判置于真实的“庭审现场”。 | 系统支持以下变量自动替换
|
说明:您可以选择一键引用内置模板,并根据业务场景微调评分等级与评判标准。
如果您想创建一个“RAG 忠实度评估器”,您的 Prompt 结构可以如下:
角色
你是一位严谨的科研论文校对员。
评估维度
请对比 {{output}} 与 {{rag_context}},检查回答是否完全忠实于给定的参考片段。
评分标准 (1-3分制)
3分:回答的所有观点均在参考片段中有据可查。
2分:回答的大部分内容正确,但包含个别未在片段中提及的“幻觉”信息。
1分:回答严重脱离事实,或直接违背参考片段。
评分清单
首先提取 {{output}} 中的核心断言。
逐一在 {{rag_context}} 中寻找证据。
根据证据覆盖度打分,并在 reason 字段中给出具体的冲突证据。能力挂载
Skills(技能扩展):通过上传 SKILL.md 赋予评估器执行代码、多步骤验证等能力,使其具备"动手验证"的能力。
第三步:定义输出协议(输出定义)
输出字段 | 类型 | 说明 |
Score(评分) | 必选 | 结构化数值评分,驱动分析看板与对比报告 |
Reason(理由) | 必选 | 定性反馈,阐述打分依据并指导后续优化方向 |
CoT(思考轨迹) | 可选 | 记录裁判打分时的推理过程,是排查评估器误判的关键工具 |
模块入口
访问路径:登录 AgentLoop 控制台,在左侧全局导航栏中找到并点击「评估」模块。
切换页签:进入评估模块后,在页面顶部找到页签导航栏。点击「评估器」即可进入评估器资产管理中心。
功能布局:
左侧列表/快捷筛选:支持按类型(预置/自定义)、标签快速检索裁判。
顶部操作区:支持搜索评估器名称,或点击「创建评估器」开启自定义构建流程。
主工作区:以列表形式展示所有评估器资产,支持查看详情、编辑配置、删除或克隆。