评估器

更新时间:
复制 MD 格式

在 Agent 研发过程中,传统的评估手段(如正则匹配、关键词检索、计算 Rouge/BLEU 分数)已无法有效度量具备推理能力和工具使用能力的复杂智能体。AgentLoop 的评估器(Evaluator)是一个 AI 原生的质量度量工具,其本质是一个专用的智能评判官(Agent Judge)。

优势

与传统的评估方案相比,Agent Judge 具备真正的智能体属性:

  • 自主推理:能够理解复杂的业务上下文,捕捉语义层面的细微差别。

  • 能力挂载:拥有"手脚"(Skills & MCP),可执行代码验证结果或检索外部事实。

  • 黑盒透明:通过思维链(CoT)轨迹,完整还原裁判的打分逻辑。

  • 结构化输出:产出标准化的数据,直接驱动自动化 A/B 测试与数据集迭代。

预置评估器

AgentLoop 针对 Agent 开发中的核心质量维度,预置了一套经过深度优化的评估器,帮助您快速建立质量防线。

质量与事实维度

评估器名称

说明

Agent 正确性

评估回答是否在客观事实或业务逻辑上正确

Agent 幻觉检测

专项识别模型编造信息的情况,拦截虚假内容

Agent 回答证据支持度

专为 RAG 场景设计,核查回答是否严谨地基于检索到的上下文

任务与行动维度

评估器名称

说明

Agent 任务完成度

聚焦终态,评估用户的原始目标是否被完整闭环解决

Agent 工具选择合理性

审计决策过程,评估工具选择是否最优、参数传递是否精准

效率与成本维度

评估器名称

说明

Agent 执行步骤效率

通过审计推理轨迹(Trace)识别冗余步骤,帮助在保证质量的前提下降低 Token 成本并缩短响应耗时

创建自定义评估器

当预置评估器无法满足特定业务场景时,您可以通过以下步骤构建自定义评估器。

第一步:基础信息

配置项

说明

名称与标识

必填,定义评估器的全局唯一标识,用于 API 调用和系统索引

显示名称(可选)

选填,面向用户展示的友好名称(如“电商合规初审裁判”)。若不填写,系统将默认显示评估器名称。

描述信息

详细说明该评估器的用途、适用场景及评判偏好。一份详尽的描述有助于团队成员复用该资产。

标签

输入标签名后按回车添加。通过标签可以按维度(如“安全性”、“RAG”、“财务部”)对评估器进行分类管理,实现秒级检索。

第二步:配置 Prompt 与能力

这是评估器的核心配置区。

编辑 Prompt

评估 Prompt 本质上是您为 Agent Judge 制定的“标准作业程序(SOP)”。为了确保裁判打分的客观性与稳定性,一个专业的评估指令一般包含以下五个核心要素:

要素

说明

备注

角色

明确告知裁判其专业身份及评估的核心目标。

示例:

“你是一位深耕金融行业的风控合规专家。你的任务是根据给定的合规准则,对客服 Agent 的回答进行风险审计。”

评估维度

说明评估指标具体由哪些子项构成,防止裁判仅凭“感觉”打分。

示例:

  • 事实一致性:回答是否违背了知识库中的原始数据?

  • 语气合规性:是否使用了法律禁止的绝对化用语(如“稳赚不赔”)?

评分标准

明确评分制式(如 5 分制、3 分制、二进制 Pass/Fail、扣分制或加分制)及其对应的业务含义。

示例:采用 5 分制。

  • 5 分:回答完美,逻辑严密,无任何瑕疵。

  • 3 分:回答基本正确,但存在次要信息遗漏。

  • 1 分:回答存在严重的事实性错误或违反合规底线。

评分清单

这是裁判的执行手册,规定了不同分值应如何与评估维度相结合。

示例:

  • 若发现敏感词扣 2 分;

  • 若逻辑不连贯扣 1 分;

  • 若完全闭环解决问题且具备人文关怀,可获得满分。

上下文变量注入

通过 {{变量名}} 语法引用系统内置数据,将裁判置于真实的“庭审现场”。

系统支持以下变量自动替换

  • {{input}}:用户的原始提问。

  • {{output}}:被测 Agent 的回答内容。

  • {{expected_output}}:参考标准答案。

  • {{agent_trajectory}}:Agent 内部最小执行链路。

  • {{tool_context}}:工具调用的参数、返回结果及上下文环境。

  • {{rag_context}}: RAG检索到的原始片段。

说明:您可以选择一键引用内置模板,并根据业务场景微调评分等级与评判标准。

如果您想创建一个“RAG 忠实度评估器”,您的 Prompt 结构可以如下:

角色
你是一位严谨的科研论文校对员。

评估维度
请对比 {{output}} 与 {{rag_context}},检查回答是否完全忠实于给定的参考片段。

评分标准 (1-3分制)
3分:回答的所有观点均在参考片段中有据可查。
2分:回答的大部分内容正确,但包含个别未在片段中提及的“幻觉”信息。
1分:回答严重脱离事实,或直接违背参考片段。

评分清单
首先提取 {{output}} 中的核心断言。
逐一在 {{rag_context}} 中寻找证据。
根据证据覆盖度打分,并在 reason 字段中给出具体的冲突证据。

能力挂载

  • Skills(技能扩展):通过上传 SKILL.md 赋予评估器执行代码、多步骤验证等能力,使其具备"动手验证"的能力。

第三步:定义输出协议(输出定义)

输出字段

类型

说明

Score(评分)

必选

结构化数值评分,驱动分析看板与对比报告

Reason(理由)

必选

定性反馈,阐述打分依据并指导后续优化方向

CoT(思考轨迹)

可选

记录裁判打分时的推理过程,是排查评估器误判的关键工具

模块入口

  1. 访问路径:登录 AgentLoop 控制台,在左侧全局导航栏中找到并点击「评估」模块。

  2. 切换页签:进入评估模块后,在页面顶部找到页签导航栏。点击「评估器」即可进入评估器资产管理中心。

  3. 功能布局

    • 左侧列表/快捷筛选:支持按类型(预置/自定义)、标签快速检索裁判。

    • 顶部操作区:支持搜索评估器名称,或点击「创建评估器」开启自定义构建流程。

    • 主工作区:以列表形式展示所有评估器资产,支持查看详情、编辑配置、删除或克隆。