自定义评估任务

更新时间:
复制为 MD 格式

当系统预置的评估器(如相关性、安全性、重复性等)无法完全满足您的特定业务场景时,您可以新建自定义评估器。通过自定义评估 Prompt(提示词),驱动大语言模型(LLM)作为裁判,按照您定义的维度和标准对 AI 应用的输出进行量化评分。

前提条件

已创建 AI 应用并接入可观测数据。

操作步骤

步骤一:进入创建评估任务页面

  1. 登录云监控 2.0 控制台,然后选择目标工作空间。

  2. 在左侧导航栏的所有功能中,选择 AI 应用可观测评估

  3. 选择评估,在评估列表页面,单击新建评估任务

步骤二:配置基础信息

基础配置区域,完成以下配置:

参数

说明

任务名称

输入评估任务的名称。

数据来源

选择评估数据的来源类型,当前支持链路

AI应用

从下拉列表中选择要评估的 AI 应用。

时间范围

选择评估数据的时间范围。

步骤三:新建自定义评估器

  1. 选择评估器区域,展开 LLM as Judge 标签页。

  2. 单击 新建自定义评估器 卡片,打开配置窗口。

  3. 在弹出的配置窗口中,完成以下配置:

    参数

    是否必填

    说明

    评估器名称

    为自定义评估器命名,便于在评估任务中识别。例如:专业术语准确性评估

    指标名称

    定义评估结果在报表中显示的指标 ID。建议使用英文字符或下划线,例如:pro_term_accuracy

    评估 Prompt

    编写裁判提示词,这是自定义评估器的核心配置。建议包含评估维度、打分标准和输出要求。

    • 评估维度:明确告诉模型要检查什么。

    • 打分标准:定义评分区间(如 0.0 到 1.0)及每个分值代表的具体含义。

    • 输出要求:要求模型输出 JSON 格式,包含 score(分数)和 explanation(评分理由)。

    配置变量映射

    将应用运行时的变量映射到 Prompt 中的占位符,使评估器能够获取实际业务数据进行判断。

    筛选评估数据

    使用筛选语句定义哪些数据需要进入评估流程。

    • 生效范围:选择评估逻辑作用的数据层级。

      • Span(默认):针对调用链中的单个操作节点进行评估。

      • Trace:针对整条调用链路进行评估。

      • Session:针对整个会话周期进行评估。

    • 筛选语句:根据服务名、属性等标签精准锁定评估对象。例如:serviceName = "your-service-name"

配置变量映射

通过添加映射,将 Span 数据中的字段映射到 Prompt 中的占位符变量。可用的映射字段包括:

字段

说明

attributes.gen_ai.input.messages

输入消息

attributes.gen_ai.output.messages

输出消息

attributes.input.value

输入值

attributes.output.value

输出值

attributes.gen_ai.response.reasoning_content

推理内容

attributes.retrieval.query

检索查询

attributes.retrieval.document

检索文档

attributes.reranker.input_document

重排序输入文档

attributes.reranker.output_document

重排序输出文档

attributes.gen_ai.tool.call.arguments

工具调用参数

attributes.gen_ai.tool.call.result

工具调用结果

attributes.gen_ai.tool.definitions

工具定义

  1. 配置完成后,可在右侧预览测试区域查看筛选后的数据,验证配置是否正确。

  2. 单击 确定,完成自定义评估器的创建。

步骤四:保存并运行评估任务

  1. 自定义评估器创建成功后,将出现在评估器列表中。

  2. 根据需要选择其他预置评估器。

  3. 单击 保存并运行,启动评估任务。

预览测试区域说明

在配置自定义评估器时,右侧的预览测试区域提供以下功能:

功能

说明

数据条数

显示根据筛选条件匹配到的数据总量。

数据导航

通过上一条/下一条按钮浏览不同的数据记录。

当前 span 信息

查看当前选中数据的详细 Span 属性。

运行测试

填写评估 Prompt 后,可运行测试验证评估逻辑。

评估结果

支持以列表或 JSON 格式查看测试结果。