当系统预置的评估器(如相关性、安全性、重复性等)无法完全满足您的特定业务场景时,您可以新建自定义评估器。通过自定义评估 Prompt(提示词),驱动大语言模型(LLM)作为裁判,按照您定义的维度和标准对 AI 应用的输出进行量化评分。
前提条件
已创建 AI 应用并接入可观测数据。
操作步骤
步骤一:进入创建评估任务页面
登录云监控 2.0 控制台,然后选择目标工作空间。
在左侧导航栏的所有功能中,选择 AI 应用可观测评估。
选择评估,在评估列表页面,单击新建评估任务。
步骤二:配置基础信息
在基础配置区域,完成以下配置:
参数 | 说明 |
任务名称 | 输入评估任务的名称。 |
数据来源 | 选择评估数据的来源类型,当前支持链路。 |
AI应用 | 从下拉列表中选择要评估的 AI 应用。 |
时间范围 | 选择评估数据的时间范围。 |
步骤三:新建自定义评估器
在选择评估器区域,展开 LLM as Judge 标签页。
单击 新建自定义评估器 卡片,打开配置窗口。
在弹出的配置窗口中,完成以下配置:
参数
是否必填
说明
评估器名称
是
为自定义评估器命名,便于在评估任务中识别。例如:专业术语准确性评估。
指标名称
是
定义评估结果在报表中显示的指标 ID。建议使用英文字符或下划线,例如:pro_term_accuracy。
评估 Prompt
否
编写裁判提示词,这是自定义评估器的核心配置。建议包含评估维度、打分标准和输出要求。
评估维度:明确告诉模型要检查什么。
打分标准:定义评分区间(如 0.0 到 1.0)及每个分值代表的具体含义。
输出要求:要求模型输出 JSON 格式,包含
score(分数)和explanation(评分理由)。
否
将应用运行时的变量映射到 Prompt 中的占位符,使评估器能够获取实际业务数据进行判断。
筛选评估数据
否
使用筛选语句定义哪些数据需要进入评估流程。
生效范围:选择评估逻辑作用的数据层级。
Span(默认):针对调用链中的单个操作节点进行评估。
Trace:针对整条调用链路进行评估。
Session:针对整个会话周期进行评估。
筛选语句:根据服务名、属性等标签精准锁定评估对象。例如:
serviceName = "your-service-name"。
配置变量映射
通过添加映射,将 Span 数据中的字段映射到 Prompt 中的占位符变量。可用的映射字段包括:
字段 | 说明 |
attributes.gen_ai.input.messages | 输入消息 |
attributes.gen_ai.output.messages | 输出消息 |
attributes.input.value | 输入值 |
attributes.output.value | 输出值 |
attributes.gen_ai.response.reasoning_content | 推理内容 |
attributes.retrieval.query | 检索查询 |
attributes.retrieval.document | 检索文档 |
attributes.reranker.input_document | 重排序输入文档 |
attributes.reranker.output_document | 重排序输出文档 |
attributes.gen_ai.tool.call.arguments | 工具调用参数 |
attributes.gen_ai.tool.call.result | 工具调用结果 |
attributes.gen_ai.tool.definitions | 工具定义 |
配置完成后,可在右侧预览测试区域查看筛选后的数据,验证配置是否正确。
单击 确定,完成自定义评估器的创建。
步骤四:保存并运行评估任务
自定义评估器创建成功后,将出现在评估器列表中。
根据需要选择其他预置评估器。
单击 保存并运行,启动评估任务。
预览测试区域说明
在配置自定义评估器时,右侧的预览测试区域提供以下功能:
功能 | 说明 |
数据条数 | 显示根据筛选条件匹配到的数据总量。 |
数据导航 | 通过上一条/下一条按钮浏览不同的数据记录。 |
当前 span 信息 | 查看当前选中数据的详细 Span 属性。 |
运行测试 | 填写评估 Prompt 后,可运行测试验证评估逻辑。 |
评估结果 | 支持以列表或 JSON 格式查看测试结果。 |