新建LLMasJudge自定义评估器评估AI应用-云监控-阿里云

文档备案控制台

输入文档关键字查找

当系统预置的评估器（如相关性、安全性、重复性等）无法完全满足您的特定业务场景时，您可以新建自定义评估器。通过自定义评估 Prompt（提示词），驱动大语言模型（LLM）作为裁判，按照您定义的维度和标准对 AI 应用的输出进行量化评分。

前提条件

已创建 AI 应用并接入可观测数据。

操作步骤

步骤一：进入创建评估任务页面

登录云监控 2.0 控制台，然后选择目标工作空间。
在左侧导航栏的所有功能中，选择 AI 应用可观测评估。
选择评估，在评估列表页面，单击新建评估任务。

步骤二：配置基础信息

在基础配置区域，完成以下配置：

参数	说明
任务名称	输入评估任务的名称。
数据来源	选择评估数据的来源类型，当前支持链路。
AI应用	从下拉列表中选择要评估的 AI 应用。
时间范围	选择评估数据的时间范围。

步骤三：新建自定义评估器

在选择评估器区域，展开 LLM as Judge 标签页。
单击 新建自定义评估器 卡片，打开配置窗口。

在弹出的配置窗口中，完成以下配置：

参数	是否必填	说明
评估器名称	是	为自定义评估器命名，便于在评估任务中识别。例如：专业术语准确性评估。
指标名称	是	定义评估结果在报表中显示的指标 ID。建议使用英文字符或下划线，例如：pro_term_accuracy。
评估 Prompt	否	编写裁判提示词，这是自定义评估器的核心配置。建议包含评估维度、打分标准和输出要求。评估维度：明确告诉模型要检查什么。打分标准：定义评分区间（如 0.0 到 1.0）及每个分值代表的具体含义。输出要求：要求模型输出 JSON 格式，包含 `score`（分数）和 `explanation`（评分理由）。
配置变量映射	否	将应用运行时的变量映射到 Prompt 中的占位符，使评估器能够获取实际业务数据进行判断。
筛选评估数据	否	使用筛选语句定义哪些数据需要进入评估流程。生效范围：选择评估逻辑作用的数据层级。 Span（默认）：针对调用链中的单个操作节点进行评估。 Trace：针对整条调用链路进行评估。 Session：针对整个会话周期进行评估。筛选语句：根据服务名、属性等标签精准锁定评估对象。例如：`serviceName = "your-service-name"`。

配置变量映射

通过添加映射，将 Span 数据中的字段映射到 Prompt 中的占位符变量。可用的映射字段包括：

字段	说明
attributes.gen_ai.input.messages	输入消息
attributes.gen_ai.output.messages	输出消息
attributes.input.value	输入值
attributes.output.value	输出值
attributes.gen_ai.response.reasoning_content	推理内容
attributes.retrieval.query	检索查询
attributes.retrieval.document	检索文档
attributes.reranker.input_document	重排序输入文档
attributes.reranker.output_document	重排序输出文档
attributes.gen_ai.tool.call.arguments	工具调用参数
attributes.gen_ai.tool.call.result	工具调用结果
attributes.gen_ai.tool.definitions	工具定义

配置完成后，可在右侧预览测试区域查看筛选后的数据，验证配置是否正确。
单击确定，完成自定义评估器的创建。

步骤四：保存并运行评估任务

自定义评估器创建成功后，将出现在评估器列表中。
根据需要选择其他预置评估器。
单击 保存并运行，启动评估任务。

预览测试区域说明

在配置自定义评估器时，右侧的预览测试区域提供以下功能：

功能	说明
数据条数	显示根据筛选条件匹配到的数据总量。
数据导航	通过上一条/下一条按钮浏览不同的数据记录。
当前 span 信息	查看当前选中数据的详细 Span 属性。
运行测试	填写评估 Prompt 后，可运行测试验证评估逻辑。
评估结果	支持以列表或 JSON 格式查看测试结果。

上一篇：查看评估结果下一篇：评估模板

该文章对您有帮助吗？