评估器-大模型服务平台百炼(Model Studio)-阿里云帮助中心

基于预置评估器模板创建

阿里云百炼提供多个预置评估器模板，覆盖多种评测场景。模板按以下分类组织：

通用质量：评估回答的基本质量指标
智能体：专门用于评测智能体应用的各项能力
文本匹配：使用精确规则进行文本匹配
文本相似度：计算文本相似度得分
格式校验：验证输出格式规范性

重要

评测集字段规划：不同预置评估器对评测集的字段有不同要求。建议在构建评测集前，先确认要使用的评估器所需的必选参数，提前在评测集中包含对应字段。

例如：评测任务关联"问答相关性"评估器时，必选参数为query和response，因此构建评测集时字段需包含query（对应Prompt字段）与response（对应Completion字段）。

您可以点击预置评估器模板卡片上的查看详情，了解该评估器的必选参数列表，据此规划评测集字段。

配置步骤

点击评估器页面右上角的创建评估器按钮，可选择基于预置评估器模板创建评估器。
点击指定模板卡片上的基于预置创建快速创建评估器，可根据需求调整信息。
然后在试运行验证区域点击开始运行，确保评估逻辑符合预期，点击创建即可保存。在创建评估器页面，选择 Code 类型（通过编写代码函数对比预期输出和实际输出）。在入参设置中添加变量，例如变量名 response、数据类型 String。在执行函数区域编写 Python 评分逻辑，例如校验 JSON 格式有效性：有效返回 score 1.0，无效返回 score 0.0。底部设置评分范围（如 0 到 1）及通过阈值（大于等于该阈值判定为 Pass）。右侧试运行区域可填写测试数据并运行验证评分结果。
点击查看详情，可查看当前评估器模板的参数信息。

自定义创建评估器

点击评估器页面右上角的创建评估器按钮，然后点击自定义创建评估器进入创建页面。

创建LLM评估器

LLM评估器使用大模型对应用输出进行评分，适用于需要语义理解的评测场景。

配置步骤

进入自定义创建评估器页面，填写基本信息：
1. 评估器名称：限制50字符
2. 描述：限制200字符，用于说明评估器用途
创建方式选择 LLM；
选择模型：点击选择模型下拉框，选择用于评估的大模型，评估模型限时免费。
Prompt：在Prompt编辑框中设计评估规则，可点击选择预置评估器导入规则。
配置评分规则：
1. 评分范围：决定评估器的打分尺度。评分范围会作为提示词加入系统提示词中，在编辑系统提示词时，需保持评分范围和系统提示词规则一致。
2. 通过阈值：决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass，< 阈值为Fail。
配置建议：
- 精细评估：使用较大的评分范围（如0-100），可以更细致地区分质量差异
- 快速分类：使用较小的评分范围（如0-1或1-5），便于快速判断合格/不合格
- 阈值设置：通常设置为评分范围的中间值
试运行验证：为每个被引用参数填写测试值进行验证，点击开始运行，确保评估逻辑符合预期，点击创建即可保存。

创建Code评估器

Code评估器使用Python脚本实现评估逻辑，适用于需要精确规则判断的评测场景。

配置步骤

进入自定义创建评估器页面，填写基本信息：
1. 评估器名称：限制50字符
2. 描述：限制200字符，用于说明评估器用途
创建方式选择 Code；
入参设置：
1. 默认参数：系统预置 query 和 response 两个参数，可根据需要修改或删除。
2. 添加参数：可点击添加变量按钮，定义函数输入参数。
执行函数：在代码编辑器中编写Python 3.10函数。
说明
代码要求：
- 函数签名必须包含入参设置中定义的所有参数
- 函数必须返回评分结果（数值类型，在评分范围内）
- 建议包含错误处理逻辑
评分范围：决定评估器的打分尺度。评分范围会作为提示词加入系统提示词中，在编辑系统提示词时，需保持评分范围和系统提示词规则一致。
通过阈值：决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass，< 阈值为Fail。
配置建议：
- 精细评估：使用较大的评分范围（如0-100），可以更细致地区分质量差异
- 快速分类：使用较小的评分范围（如0-1或1-5），便于快速判断合格/不合格
- 阈值设置：通常设置为评分范围的中间值

试运行验证：输入测试数据，数据格式需包含所有入参，点击开始运行，查看评分结果或错误信息，点击创建即可保存评估器内容。

测试数据示例：

{
 "query": "什么是人工智能？",
 "response": "人工智能（AI）是计算机科学的一个分支，致力于创建能够执行通常需要人类智能的任务的系统。"
 }

基于评测任务创建评估器

基于评测任务创建评估器，是通过历史评测任务的标注结果，自动抽象并总结为新的LLM评估器。该方式适用于已有人工标注数据，希望将标注经验固化为自动化评估规则的场景。

配置步骤

进入自定义创建评估器页面，填写基本信息：
1. 评估器名称：限制50字符
2. 描述：限制200字符，用于说明评估器用途
创建方式选择 基于评测任务
选择模型：点击选择模型下拉框，选择用于评估的大模型，评估模型限时免费。
选择评测任务：从下拉列表中选择已完成标注的历史评测任务。系统将基于该任务的标注结果学习评估规则。
配置字段映射：从下拉列表中选择评测集字段或应用输出的字段。系统预置参数：
- query（String）：用户输入的问题或查询，需映射到评测集中的问题字段（例如：Prompt字段）
- response（String）：待评估的应用输出或评测集字段（例如：Completion字段）
- label_score（Number）：人工标注的分数，映射到评测任务中使用的评估器输出分数
注意：
- query映射到评测集的数据字段
- label_score映射到评测任务中的评估器（显示为"评估器名称_版本号自动"）
- 只有已完成评估的评测任务才能用于创建评估器，未完成的评测任务会提示"评测任务中的该评估器状态未完成"
任务描述（可选）：填写评估任务的完整背景信息，包括：
- 系统用途（如"医学问答系统"）
- 目标用户群体
- 使用场景（如"面向医疗专业人员，提供快速准确的临床问答"）
- 该描述将用于自动生成评估标准和最终的评估 Prompt
评估器语言：选择评估器的输出语言，支持中文或英文。
配置评分规则：
- 评分范围：决定评估器的打分尺度
- 通过阈值：决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass，< 阈值为Fail
完成配置后点击右上角创建按钮保存评估器。

说明

基于评测任务创建的评估器不支持试运行功能，需要在评测任务中实际使用后查看效果

必须选择已完成评估的评测任务，未完成的任务无法用于创建评估器
建议选择标注数据量充足且标注质量较高的评测任务，以获得更准确的评估器
label_score字段映射的是评测任务中评估器的输出分数，而非评测集的原始字段

管理评估器

在自定义评估器列表页面，可按类型或名称筛选评估器，也可对指定评估器进行管理。

筛选和搜索：可按 LLM、Code类型筛选评估器，也可在搜索框输入评估器名称（支持模糊匹配），限制50字符。

编辑：编辑页面会显示历史版本列表，选中指定版本后点击覆盖当前草稿可切换查看不同版本的配置。

复制：基于当前最新版本创建副本，自动带入所有配置。

删除：评估器删除后无法恢复，请谨慎操作。如果评估器被评测任务使用，将无法删除。因此删除评估器前，需确认没有评测任务依赖该评估器。

在评测任务中使用评估器

评估器创建后，需要在评测任务中添加并配置参数映射，才能真正发挥作用。

在创建评测任务时，点击添加评估器，选择需要使用的评估器及其版本号。

每个评测任务最多支持添加10个评估器。

选择评估器类型为自定义评估器或预置评估器，然后在字段映射区域将 query、context、reference_response 等字段映射到评测集对应字段，配置完成后单击完成创建。

选择评估器后，需要完成参数映射，告诉系统“评估器的参数从哪里获取数据”。

假设创建了一个LLM评估器，Prompt中引用了3个变量：

query：用户问题
reference：参考答案
response：待评估回答

映射配置：

评估器参数	映射到	说明
query	评测集字段：question	从评测集的question字段获取用户问题
reference	评测集字段：标准答案	从评测集的"标准答案"字段获取参考答案
response	模型输出或评测集字段	从应用的实际输出或评测集的字段获取待评估内容

重要

所有变量都必须完成映射后，才能继续创建评测任务
映射错误会导致评估器无法正常工作，请仔细核对字段名称

查看评估结果

评测任务完成后，在任务详情页查看评估器结果。详情请查阅评测任务。

评测任务列表包含评测状态、任务名称、评测集名称、应用及评分(通过率)、评估器详情自动、标签详情人工、token消耗、评测时间和操作列。评估器详情自动列展示各自动评估器的运行状态（进行中或完成）及通过率。操作列提供详情、终止和删除链接。

常见问题

评估器和评测任务的关系？

评估器：定义“如何评分”的规则；评测任务：应用评估器对具体数据进行评测。一个评估器可以被多个评测任务使用。

如何选择LLM和Code评估器？

对比项	LLM评估器	Code评估器
评估方式	大模型语义理解	代码规则判断
优势	灵活，适应复杂场景	精确，可重复
适用场景	相关性、有害性、幻觉检测	格式校验、数值计算、精确匹配
成本	调用大模型产生Token费用	无额外费用

建议：

需要理解语义和上下文 → 选择LLM评估器
需要精确规则和确定性结果 → 选择Code评估器
复杂评测场景 → 组合使用多个评估器

如何提高LLM评估器的准确性？
1. 选择合适的模型：建议使用32B以上参数量的模型
2. 优化Prompt：明确评分标准和评估步骤；提供清晰的输出格式要求；使用示例说明预期行为
3. 调整评分范围：根据场景选择合适的评分范围
4. 试运行验证：创建前使用多组测试数据验证效果