评估器是应用评测的核心组件,用于自动评估应用输出质量。百炼提供丰富的预置评估器模板,同时支持自定义LLM评估器和Code评估器,帮助您构建适合业务场景的评测体系。
在评估器页面左上角单击返回旧版,可返回旧版应用评测。
基于预置评估器模板创建
阿里云百炼提供多个预置评估器模板,覆盖多种评测场景。模板按以下分类组织:
通用质量:评估回答的基本质量指标
智能体:专门用于评测智能体应用的各项能力
文本匹配:使用精确规则进行文本匹配
文本相似度:计算文本相似度得分
格式校验:验证输出格式规范性
配置步骤
点击评估器页面右上角的创建评估器按钮,可选择基于预置评估器模板创建评估器。
点击指定模板卡片上的基于预置创建快速创建评估器,可根据需求调整信息。
然后在试运行验证区域点击开始运行,确保评估逻辑符合预期,点击创建即可保存。

点击查看详情,可查看当前评估器模板的参数信息。
自定义创建评估器
点击评估器页面右上角的创建评估器按钮,然后点击自定义创建评估器进入创建页面。
创建LLM评估器
LLM评估器使用大模型对应用输出进行评分,适用于需要语义理解的评测场景。
配置步骤
进入自定义创建评估器页面,填写基本信息:
评估器名称:限制50字符
描述:限制200字符,用于说明评估器用途
创建方式选择 LLM;
选择模型:点击选择模型下拉框,选择用于评估的大模型,评估模型限时免费。
Prompt:在Prompt编辑框中设计评估规则,可点击选择预置评估器导入规则。
配置评分规则:
评分范围:决定评估器的打分尺度。评分范围会作为提示词加入系统提示词中,在编辑系统提示词时,需保持评分范围和系统提示词规则一致。
通过阈值:决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass,< 阈值为Fail。
配置建议:
精细评估:使用较大的评分范围(如0-100),可以更细致地区分质量差异
快速分类:使用较小的评分范围(如0-1或1-5),便于快速判断合格/不合格
阈值设置:通常设置为评分范围的中间值
试运行验证:为每个被引用参数填写测试值进行验证,点击开始运行,确保评估逻辑符合预期,点击创建即可保存。
创建Code评估器
Code评估器使用Python脚本实现评估逻辑,适用于需要精确规则判断的评测场景。
配置步骤
进入自定义创建评估器页面,填写基本信息:
评估器名称:限制50字符
描述:限制200字符,用于说明评估器用途
创建方式选择 Code;
入参设置:
默认参数:系统预置 query 和 response 两个参数,可根据需要修改或删除。
添加参数:可点击添加变量按钮,定义函数输入参数。
执行函数:在代码编辑器中编写Python 3.10函数。
说明代码要求:
函数签名必须包含入参设置中定义的所有参数
函数必须返回评分结果(数值类型,在评分范围内)
建议包含错误处理逻辑
评分范围:决定评估器的打分尺度。评分范围会作为提示词加入系统提示词中,在编辑系统提示词时,需保持评分范围和系统提示词规则一致。
通过阈值:决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass,< 阈值为Fail。
配置建议:
精细评估:使用较大的评分范围(如0-100),可以更细致地区分质量差异
快速分类:使用较小的评分范围(如0-1或1-5),便于快速判断合格/不合格
阈值设置:通常设置为评分范围的中间值
试运行验证:输入测试数据,数据格式需包含所有入参,点击开始运行,查看评分结果或错误信息,点击创建即可保存评估器内容。
测试数据示例:
{ "query": "什么是人工智能?", "response": "人工智能(AI)是计算机科学的一个分支,致力于创建能够执行通常需要人类智能的任务的系统。" }
基于评测任务创建评估器
基于评测任务创建评估器,是通过历史评测任务的标注结果,自动抽象并总结为新的LLM评估器。该方式适用于已有人工标注数据,希望将标注经验固化为自动化评估规则的场景。
配置步骤
进入自定义创建评估器页面,填写基本信息:
评估器名称:限制50字符
描述:限制200字符,用于说明评估器用途
创建方式选择 基于评测任务
选择模型:点击选择模型下拉框,选择用于评估的大模型,评估模型限时免费。
选择评测任务:从下拉列表中选择已完成标注的历史评测任务。系统将基于该任务的标注结果学习评估规则。
配置字段映射:将评估器参数映射到评测集字段。系统预置三个必填参数:
query(String):用户输入的问题或查询,需映射到评测集中的问题字段(例如:Prompt字段)
response(String):待评估的模型输出,需映射到评测集中的回答字段(例如:Completion字段)
label_score(Number):人工标注的分数,映射到评测任务中使用的评估器输出分数
注意:
query和response映射到评测集的数据字段
label_score映射到评测任务中的评估器(显示为"评估器名称_版本号 自动")
只有已完成评估的评测任务才能用于创建评估器,未完成的评测任务会提示"评测任务中的该评估器状态未完成"
任务描述(可选):填写评估任务的完整背景信息,包括:
系统用途(如"医学问答系统")
目标用户群体
使用场景(如"面向医疗专业人员,提供快速准确的临床问答")
该描述将用于自动生成评估标准和最终的评估 Prompt
评估器语言:选择评估器的输出语言,支持中文或英文。
配置评分规则:
评分范围:决定评估器的打分尺度
通过阈值:决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass,< 阈值为Fail
完成配置后点击右上角创建按钮保存评估器。
基于评测任务创建的评估器不支持试运行功能,需要在评测任务中实际使用后查看效果
必须选择已完成评估的评测任务,未完成的任务无法用于创建评估器
建议选择标注数据量充足且标注质量较高的评测任务,以获得更准确的评估器
label_score字段映射的是评测任务中评估器的输出分数,而非评测集的原始字段
管理评估器
在自定义评估器列表页面,可按类型或名称筛选评估器,也可对指定评估器进行管理。
筛选和搜索:可按 LLM、Code类型筛选评估器,也可在搜索框输入评估器名称(支持模糊匹配),限制50字符。

编辑:编辑页面会显示历史版本列表,选中指定版本后点击覆盖当前草稿可切换查看不同版本的配置。
复制:基于当前最新版本创建副本,自动带入所有配置。
删除:评估器删除后无法恢复,请谨慎操作。如果评估器被评测任务使用,将无法删除。因此删除评估器前,需确认没有评测任务依赖该评估器。
在评测任务中使用评估器
评估器创建后,需要在评测任务中添加并配置参数映射,才能真正发挥作用。
在创建评测任务时,点击添加评估器,选择需要使用的评估器及其版本号。
每个评测任务最多支持添加10个评估器。

选择评估器后,需要完成参数映射,告诉系统“评估器的参数从哪里获取数据”。
假设创建了一个LLM评估器,Prompt中引用了3个变量:
query:用户问题
reference:参考答案
response:待评估回答
映射配置:
评估器参数
映射到
说明
query
评测集字段:question
从评测集的question字段获取用户问题
reference
评测集字段:标准答案
从评测集的"标准答案"字段获取参考答案
response
模型输出
从应用的实际输出获取待评估内容
重要所有变量都必须完成映射后,才能继续创建评测任务
映射错误会导致评估器无法正常工作,请仔细核对字段名称
查看评估结果
评测任务完成后,在任务详情页查看评估器结果。详情请查阅评测任务。

常见问题
评估器和评测任务的关系?
评估器:定义“如何评分”的规则;评测任务:应用评估器对具体数据进行评测。一个评估器可以被多个评测任务使用。
如何选择LLM和Code评估器?
对比项
LLM评估器
Code评估器
评估方式
大模型语义理解
代码规则判断
优势
灵活,适应复杂场景
精确,可重复
适用场景
相关性、有害性、幻觉检测
格式校验、数值计算、精确匹配
成本
调用大模型产生Token费用
无额外费用
建议:
需要理解语义和上下文 → 选择LLM评估器
需要精确规则和确定性结果 → 选择Code评估器
复杂评测场景 → 组合使用多个评估器
如何提高LLM评估器的准确性?
选择合适的模型:建议使用32B以上参数量的模型
优化Prompt:明确评分标准和评估步骤;提供清晰的输出格式要求;使用示例说明预期行为
调整评分范围:根据场景选择合适的评分范围
试运行验证:创建前使用多组测试数据验证效果