评估器

更新时间:
复制为 MD 格式

评估器是应用评测的核心组件,用于自动评估应用输出质量。百炼提供丰富的预置评估器模板,同时支持自定义LLM评估器和Code评估器,帮助您构建适合业务场景的评测体系。

评估器页面左上角单击返回旧版,可返回旧版应用评测

基于预置评估器模板创建

阿里云百炼提供多个预置评估器模板,覆盖多种评测场景。模板按以下分类组织:

  • 通用质量:评估回答的基本质量指标

  • 智能体:专门用于评测智能体应用的各项能力

  • 文本匹配:使用精确规则进行文本匹配

  • 文本相似度:计算文本相似度得分

  • 格式校验:验证输出格式规范性

配置步骤

  1. 点击评估器页面右上角的创建评估器按钮,可选择基于预置评估器模板创建评估器。

  2. 点击指定模板卡片上的基于预置创建快速创建评估器,可根据需求调整信息。

  3. 然后在试运行验证区域点击开始运行,确保评估逻辑符合预期,点击创建即可保存。image

  4. 点击查看详情,可查看当前评估器模板的参数信息。

自定义创建评估器

点击评估器页面右上角的创建评估器按钮,然后点击自定义创建评估器进入创建页面。image

创建LLM评估器

LLM评估器使用大模型对应用输出进行评分,适用于需要语义理解的评测场景。

配置步骤

  1. 进入自定义创建评估器页面,填写基本信息:

    1. 评估器名称:限制50字符

    2. 描述:限制200字符,用于说明评估器用途

  2. 创建方式选择 LLM

  3. 选择模型:点击选择模型下拉框,选择用于评估的大模型,评估模型限时免费。

  4. Prompt:在Prompt编辑框中设计评估规则,可点击选择预置评估器导入规则。

  5. 配置评分规则:

    1. 评分范围:决定评估器的打分尺度。评分范围会作为提示词加入系统提示词中,在编辑系统提示词时,需保持评分范围和系统提示词规则一致。

    2. 通过阈值:决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass,< 阈值为Fail。

    配置建议

    • 精细评估:使用较大的评分范围(如0-100),可以更细致地区分质量差异

    • 快速分类:使用较小的评分范围(如0-11-5),便于快速判断合格/不合格

    • 阈值设置:通常设置为评分范围的中间值

  6. 试运行验证:为每个被引用参数填写测试值进行验证,点击开始运行,确保评估逻辑符合预期,点击创建即可保存。

创建Code评估器

Code评估器使用Python脚本实现评估逻辑,适用于需要精确规则判断的评测场景。

配置步骤

  1. 进入自定义创建评估器页面,填写基本信息:

    1. 评估器名称:限制50字符

    2. 描述:限制200字符,用于说明评估器用途

  2. 创建方式选择 Code

  3. 入参设置

    1. 默认参数:系统预置 query 和 response 两个参数,可根据需要修改或删除。

    2. 添加参数:可点击添加变量按钮,定义函数输入参数。

  4. 执行函数:在代码编辑器中编写Python 3.10函数。

    说明

    代码要求

    • 函数签名必须包含入参设置中定义的所有参数

    • 函数必须返回评分结果(数值类型,在评分范围内)

    • 建议包含错误处理逻辑

  5. 评分范围:决定评估器的打分尺度。评分范围会作为提示词加入系统提示词中,在编辑系统提示词时,需保持评分范围和系统提示词规则一致。

  6. 通过阈值:决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass,< 阈值为Fail。

    配置建议

    • 精细评估:使用较大的评分范围(如0-100),可以更细致地区分质量差异

    • 快速分类:使用较小的评分范围(如0-11-5),便于快速判断合格/不合格

    • 阈值设置:通常设置为评分范围的中间值

  7. 试运行验证:输入测试数据,数据格式需包含所有入参,点击开始运行,查看评分结果或错误信息,点击创建即可保存评估器内容。

    测试数据示例:

    {
     "query": "什么是人工智能?",
     "response": "人工智能(AI)是计算机科学的一个分支,致力于创建能够执行通常需要人类智能的任务的系统。"
     }                       

基于评测任务创建评估器

基于评测任务创建评估器,是通过历史评测任务的标注结果,自动抽象并总结为新的LLM评估器。该方式适用于已有人工标注数据,希望将标注经验固化为自动化评估规则的场景。

配置步骤

  1. 进入自定义创建评估器页面,填写基本信息:

    1. 评估器名称:限制50字符

    2. 描述:限制200字符,用于说明评估器用途

  2. 创建方式选择 基于评测任务

  3. 选择模型:点击选择模型下拉框,选择用于评估的大模型,评估模型限时免费。

  4. 选择评测任务:从下拉列表中选择已完成标注的历史评测任务。系统将基于该任务的标注结果学习评估规则。

  5. 配置字段映射:将评估器参数映射到评测集字段。系统预置三个必填参数:

    • query(String):用户输入的问题或查询,需映射到评测集中的问题字段(例如:Prompt字段)

    • response(String):待评估的模型输出,需映射到评测集中的回答字段(例如:Completion字段)

    • label_score(Number):人工标注的分数,映射到评测任务中使用的评估器输出分数

    注意

    • queryresponse映射到评测集的数据字段

    • label_score映射到评测任务中的评估器(显示为"评估器名称_版本号 自动")

    • 只有已完成评估的评测任务才能用于创建评估器,未完成的评测任务会提示"评测任务中的该评估器状态未完成"

  6. 任务描述(可选):填写评估任务的完整背景信息,包括:

    • 系统用途(如"医学问答系统")

    • 目标用户群体

    • 使用场景(如"面向医疗专业人员,提供快速准确的临床问答")

    • 该描述将用于自动生成评估标准和最终的评估 Prompt

  7. 评估器语言:选择评估器的输出语言,支持中文或英文。

  8. 配置评分规则:

    • 评分范围:决定评估器的打分尺度

    • 通过阈值:决定评测结果的Pass/Fail状态。评分 ≥ 阈值为Pass,< 阈值为Fail

  9. 完成配置后点击右上角创建按钮保存评估器。

说明

基于评测任务创建的评估器不支持试运行功能,需要在评测任务中实际使用后查看效果

  • 必须选择已完成评估的评测任务,未完成的任务无法用于创建评估器

  • 建议选择标注数据量充足且标注质量较高的评测任务,以获得更准确的评估器

  • label_score字段映射的是评测任务中评估器的输出分数,而非评测集的原始字段

管理评估器

在自定义评估器列表页面,可按类型或名称筛选评估器,也可对指定评估器进行管理。

筛选和搜索:可按 LLM、Code类型筛选评估器,也可在搜索框输入评估器名称(支持模糊匹配),限制50字符。

image

编辑:编辑页面会显示历史版本列表,选中指定版本后点击覆盖当前草稿可切换查看不同版本的配置。

复制:基于当前最新版本创建副本,自动带入所有配置。

删除:评估器删除后无法恢复,请谨慎操作。如果评估器被评测任务使用,将无法删除。因此删除评估器前,需确认没有评测任务依赖该评估器。

在评测任务中使用评估器

评估器创建后,需要在评测任务中添加并配置参数映射,才能真正发挥作用。

  1. 在创建评测任务时,点击添加评估器,选择需要使用的评估器及其版本号。

    每个评测任务最多支持添加10个评估器。

    image

  2. 选择评估器后,需要完成参数映射,告诉系统“评估器的参数从哪里获取数据”。

    假设创建了一个LLM评估器,Prompt中引用了3个变量:

    • query:用户问题

    • reference:参考答案

    • response:待评估回答

    映射配置

    评估器参数

    映射到

    说明

    query

    评测集字段:question

    从评测集的question字段获取用户问题

    reference

    评测集字段:标准答案

    从评测集的"标准答案"字段获取参考答案

    response

    模型输出

    从应用的实际输出获取待评估内容

    重要
    • 所有变量都必须完成映射后,才能继续创建评测任务

    • 映射错误会导致评估器无法正常工作,请仔细核对字段名称

查看评估结果

评测任务完成后,在任务详情页查看评估器结果。详情请查阅评测任务

image

常见问题

  1. 评估器和评测任务的关系?

    评估器:定义“如何评分”的规则;评测任务:应用评估器对具体数据进行评测。一个评估器可以被多个评测任务使用。

  2. 如何选择LLMCode评估器?

    对比项

    LLM评估器

    Code评估器

    评估方式

    大模型语义理解

    代码规则判断

    优势

    灵活,适应复杂场景

    精确,可重复

    适用场景

    相关性、有害性、幻觉检测

    格式校验、数值计算、精确匹配

    成本

    调用大模型产生Token费用

    无额外费用

    建议

    • 需要理解语义和上下文 → 选择LLM评估器

    • 需要精确规则和确定性结果 → 选择Code评估器

    • 复杂评测场景 → 组合使用多个评估器

  3. 如何提高LLM评估器的准确性?

    1. 选择合适的模型:建议使用32B以上参数量的模型

    2. 优化Prompt:明确评分标准和评估步骤;提供清晰的输出格式要求;使用示例说明预期行为

    3. 调整评分范围:根据场景选择合适的评分范围

    4. 试运行验证:创建前使用多组测试数据验证效果