自动评测

人工评测智能体应用需要手动构建评测集,耗时费力,同时评测结果依赖领域专家的判断,专业但过于主观,难以量化。阿里云百炼提供了自动评测功能,利用大模型基于指定应用知识库来自动创建评测集,评估智能体的回答并产出评测报告与调优建议。自动评测支持单应用评测或多应用横向评测。

效果展示

单应用评测

  • 功能:支持查看应用总体得分及 BadCase 分析。

  • 选择建议:聚焦单个智能体或单个版本时优先选择,用于快速定位问题及优化智能体应用

image

多应用评测

  • 功能:支持查看各应用总体得分及 BadCase,支持查看各应用的性能差异对比。

  • 选择建议:用于多智能体选型或不同版本横向对比,为应用选型提供决策依据。

    image

前提条件

  1. 自动评测仅面向已发布智能体应用,应用发布请参考应用分享

  2. 自动评测将基于知识库自动生成评测集,请确保应用已配置知识库

  3. 智能体应用评测依赖于智能体推理的过程数据,请确保已开通应用观测功能,并将需要评测的应用添加到观测列表中,详情可参考应用观测

自动评测

自动评测主要包括创建评测任务、生成评测集、设置评测规则、发起评测和分析评测结果。

创建评测任务

  1. 进入阿里云百炼控制台自动评测界面,点击创建评测任务

子账号(RAM用户)需获取管理员应用评测-操作页面权限,才能够使用自动评测功能。

image

  1. 选择评测应用。

    1. 选择智能体界面左侧选择用于评测的智能体应用,在右侧勾选对应的版本。

      多应用横向评测时,最多同时支持8个不同智能体应用的横向评测,同一智能体的不同版本被视为不同应用。

      自动评测仅面向已发布智能体应用

      image

    2. 在下方的选择知识库范围界面勾选用于评测的知识库。在下方可以看到已选知识库的数量。

      多应用横向评测时,请确保所选智能体存在公共知识库。

      image

    3. 确认选择无误后,点击下一步

生成评测集

评测集支持生成评测集选择已有评测集两种方式,下面主要介绍生成评测集

生成评测集:基于上一步选中的知识库,由大模型自动生成评测集。
选择已有评测集:复用已有评测集,需确保评测集题目基于待评测应用所用的知识库构建。
  1. 输入评测集名称

  2. 选择任务类型。任务类型是指大模型基于知识库生成评测集时所生成问题的类型,默认存在四种类型:事实型、分析型、比较型、教程型。也可以点击增加任务类型以自定义新的任务类型。至少需要选择2种任务类型,最多不超过8种。

    image

  3. 选择模型。该模型用于根据知识库内容生成评测任务。为保障生成评测集的质量,目前仅支持使用qwen-maxqwen-plus两款通义千问系列主干模型。模型能力和计费规则请参考模型列表与价格

    image

  4. 模型选择完毕后,下方将显示预估平均消耗预估最大消耗。知识库数量、知识库内容量、任务类型数量越大,消耗的 Token 数量越大。评测完成后,可以在自动评测页面查看实际 Token 消耗明细。

    重要
    • 预估平均消耗参考值,最终用量请以实际账单为准。

    • 预估最大消耗理论上限,基于模型最大输入输出 Token 长度计算,实际消耗不会超过这个值。

  5. 点击生成评测集,在弹出页面确认配置信息。确认无误后,点击继续生成

    image

  6. 等待评测集生成。可以返回自动评测界面查看评测集生成进度。

    image

    image

  7. 查看评测集。

    1. 评测集生成后,可以在评测集页面查看。点击查看

      image

    2. 如果对生成的评测集不满意,可以在评测集的详情页面中编辑或删除评测集中已有的数据,也可以导入新的数据。修改完成后,点击页面右上角的发布,即可将评测集发布为新的版本。可以在左侧查看所有历史版本的评测集。

      image

    3. 返回自动评测页面,点击继续配置

      image

    4. 选择评测集。

      点击编辑评测集可跳转评测集编辑页面。

      image

    5. 确认评测集内容无误后,点击下一步

设置评测规则

  1. 选择分类采样数。可以从完整的评测集中随机采样若干条数据用于最终的评测。

    image

  2. 选择模型。该模型用于根据评测数据对智能体应用评测与评分。为保障评测结果的准确性,目前仅支持qwen-maxqwen-plus两款通义千问系列主干模型,请根据实际需要选择合适的模型。模型能力和计费规则请参考模型列表与价格

    image

  3. 模型选择完毕后,下方将显示预估平均消耗预估最大消耗。采样的评测数据越多,消耗的 Token 数量越大。评测完成后,可在自动评测页面查看实际 Token 消耗明细。

    重要
    • 预估平均消耗参考值,最终用量请以实际账单为准。

    • 预估最大消耗理论上限,基于模型最大输入输出 Token 长度计算,实际消耗不会超过这个值。

试运行(可选)

在正式评测之前,可以选择试运行以预览评测效果。

  1. 点击试运行

  2. 试运行应用选择下拉框中选择应用,试运行仅支持单个应用的评测结果预览。试运行会为每一个任务类型随机采样一条数据,可以点击重新采样更换采样数据。

    image

  3. 试运行预计消耗 Token 数是参考值,最终用量请以实际账单为准。

  4. 点击试运行查看结果。大模型会对评测结果进行评分(满分为5分),分数≧4分表示该评测结果正确,分数<4分表示结果错误。

    image

正式评测

  1. 点击发起评测任务,确认评测任务无误后,点击开始评测

    image

  2. 发起评测后,可以在自动评测页面查看评测进度。

  3. 评测完成后,可以在自动评测页面分别查看评测集生成、试运行、正式运行的 Token 消耗。点击评测报告

分析评测结果

在评测报告中可以查看评测结果数据。点击下载评测结果获取详细评测结果。

自动评测可能失败,正确率以实际评测计数为基数计算占比。
  1. 单应用评测结果分析。

    评测得分会展示应用在每一类评测任务上的得分,大模型打分≧4分(满分为5分)表示该评测结果正确,大模型打分<4分表示该评测结果错误。

    image

    BadCase 列表会展示 Top-5 的 错误评测结果,点击查看全部数据可以查看全部错误评测结果。

    image

    根据错误评测数据,提供相应的调优建议。

    image

    RAG 智能体评价部分展示了应用评测的详细得分情况。

    image

  2. 多应用评测结果分析。

    评测得分展示了各应用在不同评测任务上的得分对比。

    image

    当参与评测的应用数量≥5个时,可以筛选部分应用,聚焦对比。点击应用名即可选中或取消选中。

    image

    可以查看指定应用的 BadCase 分析、调优建议及详细得分情况。

    image

追加评测(可选)

在评测完成后,可以通过追加评测来增加参与评测的应用。

追加评测只支持增加应用数量,不支持更换或修改评测集。参与评测的智能体总数不超过8个。
  1. 自动评测界面,选择需要追加评测的任务,点击追加评测

    image

  2. 添加智能体,点击确定

    image

  3. 确认追加评测的任务信息后,点击开始评测

    image

  4. 查看评测结果,请参见分析评测结果

常见问题

模型 Token 的预估平均消耗和预估最大消耗有什么区别?为什么实际消耗与预估消耗不符?

  • 预估平均消耗参考值,最终用量请以实际账单为准。

  • 预估最大消耗理论上限,基于模型最大输入输出 Token 长度计算,实际消耗不会超过这个值。

为什么评测集生成和应用评测的进度长时间保持在0%?

评测集生成和应用评测均为离线任务,需在后台排队执行,排队期间进度将保持0%。任务开始执行后,进度会自动更新。

评测任务运行时,关闭应用观测会有什么影响?

为确保评测任务正常运行,请勿在评测期间关闭应用观测,否则可能导致评测任务失败、数据丢失或最终评测报告不准确。

为什么评测报告中的评测任务数量与设置的不符?

自动评测可能会失败。评测报告只显示成功完成评测的任务数量,失败的任务不计入最终正确率的计算。

为什么评测任务失败了,还会消耗 Token?

评测任务是分步执行的。每个成功完成的步骤都会消耗 Token 并计费。如果任务在后续步骤失败,此前已消耗的 Token 仍然会计入用量。