人工评测智能体应用需要手动构建评测集,耗时费力,同时评测结果依赖领域专家的判断,专业但过于主观,难以量化。阿里云百炼提供了自动评测功能,利用大模型基于指定应用知识库来自动创建评测集,评估智能体的回答并产出评测报告与调优建议。自动评测支持单应用评测或多应用横向评测。
效果展示
单应用评测
功能:支持查看应用总体得分及 BadCase 分析。
选择建议:聚焦单个智能体或单个版本时优先选择,用于快速定位问题及优化智能体应用
多应用评测
功能:支持查看各应用总体得分及 BadCase,支持查看各应用的性能差异对比。
选择建议:用于多智能体选型或不同版本横向对比,为应用选型提供决策依据。
前提条件
自动评测
自动评测主要包括创建评测任务、生成评测集、设置评测规则、发起评测和分析评测结果。
创建评测任务
进入阿里云百炼控制台自动评测界面,点击创建评测任务。
子账号(RAM用户)需获取管理员
或应用评测-操作
页面权限,才能够使用自动评测功能。
选择评测应用。
在选择智能体界面左侧选择用于评测的智能体应用,在右侧勾选对应的版本。
多应用横向评测时,最多同时支持8个不同智能体应用的横向评测,同一智能体的不同版本被视为不同应用。
自动评测仅面向已发布的智能体应用。
在下方的选择知识库范围界面勾选用于评测的知识库。在下方可以看到已选知识库的数量。
多应用横向评测时,请确保所选智能体存在公共知识库。
确认选择无误后,点击下一步。
生成评测集
评测集支持生成评测集和选择已有评测集两种方式,下面主要介绍生成评测集。
生成评测集:基于上一步选中的知识库,由大模型自动生成评测集。
选择已有评测集:复用已有评测集,需确保评测集题目基于待评测应用所用的知识库构建。
输入评测集名称。
选择任务类型。任务类型是指大模型基于知识库生成评测集时所生成问题的类型,默认存在四种类型:事实型、分析型、比较型、教程型。也可以点击增加任务类型以自定义新的任务类型。至少需要选择2种任务类型,最多不超过8种。
选择模型。该模型用于根据知识库内容生成评测任务。为保障生成评测集的质量,目前仅支持使用
qwen-max
和qwen-plus
两款通义千问系列主干模型。模型能力和计费规则请参考模型列表与价格。模型选择完毕后,下方将显示预估平均消耗和预估最大消耗。知识库数量、知识库内容量、任务类型数量越大,消耗的 Token 数量越大。评测完成后,可以在自动评测页面查看实际 Token 消耗明细。
重要预估平均消耗是参考值,最终用量请以实际账单为准。
预估最大消耗是理论上限,基于模型最大输入输出 Token 长度计算,实际消耗不会超过这个值。
点击生成评测集,在弹出页面确认配置信息。确认无误后,点击继续生成。
等待评测集生成。可以返回自动评测界面查看评测集生成进度。
查看评测集。
设置评测规则
选择分类采样数。可以从完整的评测集中随机采样若干条数据用于最终的评测。
选择模型。该模型用于根据评测数据对智能体应用评测与评分。为保障评测结果的准确性,目前仅支持
qwen-max
和qwen-plus
两款通义千问系列主干模型,请根据实际需要选择合适的模型。模型能力和计费规则请参考模型列表与价格。模型选择完毕后,下方将显示预估平均消耗和预估最大消耗。采样的评测数据越多,消耗的 Token 数量越大。评测完成后,可在自动评测页面查看实际 Token 消耗明细。
重要预估平均消耗是参考值,最终用量请以实际账单为准。
预估最大消耗是理论上限,基于模型最大输入输出 Token 长度计算,实际消耗不会超过这个值。
试运行(可选)
在正式评测之前,可以选择试运行以预览评测效果。
点击试运行。
在试运行应用选择下拉框中选择应用,试运行仅支持单个应用的评测结果预览。试运行会为每一个任务类型随机采样一条数据,可以点击重新采样更换采样数据。
试运行预计消耗 Token 数是参考值,最终用量请以实际账单为准。
点击试运行查看结果。大模型会对评测结果进行评分(满分为5分),分数≧4分表示该评测结果正确,分数<4分表示结果错误。
正式评测
分析评测结果
在评测报告中可以查看评测结果数据。点击下载评测结果获取详细评测结果。
自动评测可能失败,正确率以实际评测计数为基数计算占比。
单应用评测结果分析。
评测得分会展示应用在每一类评测任务上的得分,大模型打分≧4分(满分为5分)表示该评测结果正确,大模型打分<4分表示该评测结果错误。
BadCase 列表会展示 Top-5 的 错误评测结果,点击查看全部数据可以查看全部错误评测结果。
根据错误评测数据,提供相应的调优建议。
RAG 智能体评价部分展示了应用评测的详细得分情况。
多应用评测结果分析。
评测得分展示了各应用在不同评测任务上的得分对比。
当参与评测的应用数量≥5个时,可以筛选部分应用,聚焦对比。点击应用名即可选中或取消选中。
可以查看指定应用的 BadCase 分析、调优建议及详细得分情况。
追加评测(可选)
在评测完成后,可以通过追加评测来增加参与评测的应用。
追加评测只支持增加应用数量,不支持更换或修改评测集。参与评测的智能体总数不超过8个。
常见问题
模型 Token 的预估平均消耗和预估最大消耗有什么区别?为什么实际消耗与预估消耗不符?
预估平均消耗是参考值,最终用量请以实际账单为准。
预估最大消耗是理论上限,基于模型最大输入输出 Token 长度计算,实际消耗不会超过这个值。
为什么评测集生成和应用评测的进度长时间保持在0%?
评测集生成和应用评测均为离线任务,需在后台排队执行,排队期间进度将保持0%。任务开始执行后,进度会自动更新。
评测任务运行时,关闭应用观测会有什么影响?
为确保评测任务正常运行,请勿在评测期间关闭应用观测,否则可能导致评测任务失败、数据丢失或最终评测报告不准确。
为什么评测报告中的评测任务数量与设置的不符?
自动评测可能会失败。评测报告只显示成功完成评测的任务数量,失败的任务不计入最终正确率的计算。
为什么评测任务失败了,还会消耗 Token?
评测任务是分步执行的。每个成功完成的步骤都会消耗 Token 并计费。如果任务在后续步骤失败,此前已消耗的 Token 仍然会计入用量。