评测集是应用评测的数据基础,用于存储和管理评测数据。阿里云百炼支持智能体、工作流和自定义三种类型的评测集,帮助您构建适合业务需求的评测体系。
功能概述
评测集是评测任务的数据来源,当前支持三种评测集类型:
类型 | 说明 |
智能体 | 根据选中智能体应用的出入参形式,定义评测集。适用于智能体应用的评测。 |
工作流 | 根据选中工作流应用的出入参形式,定义评测集。适用于工作流应用的评测。 |
自定义 | 任意定义评测集的表结构。适用于自定义评测场景。 |
访问评测集页面开始使用。
创建评测集时,请根据评测任务类型选择合适的评测集类型。创建后类型不可修改。
创建评测集
方式一:手动上传
访问应用评测页面,单击创建评测集:
配置以下信息:
评测集名称:自定义评测集名称(必填,最多50个字符)。
描述:评测集的描述信息(可选,最多200个字符)。
立即发布:选择是否在创建后立即发布。选择“否”则保存为草稿状态。
存储位置:固定为平台存储。
导入方式:选择本地上传。
类型:选择智能体、工作流或自定义。
选择应用:(智能体/工作流类型)选择要评测的应用和版本,系统会根据应用的出入参形式生成数据模板。
自定义:自定义评测集允许您任意定义评测集的表结构,适用于特殊评测场景或自定义评测需求。
编辑表结构:查看或编辑评测集的字段结构。智能体和工作流类型会自动生成结构,自定义类型需手动定义,可点击添加列按钮,自定义字段名称和类型。
请导入数据:点击EXCEL数据模板下载模板文件,填写数据后上传。支持xls/xlsx格式,文件大小限制20MB以内。
单击确认后,评测集将显示在列表中。

方式二:从应用观测导入
您可以访问应用观测页面,将真实数据添加到评测集。
评测集管理
发布评测集
创建的评测集需要发布后才能用于评测任务:访问评测集详情页,单击发布,等待发布状态显示已发布。

评测集详情
在评测集详情页,您可以进行以下操作:
查看数据:浏览评测集中的所有数据条目。
编辑表头:修改数据内容,添加或删除列等(仅草稿状态)。
添加数据:追加导入新的数据文件。
导出:导出评测集数据到文件。
删除:删除评测集(已发布的评测集如被引用则无法删除)。
版本管理
评测集支持版本管理,每次发布会生成新版本:创建评测任务时可选择使用特定版本的评测集。
下一步
创建评测任务:评测任务。