评测任务是应用评测的核心功能,用于对应用的输出质量进行系统化评估。支持智能体应用和工作流应用的评测,可结合自动评估器和人工标签进行多维度评价。
在评测任务页面左上角单击返回旧版,可返回旧版应用评测。
创建评测任务
访问评测任务页面,单击创建评测任务,配置以下基本信息:

字段
说明
任务名称
自定义任务名称,最多50个字符。
任务描述
描述任务的目的或用途,最多200个字符。
选择评测集
从已发布的评测集列表中选择评测集和对应版本。
选择应用
选择应用关联方式,支持三种选项:
不关联应用(默认):不关联任何应用,适用于纯人工标注场景。
工作流:关联工作流应用,系统将使用评测集数据调用工作流进行评测。
智能体:关联智能体应用,系统将使用评测集数据调用智能体进行评测。
标签
为评测任务添加标签,用于人工标注(可选):
点击添加标签按钮,从标签列表中选择需要的标签。
标签将用于任务详情页的人工标注功能。
创建任务后也可以在任务详情页中单击标签配置添加标签。
确认所有配置后,点击完成创建按钮创建评测任务。
注意:评测任务发起后将无法修改配置。
管理任务
评测任务创建后,可单击评测任务右侧的详情进入任务详情页。

在任务详情页可查看数据明细和指标统计:

数据明细:展示每条评测数据的详细结果,可进行数据标注、标签配置等操作。
标签配置:可为评测任务添加标签。
标注模式:
普通模式:页面平铺展示,字段横向排列。
快速标注:点击后,自定义标签变为可编辑状态。分类标签显示为下拉选择,输入类型显示为输入框,修改后立即保存。
两种模式下均可点击标注查看单条数据的完整信息,进行逐条标注。

指标统计:展示综合得分和评测进度等信息。

常见问题
评测任务创建后可以修改吗?
评测任务创建后,任务配置(应用、评测集)不可修改,但您可以随时添加人工标签进行标注。如需使用不同配置,请创建新的评测任务。
"不关联应用"选项的作用?
"不关联应用"适用于纯人工标注场景。选择此选项后,系统不会自动调用任何应用进行评测,您需要完全依靠人工标签进行数据标注和评价。
如何返回旧版应用评测?
访问应用评测页面,在左上角单击返回旧版。

