评测任务

更新时间:
复制为 MD 格式

评测任务是应用评测的核心功能,用于对应用的输出质量进行系统化评估。支持智能体应用和工作流应用的评测,可结合自动评估器和人工标签进行多维度评价。

评测任务页面左上角单击返回旧版,可返回旧版应用评测

创建评测任务

  1. 访问评测任务页面,单击创建评测任务,配置以下基本信息:

    image

    字段

    说明

    任务名称

    自定义任务名称,最多50个字符。

    任务描述

    描述任务的目的或用途,最多200个字符。

    选择评测集

    从已发布的评测集列表中选择评测集和对应版本。

    选择应用

    选择应用关联方式,支持三种选项:

    • 不关联应用(默认):不关联任何应用,适用于纯人工标注场景。

    • 工作流:关联工作流应用,系统将使用评测集数据调用工作流进行评测。

    • 智能体:关联智能体应用,系统将使用评测集数据调用智能体进行评测。

    标签

    为评测任务添加标签,用于人工标注(可选):

    • 点击添加标签按钮,从标签列表中选择需要的标签。

    • 标签将用于任务详情页的人工标注功能。

    • 创建任务后也可以在任务详情页中单击标签配置添加标签。

  2. 确认所有配置后,点击完成创建按钮创建评测任务。

说明

注意:评测任务发起后将无法修改配置。

管理任务

评测任务创建后,可单击评测任务右侧的详情进入任务详情页。

image

在任务详情页可查看数据明细和指标统计:

image

  • 数据明细:展示每条评测数据的详细结果,可进行数据标注、标签配置等操作。

    • 标签配置:可为评测任务添加标签。

    • 标注模式:

      • 普通模式:页面平铺展示,字段横向排列。

      • 快速标注:点击后,自定义标签变为可编辑状态。分类标签显示为下拉选择,输入类型显示为输入框,修改后立即保存。

      两种模式下均可点击标注查看单条数据的完整信息,进行逐条标注。

      image

  • 指标统计:展示综合得分和评测进度等信息。image

常见问题

  1. 评测任务创建后可以修改吗?

    评测任务创建后,任务配置(应用、评测集)不可修改,但您可以随时添加人工标签进行标注。如需使用不同配置,请创建新的评测任务。

  1. "不关联应用"选项的作用?

    "不关联应用"适用于纯人工标注场景。选择此选项后,系统不会自动调用任何应用进行评测,您需要完全依靠人工标签进行数据标注和评价。

  2. 如何返回旧版应用评测?

    访问应用评测页面,在左上角单击返回旧版image