评估任务

更新时间:
复制 MD 格式

评估任务是通过组合特定的评估数据源及若干评估指标(评估器),执行自动化评测动作并产出评估结果的过程。通过深度分析任务结果,开发者可以精准量化 AI 应用的真实水平,获得有助于业务发布、配置调优及成本优化等核心决策的关键信息。本文档将指导您如何创建、配置并管理评估任务。

创建评估任务

创建评估任务是将"待测数据"与"评测标准"进行深度绑定的过程,分为数据配置与评估器映射两个核心阶段。

步骤一:数据配置

本步骤定义了评估任务的边界,决定了系统"去哪里取数"以及"按什么频率取数"。

基础配置

  • 任务名称(必填):为任务起一个描述性的名称,如"电商客服场景整体测试"。

  • 任务描述(可选):补充说明评估任务的目的和范围。

数据来源

数据来源决定了评估任务从哪里获取被评估的数据,支持三种类型:

来源类型

说明

适用场景

链路(Trace)

从 Agent 应用的调用链路中获取评估数据

线上流量评估、持续监控

日志(Log)

从日志系统中获取数据

基于日志的离线分析

数据集(Dataset)

使用预先准备好的测试数据

上线前测试、版本对比、回归评估

运行策略

您可以根据业务需求灵活选择一种或多种运行模式:

  • 基于新数据持续评估:开启后,系统将化身“实时岗哨”,一旦产生新数据即自动触发评估。

  • 基于历史数据评估:开启后,系统对选定时间段内的既有数据进行批量回溯。支持“数据预览”以验证样本完整性。

采样配置

  • 采样比例:0%~100%,通过滑动条设置。高采样率适用于精细评估,低采样率适用于高流量场景下的成本控制。

  • 最大样本数:限制单次评估的最大数据条数,避免过度消耗资源。

说明:采样配置的核心原则:在统计可信度和成本之间取得平衡。对于上线前的全面测试,建议使用100%采样;对于线上持续监控,建议根据流量大小设置10%~50%的采样率。

步骤二:选择评估器

本步骤定义了“用什么标准评”以及“裁判如何读懂数据”。

  • 预览数据:实时显示数据源的预览效果,帮助你了解实际数据结构,确认变量映射是否正确。

  • 评估器列表:支持从“预置评估器”或“自定义评估器”库中多选,实现对同一批数据进行多维度并行评估。

选中某个评估器后,右侧展示:

  • 评估器名称和类型标签

  • 该评估器需要的输入变量列表

  • 变量的来源字段映射(系统自动匹配或手动指定)

变量映射确保评估器 Prompt 中的变量能正确对应到实际数据中的字段。例如,input 变量映射到 Span 数据中的用户输入字段,output 映射到 Agent 输出字段。

配置完成后点击「保存并运行」,任务即开始执行。

评估任务列表

评估任务列表页展示所有已创建的任务,包含以下信息:

列名

说明

任务名称/ID

任务标识,点击可进入详情

描述

任务的补充说明

数据来源

数据来源类型(链路/日志/数据集)

状态

当前运行状态,包括待运行、调度中、运行中、已完成、失败、已终止等。

创建时间

任务创建时间

更新时间

任务更新时间

管理评估任务

在任务列表中,支持以下操作:

  • 启动:启动已停止的任务

  • 停止:暂停正在运行的任务

  • 编辑任务:修改任务配置(描述、运行策略、评估器等)

  • 开启运行:触发一次新的评估执行

  • 复制:基于现有任务配置快速创建新任务

  • 删除:删除任务(删除任务后并不影响历史数据查看)。