评估任务
评估任务是通过组合特定的评估数据源及若干评估指标(评估器),执行自动化评测动作并产出评估结果的过程。通过深度分析任务结果,开发者可以精准量化 AI 应用的真实水平,获得有助于业务发布、配置调优及成本优化等核心决策的关键信息。本文档将指导您如何创建、配置并管理评估任务。
创建评估任务
创建评估任务是将"待测数据"与"评测标准"进行深度绑定的过程,分为数据配置与评估器映射两个核心阶段。
步骤一:数据配置
本步骤定义了评估任务的边界,决定了系统"去哪里取数"以及"按什么频率取数"。
基础配置
任务名称(必填):为任务起一个描述性的名称,如"电商客服场景整体测试"。
任务描述(可选):补充说明评估任务的目的和范围。
数据来源
数据来源决定了评估任务从哪里获取被评估的数据,支持三种类型:
来源类型 | 说明 | 适用场景 |
链路(Trace) | 从 Agent 应用的调用链路中获取评估数据 | 线上流量评估、持续监控 |
日志(Log) | 从日志系统中获取数据 | 基于日志的离线分析 |
数据集(Dataset) | 使用预先准备好的测试数据 | 上线前测试、版本对比、回归评估 |
运行策略
您可以根据业务需求灵活选择一种或多种运行模式:
基于新数据持续评估:开启后,系统将化身“实时岗哨”,一旦产生新数据即自动触发评估。
基于历史数据评估:开启后,系统对选定时间段内的既有数据进行批量回溯。支持“数据预览”以验证样本完整性。
采样配置
采样比例:0%~100%,通过滑动条设置。高采样率适用于精细评估,低采样率适用于高流量场景下的成本控制。
最大样本数:限制单次评估的最大数据条数,避免过度消耗资源。
说明:采样配置的核心原则:在统计可信度和成本之间取得平衡。对于上线前的全面测试,建议使用100%采样;对于线上持续监控,建议根据流量大小设置10%~50%的采样率。
步骤二:选择评估器
本步骤定义了“用什么标准评”以及“裁判如何读懂数据”。
预览数据:实时显示数据源的预览效果,帮助你了解实际数据结构,确认变量映射是否正确。
评估器列表:支持从“预置评估器”或“自定义评估器”库中多选,实现对同一批数据进行多维度并行评估。
选中某个评估器后,右侧展示:
评估器名称和类型标签
该评估器需要的输入变量列表
变量的来源字段映射(系统自动匹配或手动指定)
变量映射确保评估器 Prompt 中的变量能正确对应到实际数据中的字段。例如,input 变量映射到 Span 数据中的用户输入字段,output 映射到 Agent 输出字段。
配置完成后点击「保存并运行」,任务即开始执行。
评估任务列表
评估任务列表页展示所有已创建的任务,包含以下信息:
列名 | 说明 |
任务名称/ID | 任务标识,点击可进入详情 |
描述 | 任务的补充说明 |
数据来源 | 数据来源类型(链路/日志/数据集) |
状态 | 当前运行状态,包括待运行、调度中、运行中、已完成、失败、已终止等。 |
创建时间 | 任务创建时间 |
更新时间 | 任务更新时间 |
管理评估任务
在任务列表中,支持以下操作:
启动:启动已停止的任务
停止:暂停正在运行的任务
编辑任务:修改任务配置(描述、运行策略、评估器等)
开启运行:触发一次新的评估执行
复制:基于现有任务配置快速创建新任务
删除:删除任务(删除任务后并不影响历史数据查看)。