评估任务-Agent 观测与优化 AgentLoop(AgentLoop)-阿里云帮助中心

评估任务是通过组合特定的评估数据源及若干评估指标（评估器），执行自动化评测动作并产出评估结果的过程。通过深度分析任务结果，开发者可以精准量化 AI 应用的真实水平，获得有助于业务发布、配置调优及成本优化等核心决策的关键信息。本文档将指导您如何创建、配置并管理评估任务。

创建评估任务

创建评估任务是将"待测数据"与"评测标准"进行深度绑定的过程，分为数据配置与评估器映射两个核心阶段。

本步骤定义了评估任务的边界，决定了系统"去哪里取数"以及"按什么频率取数"。

基础配置

数据来源

数据来源决定了评估任务从哪里获取被评估的数据，支持三种类型：

运行策略

您可以根据业务需求灵活选择一种或多种运行模式：

采样配置

说明：采样配置的核心原则：在统计可信度和成本之间取得平衡。对于上线前的全面测试，建议使用100%采样；对于线上持续监控，建议根据流量大小设置10%~50%的采样率。

本步骤定义了“用什么标准评”以及“裁判如何读懂数据”。

选中某个评估器后，右侧展示：

变量映射确保评估器 Prompt 中的变量能正确对应到实际数据中的字段。例如，input 变量映射到 Span 数据中的用户输入字段，output 映射到 Agent 输出字段。

配置完成后点击「保存并运行」，任务即开始执行。

评估任务列表页展示所有已创建的任务，包含以下信息：

列名	说明
任务名称/ID	任务标识，点击可进入详情
描述	任务的补充说明
数据来源	数据来源类型（链路/日志/数据集）
状态	当前运行状态，包括待运行、调度中、运行中、已完成、失败、已终止等。
创建时间	任务创建时间
更新时间	任务更新时间

在任务列表中，支持以下操作：